前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 |
次に間違いやすい例を2、3挙げてみましょう。 表5.1.1と全く同じxに対して表5.2.1のような4種類のyがあったとします。
No. | x | y1 | y2 | y3 | y4 |
---|---|---|---|---|---|
1 | 10 | 8.04 | 9.14 | 7.46 | 9.42 |
2 | 8 | 6.95 | 8.14 | 6.77 | 5.18 |
3 | 13 | 7.58 | 8.74 | 12.74 | 9.08 |
4 | 9 | 8.81 | 8.77 | 7.11 | 9.53 |
5 | 11 | 8.33 | 9.26 | 7.81 | 9.30 |
6 | 14 | 9.96 | 8.10 | 8.84 | 8.97 |
7 | 6 | 7.24 | 6.13 | 6.08 | 5.40 |
8 | 4 | 4.26 | 3.10 | 5.39 | 5.62 |
9 | 12 | 10.84 | 9.13 | 8.15 | 9.20 |
10 | 7 | 4.82 | 7.26 | 6.42 | 5.29 |
11 | 5 | 5.68 | 4.74 | 5.73 | 5.51 |
平均値 | 9 | 7.50 | 7.50 | 7.50 | 7.50 |
xと4種類のyについて相関係数と直線回帰式を計算すると、それらは全て次のようになります。
しかしこれらのデータの散布図を描いてみると、驚くべきことに――このデータには苦労したんですから、少しは驚いて下さい!――図5.2.1のように内容はまるで違っています。
y1は例題と同じデータであり、これは正解です。
y2はプロットが放物線状になっていて、そのまま相関係数や回帰直線を計算してはいけない例です。 そのまま計算した回帰直線を信頼すると、xが1増加するとyが0.5増加すると解釈してしまいます。 ところが実際にはxが10まではxが増加するとyも増加しますが、10を超えるとxが増加するとyは減少しています。 そこでx2の項も加えて放物線によって回帰すると次のようになり、各データはほぼ放物線上に並びます。 そしてこの回帰曲線を利用してyが最大値になる時のxの値を逆推定することができます。
y3は外れ値(異常値)の例です。 3番目のデータ12.74を除くと次のようにきれいになります。
ただし、だからといって3番目のデータは除外しても良いというわけではなく、
「3番目のデータだけは他のデータと違って、x以外の因子によっても動かされている可能性が高い」
外れ値の影響を受けにくいノンパラメトリックな回帰分析として回帰係数の中央値に基づくパッシング・パブロック(Passing-Bablock)法や、目的変数の中央値を利用した抵抗直線などがあります。 そして外れ値がある時はそれらの手法を適用した方が良いという考え方があります。 しかし外れ値がx以外の因子によっても動かされている時にそれらの手法を適用してしまうと、外れ値を正しく解釈することはできません。
外れ値はひょっとすると何か新しい現象なのかもしれませんし、そこから新しい発見があるかもしれません。
そのため外れ値がある時は、
y4は質的に異なった2種類のデータを一緒にしてしまっている可能性が高い例です。 例えば2,7,8,10,11番のデータ——xの値で4〜8——は雄のデータ、残りは雌のデータとして別々に計算すると、次のようにどちらもほぼ完全に直線上に並びます。 しかもこの時のxとyの回帰係数は負になり、全体で計算した時と矛盾した結果になります。
y1〜y3は回帰直線ならぬ怪奇直線の見本として、知る人ぞ知る、一部の人にはよく知られたデータです。 y4は私の作ったデータで、知る人ぞ知らず、残念ながら誰にも知られていません。 (注1)
もちろん、これらは作為的に作ったデータです。 でもこれらに類することは実際の試験でも十分に起こり得ることです。 データが多数になるといちいち散布図を描くのが面倒なので、どうしても計算結果だけを見てデータの内容を判断してしまいがちです。 しかし葬患係数や怪奇直線を作らないためにも、できるだけ散布図を描き、目で見て判断してから適切な方法で解析することが大切です。
ちなみにy4のデータについて雄のデータがもうひとつあり、そのxの値が10で他のデータと同様に回帰直線上に乗っていたとします。 するとそのy4の値はy4 = 6.06 - 0.11×10 = 4.96になります。 雄のデータを1つ追加する理由は、次の説明のために雄と雌の例数を同じにするためです。 そしてxを薬物の用量としてx = 9.5よりも低い値を低用量群、高い値を高用量群とします。 さらにy4を効果としてy4 = 7.5よりも低い値を無効、高い値を有効に分類したとします。
この2つの用量群と有効/無効の関係を全体、雄だけ、雌だけについてそれぞれ2×2分割表にまとめると次のようになります。
群\効果 | 無効 | 有効 | 計 |
---|---|---|---|
低用量群 | 5(83%) | 1(17%) | 6(100%) |
高用量群 | 1(17%) | 5(83%) | 6(100%) |
計 | 6 | 6 | 12 |
群\効果 | 無効 | 有効 | 計 |
---|---|---|---|
低用量群 | 5(100%) | 0(0%) | 5(100%) |
高用量群 | 1(100%) | 0(0%) | 1(100%) |
計 | 6 | 0 | 6 |
群\効果 | 無効 | 有効 | 計 |
---|---|---|---|
低用量群 | 0(0%) | 1(100%) | 1(100%) |
高用量群 | 0(0%) | 5(100%) | 5(100%) |
計 | 0 | 6 | 6 |
全体の分割表を見ると、低用量群の有効率よりも高用量群の有効率のほうが高く、ちょうど図5.2.1の散布図のように用量−効果の間に正の関連性があるように見えてしまいます。 しかし雄だけの分割表と雌だけの分割表を見ると、雄は用量とは無関係に全例無効、雌は用量とは無関係に全例有効であり、用量−効果関係はありません。
このように、層別解析した時に層ごとの結果と全体の結果が矛盾してしまう現象のことをシンプソンのパラドックス(Simpson's paradox)といいます。 この現象は結果に影響を与える因子——交絡因子(confounding factor)、この場合は性別——の違いを考慮せずに、複数のデータを一緒にして解析することから生じるものです。 図5.2.1を見るとその原理がよくわかると思います。 (→第8章 共分散分析)
臨床試験などで、ある項目と別の項目について2つの時期でデータが測定されている時に、それらの項目が関連しながら変化しているかどうかを調べたい時があります。 例えば、ある薬剤の投与前後で収縮期血圧と拡張期血圧を測定した次のようなデータがあり、これらの項目が関連しながら変化しているかどうかを調べたいとします。
収縮期血圧 | 拡張期血圧 | |||||
---|---|---|---|---|---|---|
No. | 投与前 | 投与後 | 変化量 | 投与前 | 投与後 | 変化量 |
1 | 160 | 130 | -30 | 87 | 81 | -6 |
2 | 150 | 121 | -29 | 92 | 75 | -17 |
3 | 142 | 119 | -23 | 96 | 79 | -17 |
4 | 141 | 119 | -22 | 89 | 78 | -11 |
5 | 140 | 120 | -20 | 90 | 80 | -10 |
6 | 139 | 116 | -23 | 91 | 77 | -14 |
7 | 139 | 140 | 1 | 88 | 90 | 2 |
8 | 136 | 109 | -27 | 82 | 72 | -10 |
9 | 129 | 104 | -25 | 85 | 86 | 1 |
10 | 124 | 122 | -2 | 100 | 82 | -18 |
平均値 | 140 | 120 | -20 | 90 | 80 | -10 |
この場合、時期別にそれぞれ相関係数を計算したり、項目別に投与前後の変化量を計算し、その変化量について相関係数を計算したりすることがよくあります。 しかしそれらはどちらも間違いです。
たとえ時期別に相関係数が大きくても2つの項目が関連して動いているとはいえないことは、図5.2.2の(2)を見ればすぐわかると思います。 つまり全ての症例について収縮期血圧だけが一定の値——例えば20mmHg低下したとすると、プロットは左(xが小さくなる方向)に平行移動しただけになります。 そのため2つの項目が関連して変化していなくても、投与前の相関係数が大きければ投与後の相関係数も大きくなります。 また反対に拡張期血圧だけが一定の値——例えば10mmHg低下したとしても同様です。
変化量の相関係数は非常に誤解しやすいので、図5.2.2の(1)〜(4)を見ながらよく考えてみましょう。 仮に2つの項目が完全に関連して変化していて、全てのデータについて収縮期血圧が20mmHg低下し、拡張期血圧が10mmHg低下したとします。 するとその変化量は全て(-20、-10)になり、変化量のプロットは1点に集まってしまいます。 反対に2つの項目が完全に独立に変化していて、半分のデータについては収縮期血圧だけが20mmHg低下し、あと半分は拡張期血圧だけが10mmHg低下したとします。 するとその変化量は(-20、0)と(0 、-10)の2種類になり、変化量のプロットは2点に集まってしまいます。
こうして2つの項目が関連して変化している時には変化量の相関係数はほぼ0になり、独立に変化している時には変化量の相関係数はほぼ-1になります。 もちろん実際のデータにはバラツキがあるので、完全に1点に集まることはないでしょう。 しかし変化量の相関係数を計算することの非合理性は理解していただけると思います。
また全てのデータが収縮期血圧は20mmHg上昇し、拡張期血圧は10mmHg低下したとします。 すると図5.2.3のように時期別には相関係数が正であっても、2つの項目はお互いに反対方向に関連して変化したことになります。 つまり2つの項目の間に相関関係があるということと、2つの項目が関連して変化するということは本来別のものであり、はっきりと区別しなければならない現象なのです。 ただ自然の状態で相関関係がある項目は、その相関関係の方向にそって——つまり正の相関関係があれば互いに同じ方向に、負の相関関係があれば互いに反対の方向に——変化しやすいのでそれらを混同してしまいがちなのです。
では変化の関連性を要約するには、一体どのようにすれば良いでしょうか? それには通常とは多少異なった相関係数と回帰直線を用いる必要があります。 投与前後の変化量は偏差の一種と考えられるので、5.1節で相関係数の計算に使用した平均値からの偏差を前後の変化量に置き換えて次のように定義します。
これに応じて積和や平方和も次のように定義します。
この時の相関係数と寄与率の定義式は次のようになります。
この相関係数が正の値になった時はxとyの変化量が同一符号のものが多い、つまり変化量のプロットにおいて第I・III象限のプロット数が多く、2つの項目が同じ方向に変化している正の関連性があることになります。 反対に負の値になった時は変化量が反対符号のものが多い、つまり変化量のプロットにおいて第II・IV象限のプロット数が多く、2つの項目が反対方向に変化している負の関連性があることになります。 そこでこの相関係数を連動係数と名付け、l(エル)で表すことにします。
また通常の直線回帰式を変形して、偏差に関する直線回帰式にすると次のようになります。
したがって変化量に当てはめるべき回帰直線は、次のように定数項を無くして切片を0にした回帰式になります。 (注2)
この時の回帰係数bはxとyの変化量が平均してどのような比になっているのか、つまり2つの項目が平均してどのような比で変化しているのかを表す値です。 2つの項目が一定の比で変化していれば全ての変化量のプロットが回帰直線上に乗り、連動係数が「1」または「-1」になります。 したがってこの回帰直線のことを連動回帰直線と呼ぶことにします。
また変化量の全データのうち連動回帰直線によって説明されるデータの割合つまり寄与率は、連動係数を平方した値に一致します。 この値はxとyが一定の比で変化している割合を表わすので、連動率または連動一致係数と呼ぶことにします。
通常の相関係数や回帰直線と同様に、連動係数と連動回帰直線についても検定を行なうことができます。 これは自由度が異なるだけで通常の相関係数や回帰直線の検定とほぼ同じものであり、やはり有意性検定と統計的仮設検定があります。 (注3)
自由度が(n - 2)ではなく(n - 1)になるのは、各データから平均を引いて偏差を計算したのではなく前後の差を偏差にしたためです。 またδλを設定する時は連動率を参考にします。 そして連動率の基準は寄与率と同様で良いでしょう。
ここで有意水準5%として、表5.2.5の例題について実際に計算してみましょう。
以上のように検定結果が有意で連動率が60%もあるので、次のように結論できそうです。
「収縮期血圧と拡張期血圧は正に関連しながら低下した」
この場合、収縮期血圧と拡張期血圧の間に関連性があることは確かでしょうが、それが相関関係――お互いに影響を与え合っているという関係――なのか、それとも因果関係――一方が原因で、もう一方が結果という関係――なのかはわかりません。 そしてもし因果関係だとしても、どちらが原因でどちらが結果かは判断できません。 したがって連動回帰直線は計算不可能です。 しかし仮に収縮期血圧の低下が原因になって拡張期血圧が低下したとすれば、次のような連動回帰直線を求めることができます。 そしてこの式から収縮期血圧1mmHgの低下について拡張期血圧は約0.4mmHg低下することがわかります。
反対に拡張期血圧の低下が原因になって収縮期血圧が低下したとすれば、次のように拡張期血圧1mmHgの低下について収縮期血圧は約1.4mmHg低下することがわかります。
回帰直線の原理で説明したように、原因と結果を入れかえた時の連動回帰直線は一般に一致するとは限りません。 そのためこの例のように2つの項目の因果関係がはっきりしない時はどちらの連動回帰直線が適当なのか判断することができず、変化量の量的関係を正確に要約することはできません。 そこで仕方がないので前述のように原因と結果を入れかえた2本の連動回帰直線を計算し、その回帰係数から変化量の比を求めて、それらを変化量の量的関係の目安にします。 上の例題では次のように大雑把にとらえておけば良いでしょう。
いうまでもないことですが、収縮期血圧の平均低下量20mmHgと拡張期血圧の平均低下量10mmHgの比0.5は全体としての低下量の比を表すだけで、個々の症例における低下量の比を表すわけではありません。 したがってこの値によって低下量の量的関係を要約することは不適当です。
また個々の症例について低下量の比「r = 拡張期血圧低下量/収縮期血圧低下量」を計算し、その平均値を求めると次のように1以上になり、直観的な低下量の量的関係とくい違ってしまいます。
この原因は第2章第4節で説明した差と比の使い分けに関係しています。 つまり分母となるデータが小さい時は分子となるデータの誤差が相対的に大きくなり、平均値を大きく狂わせてしまうのです。 (→2.4 差と比とパーセントの使い分け)
臨床試験などでは、ある項目の値によって症例を選択する――これを範囲制限(restriction of range)といいます――ことがよくあります。 例えば「収縮期血圧が120mmHg以上または拡張期血圧が80mmHg以上の症例」だけを選んで試験を行なったとします。 すると図5.2.5のように本来は正の相関関係があっても相関係数が0に近い値になったり、場合によっては相関係数が負になったりして、正確な相関係数を求めることができなくなります。 (注5)
つまり自然な相関係数は全母集団から無作為抽出した標本でなければ求められないのです。 何らかの基準を設定して標本を選択した時は、自然な相関係数は求められない可能性が高くなります。 そのため相関係数を正確に計算できるのは、どちらの変数もコントロールせずに観察したデータつまり横断的研究で得られたデータだけということになります。
前向き研究または後ろ向き研究では一方の変数をコントロールすることが多く、相関係数を正確に計算することはできません。 そのような時に自然状態に近い相関係数を計算するには前後のデータを全て一緒にして相関係数を計算するという方法が考えられます。 こうすることによってデータ数も増え、サンプリングによって偏っていた集団も自然状態に近くなります。
例えば表5.2.5のデータをプロットすると図5.2.6のようになります。 この場合、薬剤投与前のデータは高血圧患者の標本と考えられ、投与後のデータは正常人に近い標本と考えられます。 そのため投与前後のデータを合わせた全時期のデータは、自然状態により近くなると考えられます。 このデータについて投与前、投与後、全時期の相関係数を計算すると次のようになります。
この結果と図5.2.6からわかるように、投与前のデータは自然な相関係数が求められずに負の相関係数になっています。 しかし正常人に近い投与後のデータも含めると正の相関係数になり、自然状態により近い相関係数になります。
ただしこの方法で計算した相関係数は選択された症例の変化に基づいているので、本当の「自然な相関係数」とは区別しなければなりません。 (2)節で説明したように、項目間に相関関係があるということと関連して変化するということは別の現象です。 そのため図5.2.3のように自然な相関関係の方向に変化していないデータは、前後のデータを一緒にしてもやはり正確な相関係数は求められないことになります。 また使用した薬剤が両方の項目に効果があり、どちらも同じように変化させたので本来は相関関係がないのにもかかわらず相関係数が大きくなり、見かけ上の相関が生じることもあり得ます。
以上のことから、試験結果はあくまでも標本集団と同じような背景因子を持つ準母集団にしかあてはめられず、むやみに一般化できるものではないということがわかると思います。 また統計手法はデータの種類と、そのデータを取得した研究デザインの種類に応じて色々なものが開発されています。 そのためそれらの手法の原理をよく理解して、適切に使い分けることが大切です。
Q(b)をbで微分して0と置いた方程式を解くと次のようになります。
時期1: | y11, | …, | y1i | …, | y1n | (i = 1,…,n) |
時期2: | y21, | …, | y2i, | …, | y2m | |
変化量: | dy1, | …, | dyi, | …, | dyn |
変化量dyを目的変数とし、説明変数として次のようなダミー変数dxを対応させます。
変化量: | dy = | dy1, | …, | dyi, | …, | dyn | (i = 1,…,n) |
dx = | 1, | …, | 1, | …, | 1 |
以上のように、この時の回帰係数bは変化量の平均値になり、回帰係数の検定は要因Aの検定つまり対応のあるt検定と一致します。 回帰の寄与率すなわち連動率は全変動に対する要因Aの寄与率ではなく、次のように全変動から要因Bの変動分を差し引いたものに対する要因Aの寄与率になります。
連動率と分散分析二元配置法におけるF値の間には、一元配置法と同じく次のような関係があります。
したがって対応のあるt検定におけるt値と連動率の関係は、対応のないt検定と同じく次のようになります。 (→3.3 2標本の計量値、4.1 多標本の計量値)
表5.2.5の例題について実際に計算すると次のようになります。