前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 | 6 | 8 | 9 |
1章3節で中心極限定理(CLT:central limit theorem)の説明をしました。 中心極限定理は「母集団がどんな分布をしていても標本平均値(などの十分統計量)の分布は漸近的に正規分布に近似する」というもので、推測統計学の基本定理です。 漸近的に(asymptotically)とは標本集団の例数が多いほど正規分布により近似するという意味であり、 母集団が正規分布をしていれば標本集団の例数とは無関係に標本平均値は正規分布をします。 (→1.3 データの要約方法、2.2 データの分布と統計手法 (注5))
医学分野にはデータの正規性をやたらと問題にしたがる悪しき慣習があります。 そのためデータが近似的に正規分布をしていないと、指標の医学的な意義を無視して平均値の代わりに中央値などのノンパラメトリックな指標を使ったり、平均値の検定(t検定)の代わりに順位和検定などのノンパラメトリックな手法を使いたがります。
しかしデータがどんな分布をしていても、中心極限定理によって標本平均値は近似的に正規分布します。 そしてパラメトリック手法は標本平均値の近似的な正規性に基づいた手法であり、元のデータの正規性に基づいているわけではありません。 そこで中心極限定理がどの程度有効なのかシミュレーションをしてみましょう。
まず母集団のデータが図1.3.3のような一様分布の時について検討してみましょう。 一様分布の例として1から10万までの整数10万個を母集団のデータにします。 この母集団は全てのデータが1個の離散型一様分布(discrete uniform distribution)になります。 そしてその累積度数分布を赤色の曲線で描き、母平均値と母標準偏差が同じ値の累積正規分布つまり理論的累積度数分布を黒色の点線で描いたグラフが図 付録2.1です。
この母集団から10例のデータを無作為抽出して標本集団にし、標本平均値を求めます。 そしてその10例を母集団に戻してから、また10例のデータを無作為抽出して標本平均値を求めるという操作を1万回繰り返すと1万個の標本平均値が得られます。 その標本平均値の累積度数分布を赤色の曲線で描き、平均値と標準誤差(=統計量の標準偏差)が同じ値の累積正規分布を黒色の点線で描いたグラフが図 付録2.2です。 このグラフを見ると2本の曲線がほとんど重なっているのがわかると思います。
それと同様にして標本集団のデータ数を100例、1000例にした時の標本平均値の累積度数分布を描き、さらに平均値と標準誤差が同じ値の累積正規分布を描くと、図 付録2.2の緑色の曲線と、その曲線とほとんど重なった黒色の点線、そして青色の曲線と、その曲線とほとんど重なった黒色の点線になります。
参考までに標本平均値を求める操作を繰り返した時の標本平均値の平均値、標準誤差、歪度、尖度の推移をグラフにしたものが図 付録2.3〜図 付録2.6です。 各グラフの黒色の点線で描いた横軸に平行な直線はそれぞれの指標の理論値を表します。
これらのグラフを見ると繰り返し数が少なくてもどの指標も理論値から大きくずれることはなく、繰り返し数がだいたい5000回以上になると値が安定することがわかると思います。 また歪度以外の指標は標本集団の例数が多いほど理論値からのズレが小さい傾向があることもわかると思います。 歪度については、母集団のデータが左右対称のため標本平均値の分布も近似的に左右対称になるはずなので歪度は標本集団の例数とは無関係に変化し、その変化は無作為抽出のランダム性に依存していると考えられます。
厳密にいうと、繰り返し数が多くなるほど標本平均値の平均値つまり期待値が母平均に近似するのは、中心極限定理ではなく標本平均値の不偏性(推定量の期待値が母数に一致する性質)によるものです。 また標本集団の例数が多いほど母平均値に近似するのは標本平均値の一致性(標本集団の例数を無限に大きくすると推定量の母数に一致する性質)によるものです。 それに対して標本集団の例数が多いほど、また繰り返し数が多くなるほど歪度と尖度が0に近づく、つまり標本平均値の分布が正規分布に近似するのは中心極限定理によるものです。 (→1.4 推定 (注4))
母集団のデータと標本平均値の基礎統計量は次のようになります。 これらの基礎統計量と図 付録2.1〜図 付録2.6から、母集団がたとえ一様分布していても標本集団のデータが10例以上あれば中心極限定理によって標本平均値はほぼ正規分布をすることがわかると思います。 またこの母集団は1から10万までの順位分布でもあり、標本平均値は順位平均値に相当します。 そのため母平均値と母分散と母標準偏差、そして標本平均値の標準誤差を理論的に求めることができます。 (→3.2 1標本の計数値 (注2))
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9326(93.26)←(e) | 179(1.79) | 9505(95.05)←(a) |
信頼区間外 | 135(1.35) | 360(3.60)←(e) | 495(4.95)←(b) |
計 | 9461(94.61)←(c) | 539(5.39)←(d) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9464(94.64) | 43(0.43) | 9507(95.07) |
信頼区間外 | 45(0.45) | 448(4.48) | 493(4.93) |
計 | 9509(95.09) | 491(4.91) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9510(95.10) | 11(0.11) | 9521(95.21) |
信頼区間外 | 20(0.20) | 459(4.59) | 479(4.79) |
計 | 9530(95.30) | 470(4.70) | 10000(100) |
1章4節と5節で説明したように、推定と検定は中心極限定理に基いて行います。 母集団のデータから求めた標本平均値の理論分布は近似的に正規分布になり、その平均値は母平均値と一致し、標準誤差は母分散と標本集団の例数から理論的に求めることができます。 そしてその分布における95%信頼区間と信頼区間外つまり5%棄却域も理論的に求めることができます。 (→1.4 推定、1.5 有意性検定の考え方)
そこでその信頼区間に入った標本平均値と入らなかった標本平均値の数を数えました。 例えば標本集団のデータが10例の時は、上記のように95%信頼区間の下限はμL = 32109.4で上限はμU = 67891.6になります。 そしてこの95%信頼区間に入った標本平均値は9505個あり、全体の95.05%でした。 これが本来の信頼区間であり、信頼係数95%の意味です。
また95%信頼区間外の領域が2.5%下側棄却域と2.5%上側棄却域になり、両方合わせて5%棄却域になります。 そしてこれらの棄却域に入った標本平均値は495個あり、全体の4.95%でした。 これが本来の棄却域であり、αエラーつまり有意水準5%の意味です。 実際、母平均値と母分散がわかっている時はこの棄却域を用いて検定を行います。
しかし実際のデータでは、たいてい母平均値と分散は不明です。 そこで母平均値として母平均推定値――検定では帰無仮説で仮定した母平均値――を用い、標準誤差は標本集団のデータから求めた不偏分散を用いて計算します。 そのため標本集団ごとに信頼区間と棄却域が微妙に変化します。 そしてその結果、母集団から求めた信頼区間と棄却域に入った標本平均値の個数と、標本集団から求めた信頼区間に母平均値が入った回数と棄却域に標本平均値が入った回数は微妙に食い違います。
例えば表 付録2.1のように標本集団から求めた95%信頼区間に母平均値が入った回数は9461回あり、全体の94.61%でした。 この割合を被覆確率と呼ぶことがあります。 そしてこの95%信頼区間に母平均値が入らなかった回数、つまり標本集団から求めた5%棄却域に標本平均値が入った回数は539回あり、全体の5.39%でした。 これが普通の95%信頼区間と有意水準5%の検定結果です。
この数字だけ見ると、母集団から求めた信頼区間に入った標本平均値の個数9505または棄却域に入った標本平均値の個数495と44個しか違わないように見えます。 しかしその内訳を見ると母集団と標本集団の判定が一致しているのは9326 + 360 = 9686個(一致率:96.86%)であり、179 + 135 = 314個(不一致率:3.14%)は判定が食い違っています。
この179個の標本平均値は母集団から求めた信頼区間に入っているにもかかわらず、標本集団から求めた信頼区間に母平均値が入っていません。 これは無作為に抽出した標本集団のデータがたまたま同じような値ばかりで不偏分散が小さくなり、標本集団から求めた信頼区間の幅が狭くなって母平均値が入らず、「標本平均値は棄却域に入っている」つまり「有意」と判定されてしまったのです。 したがってこの179個は診断学でいう「偽陽性」ということになります。
それに対して135個の標本平均値は母集団から求めた棄却域に入っているにもかかわらず、標本集団から求めた棄却域に標本平均値が入っていません。 これは無作為に抽出した標本集団のデータのバラツキが大きくて不偏分散が大きくなり、標本集団から求めた信頼区間の幅が広くなって母平均値が入り、「標本平均値は棄却域に入っていない」つまり「有意ではない」と判定されてしまったのです。 したがってこの135個は診断学でいう「偽陰性」ということになります。
95%信頼区間の被覆確率が94.61%という結果は、見かけ上は信頼区間と棄却域の信頼性はかなり高いと思いがちです。 ところが実際には標本平均値が母平均値の近くにあるにもかかわらず、信頼区間の幅が本来よりも狭いので母平均値が信頼区間に入らないことが1.79%あり、標本平均値が母平均値から遠く離れているにもかかわらず、信頼区間の幅が本来よりも広いので母平均値が信頼区間に入ることが1.35%あるのです。 そのため信頼区間と棄却域の信頼性は見かけよりも低いと考える必要があります。
この母集団と標本集団の判定の食い違いは不偏分散の信頼性の低さが原因ですから、標本集団の例数が多くなれば少なくなるはずです。 事実、標本集団の例数が100例の時の一致率は99.12%であり、1000例の時の一致率は99.69%ですから、一致率は次第に高くなっています。
以上のことから、標本集団の例数が10例でも100例でも1000例でも、標本集団から求めた信頼区間に母平均値が入った回数の割合は約95%で、棄却域に標本平均値が入った回数の割合は約5%であり、一見すると信頼区間と検定結果の信頼性は例数とは無関係のように思えます。 しかし母集団から求めた本来の信頼区間と検定結果との一致率は例数が多くなるほど高くなり、信頼区間と検定結果の信頼性が高くなることがわかります。 ただし例数が10例でも一致率が96.86%もあるので、母集団のデータが正規分布していなくてもt分布を利用した信頼区間と検定結果の信頼性はかなり高いといえるでしょう。
実際に平均値の推定と検定行う時は平均値の分布をそのまま用いず、平均値を標準化した値の分布を用います。 それによってどんなデータでも統一的に扱うことができて便利だからです。 その際、理想的には平均値を母平均値と母分散から求めた標準誤差で標準化し、z = (標本平均値 − 母平均値)/標準誤差とします。 母平均値と母分散は定数なので標準化したz値は近似的に標準正規分布N(0,12)をします。
図 付録2.23の赤色の曲線は、標本集団のデータが10例の時の標本平均値を母平均値50000.5と母分散から求めた標準誤差理論値9128.3で標準化してz値にし、その累積度数分布を標本集団数1万で割って相対累積度数分布にしたものです。 そしてその曲線とほとんど重なった黒色の点線は標準正規分布の確率分布関数です。 この標準正規分布の95%信頼区間の下限は-1.96であり、上下限は1.96です。 そしてこれらの値に標準誤差理論値9128.3を掛けて母平均値50000.5を足すと32109.4と67891.6になり、それが前述の母平均値と母分散から求めた95%信頼区間の下限μLと上限μUになります。
しかし実際のデータでは母平均値と分散はたいてい不明なので、母平均推定値と標本集団の不偏分散から求めた標準誤差で標本平均値を標準化し、t = (標本平均値 − 母平均推定値)/標準誤差とします。 不偏分散は標本集団ごとに微妙に変わるので、標準化したt値は標準正規分布ではなく近似的に自由度(標本集団の例数-1)のt分布をします。
図 付録2.23の緑色の曲線は、標本集団のデータが10例の時の標本平均値を母平均推定値(この場合は母平均値50000.5を使用)と不偏分散から求めた標準誤差で標準化してt値にし、その累積度数分布を標本集団数1万で割って相対累積度数分布にしたものです。 そしてその曲線とほとんど重なった黒色の点線は自由度9のt分布の確率分布関数です。
このt分布の95%信頼区間の下限は-2.262であり、上限は2.262です。 そしてこれらの値に標本集団ごとに微妙に異なる標準誤差を掛けて母平均推定値50000.5を足すと、標本集団ごとに微妙に異なる95%信頼区間の下限μLと上限μUが求められます。 それらの信頼区間とそれに基づく棄却域を用いて推定と検定を行うと、母平均値と母分散から求めた信頼区間と棄却域を用いた推定結果と検定結果とほぼ同じ結果になります。 これが平均値の推定と平均値の検定つまりt検定の原理です。
図 付録2.23の母集団は1から10万までの整数である離散型一様分布です。 そのため母平均値と母分散を理論的に求めることができます。 そして標本平均値は順位平均値に相当するので、標本平均値の標準誤差を母平均値と母分散から理論的に求めることができます。 したがって図 付録2.23の標準正規分布を使って推定と検定を行うことができます。 これが順位和検定の正規近似検定の原理です。 ただし順位和検定の場合、母集団の例数は試験の全例数と同じで、そこから特定の例数のデータ――例えば2群のうちの一方の群の例数と同じ数のデータ――を無作為抽出して標本集団にし、順位平均値を求めます。 (→3.2 1標本の計数値、3.4 2標本の計数値)
一方、図 付録2.24は母集団が正規乱数の時の標準化標本平均値のグラフです。 2つのグラフを見ると非常によく似ていて、母集団が一様分布でも正規分布でも標準化した標本平均値はほぼ同じ分布をすることがわかります。 したがって母集団のデータが正規分布していなくても標本集団の例数が少なくてもt検定は有効であり、順序尺度のデータを計量尺度扱いしてt検定を適用してもかまわないことになります。
そしてこのことから、統計学の解説書などによく書かれている、
「たとえ計量尺度のデータでも正規分布しない時とかデータ数が少ない時はt検定などのパラメトリック手法は使えないので、順位和検定などのノンパラメトリック手法を適用しなければならない!」
それから母平均推定値に偏りがあると標準化したt値の平均値が0にならず、分布の形も少し変わります。 それが非心t分布です。 図 付録2.23と図 付録2.24の青色の曲線は母平均推定値を(母平均値+1標準誤差)にした時のt値の相対累積度数分布です。 そしてその曲線とほとんど重なった黒色の点線は自由度9、非心度1の非心t分布の確率分布関数です。
統計的的仮説検定では帰無仮説が正しい時の母平均値をμとすると、対立仮設が正しい時の母平均値は(μ + δ)にします。 そして実際のt値は帰無仮説が正しいと仮定してμと不偏分散から求めます。 そのため帰無仮説が正しい時はt分布をしますが、対立仮設が正しい時は母平均推定値に−δだけ偏りがあるので非心t分布をします。 そこで非心t分布を利用して、対立仮設が正しい時に検定結果が有意にならない確率つまりβエラーと、検定結果が有意になる確率つまり検出力(1-β)を求めることができます。
したがって図 付録2.23と図 付録2.24はt検定と順位和検定の原理を模式化したグラフであると同時に、統計的仮説検定の原理を模式化したグラフでもあります。 (→1.6 統計的仮説検定の考え方)
次に母集団のデータが正規分布の時について検討してみましょう。 母平均値が0、母標準偏差が1の正規乱数を10万個発生させ、それを母集団のデータにします。 この母集団について第1節と同じ方法で標本平均値を求め、結果を同じようにグラフ化したものが図 付録2.7〜図 付録2.12です。 そして標本平均値を3通りの方法で標準化した値の相対累積度数分布と、その理論確率分布関数をグラフ化したものが前述の図 付録2.24です。
図 付録2.7の母集団の累積度数分布を見ると、実際のデータの累積度数分布と累積正規分布がほぼ重なっていることがわかります。 そして図 付録2.8の標本平均値の累積度数分布を見ると、やはり実際のデータの累積度数分布と累積正規分布がほぼ重なっていることがわかります。 また図 付録2.23と図 付録2.24は非常によく似ていて、母集団のデータが離散一様分布でも正規乱数でも標準化した標本平均値はほぼ同じ分布をすることがわかります。
さらに標本集団を求める操作を繰り返した時の標本平均値の平均値、標準誤差、歪度、尖度の推移のグラフを見ると、理論値からのズレの大きさや値の安定性は母集団が一様分布の時とほとんど変わらないことがわかります。 ただしこの場合は歪度だけでなく尖度も標本集団の例数とは無関係に変化しています。 これは母集団のデータが近似的に正規分布であり、標本平均値の分布も近似的に正規分布になるからだと考えられます。
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9277(92.77) | 217(2.17) | 9494(94.94) |
信頼区間外 | 213(2.13) | 293(2.93) | 506(5.06) |
計 | 9490(94.90) | 510(5.10) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9384(93.84) | 71(0.71) | 9455(94.55) |
信頼区間外 | 71(0.71) | 474(4.74) | 545(5.45) |
計 | 9455(94.55) | 545(5.45) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9437(94.37) | 17(0.17) | 9454(94.54) |
信頼区間外 | 35(0.35) | 511(5.11) | 546(5.46) |
計 | 9472(94.72) | 528(5.28) | 10000(100) |
以上のシミュレーションから、母集団のデータが正規分布していなくても中心極限定理によって標本平均値は近似的に正規分布し、その様子は母集団のデータが正規分布している時とほとんど変わらないことがわかります。 そしてこのことから母集団のデータが正規分布していなくても、また標本集団の例数が少なくても、中心極限定理によって標本平均値は近似的に正規分布するので平均値の推定結果と検定結果の信頼性はかなり高く、パラメトリック手法を安心して使えることがわかると思います。
次は標本中央値について検討してみましょう。 標本中央値は標本最小値や標本最大値のような極値(extreme value)の一種ですから、次のような極値分布((extreme value distribution)をします。
標本中央値の確率密度関数をテーラー展開すると正規分布に近似するので、標本中央値にも中心極限定理が成り立ちます。 ただし標本中央値の分散は次のように母中央値の確率密度に依存します。 そのため標本平均値と違って標準誤差が母集団のデータの分布状態に依存するという少々厄介な特徴があります。
標準誤差が母集団のデータの分布状態に依存するということは、推定や検定によって標本中央値から母中央値を推測するには母集団のデータの分布状態を知る必要があるということです。 そのため平均値と違って中央値そのものを推定したり、検定したりする普遍的で精度の高い手法は存在しません。
以上のことを確認するために第2節・第3節と同じように母集団が一様分布の時と正規分布の時について標本中央値を求め、結果をグラフ化したものが図 付録2.13〜図 付録2.22です。 母集団のデータから求めた95%信頼区間と、標本集団のデータから求めた95%信頼区間は母集団のデータが正規分布すると仮定して求めました。
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 8363(83.63) | 575(5.75) | 8938(89.38) |
信頼区間外 | 95(0.95) | 967(9.67) | 1062(10.62) |
計 | 8458(84.58) | 1542(15.42) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 7529(75.29) | 962(9.62) | 8491(84.91) |
信頼区間外 | 0(0.00) | 1509(15.09) | 1509(15.09) |
計 | 7529(75.29) | 2471(24.71) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 7544(75.44) | 992(9.92) | 8536(85.36) |
信頼区間外 | 0(0.00) | 1464(14.64) | 1464(14.64) |
計 | 7544(75.44) | 2456(24.56) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9089(90.89) | 525(5.25) | 9614(96.14) |
信頼区間外 | 86(0.86) | 300(3.00) | 389(3.89) |
計 | 9175(91.75) | 825(8.25) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 8804(88.04) | 698(6.98) | 9502(95.02) |
信頼区間外 | 0(0.00) | 498(4.98) | 498(4.98) |
計 | 8804(88.04) | 1196(11.96) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 8767(87.67) | 709(7.09) | 9476(94.76) |
信頼区間外 | 0(0.00) | 524(5.24) | 524(5.24) |
計 | 8767(87.67) | 1233(12.33) | 10000(100) |
以上のように母集団のデータがどんな分布をしていても、標本中央値の分布は近似的に正規分布になります。 ところが標本平均値と違って母集団のデータの分布状態によって標準誤差が変化するので、標本中央値の標準誤差は不偏性が低くなります。 そのため95%信頼区間に母中央値が入る回数は95%になるとは限らず、5%棄却域に標本中央値が入る回数も5%になるとは限らず、母集団と標本集団の判定の一致率は例数が多くなるとわずかに低くなります。 このことから中央値そのものを推定したり、検定したりする普遍的で精度の高い手法が存在しない理由がわかると思います。
このように平均値に関する統計手法はデータの分布状態には依存しないので普遍性があるのに対して、中央値に関する統計手法はデータの分布状態に依存するので普遍性がないという特徴があります。 そのためデータの分布状態がわからない時に中央値を使うのは不適切であり、平均値を使った方が良いことがわかると思います。 そして医学分野の悪しき慣習に反して、結局のところデータがどんな分布をしていても中央値ではなく平均値を使った方が無難であるということになります。
次は2群の平均値の差について検討してみましょう。 医学分野にはデータの正規性をやたらと問題にしたがる悪しき慣習だけでなく、2群の平均値の差について推定と検定を行う時、2群の母集団の等分散性(母分散が等しいこと)をやたらと問題にしたがる悪しき慣習もあります。 しかし等分散性を問題にするのは2群の時だけであり、3群以上の場合に2群ごとの平均値を多重比較する時には何故か等分散性は問題にせず、暗黙のうちに全ての群の母集団が等分散と仮定して多重比較を行うのが普通です。
また2群をダミー変数で表した時の回帰分析では回帰係数が2群の平均値の差になり、回帰係数の推定と検定が平均値の差の推定と検定に相当します。 ところが回帰分析になると何故か等分散性は問題にせず、暗黙のうちに2群の母集団が等分散と仮定して回帰係数の推定と検定を行うのが普通です。 このあたりの整合性の無さは、まさに悪しき慣習と呼ぶにふさわしいところです。
2群の母分散が等しくない時、平均値の差を不偏分散で標準化したt値は正確にはt分布をしません。 そこでそのような時の検定方法はベーレンズ・フィッシャー問題(Behrens-Fisher problem)と呼ばれて、色々と議論されてきました。 その結果、厳密な検定方法は恐ろしく複雑で非実用的なことがわかったので、色々な近似補正法が提唱されています。 そして最近は、それらの近似補正法の中でもコンピュータ処理に向いているアスピン・ウェルチ(Aspin-Welch)の手法(ウェルチの検定)を用いることが多いと思います。 (→3.3 2標本の計量値 (注2))
そこでまず母平均値が0、母分散が1の正規乱数を10万個発生させ、それを母集団1のデータにします。 次に母平均値が0、母分散が1または10または100の正規乱数を10万個発生させ、それを母集団2のデータにします。 この2つの母集団のデータの累積度数分布を実線で描き、母平均値と母分散が同じ値の累積正規分布を点線で描いたグラフが図 付録2.25です。 この図の青色の曲線は母分散が1の母集団1と母集団2の累積度数分布であり、緑色の曲線は母分散が10の母集団2の累積度数分布、赤色の曲線は母分散が100の母集団2の累積度数分布です。
これら2つの母集団からそれぞれ5例のデータを無作為抽出して標本集団1と標本集団2にし、標本平均値1と標本平均値2を求めてその差を求めます。 この操作を1万回繰り返して1万個の標本平均値の差を求め、その累積度数分布を実線で描き、平均値と標準誤差が同じ値の累積正規分布を点線で描いたグラフが図 付録2.26です。
この図の青色の曲線は母分散比が1つまり母集団2の母分散が1の時の累積度数分布であり、緑色の曲線は母分散比が10の時の累積度数分布、赤色の曲線は母分散比が100の時の累積度数分布です。 2つの母集団のデータが近似的に正規分布をしているので、2つの標本集団がそれぞれたった5例でも標本平均値の差が近似的に正規分布をしていることがわかると思います。
また標本平均値の差を求める操作を繰り返した時の標本平均値の差の平均値、標準誤差、歪度、尖度の推移をグラフにしたものが図 付録2.27〜図 付録2.30です。 各グラフの黒色の点線で描いた横軸に平行な直線は、それぞれの指標の理論値を表します。 これらのグラフを見ると、標本平均値や標本中央値と同様に、繰り返し数がだいたい5000回以上になると値が安定することがわかると思います。 またどの指標も母分散比が大きいほど理論値からのズレが大きい傾向があることもわかると思います。
このように標本平均値の差は近似的に正規分布しますが、標本平均値の差を不偏分散で標準化したt値は、前述のように標本平均値を不偏分散で標準化したt値と違って正確にはt分布をしません。
図 付録2.31の3本の実線は標本平均値の差を母平均値の差(この場合は0)と2つの標本集団の不偏分散から合成した標準誤差で標準化してt値にし、その累積度数分布を繰り返し計算数1万で割って相対累積度数分布にしたものです。 傾きが最も急な青色の曲線は母分散比1の2つの母集団を用いた時の相対累積度数分布であり、次に傾きが急な緑色の曲線は母分散比10の2つの母集団を用いた時の相対累積度数分布、傾きが最も緩やかな赤色の曲線は母分散比100の2つの母集団を用いた時の相対累積度数分布です。
そして青色の曲線とほとんど重なった青色の点線は自由度8のt分布の確率分布関数です。 母分散比1つまり2つの母分散が等しい時のt値は自由度8のt分布をし、これを用いた検定が等分散t検定つまり普通の2標本t検定です。 また赤色の曲線とほとんど重なった赤色の点線は自由度4のt分布の確率分布関数です。 母分散比10と母分散比100の時のt値は近似的に自由度4のt分布をし、これを用いた検定が不等分散t検定のひとつであるウェルチの検定です。
ただし通常は母分散比は不明です。 そのため2つの標本集団の不偏分散の比を用いて補正自由度を求めてウェルチの検定を行います。 そのため標本集団によってt分布の自由度は微妙に変わります。 また青色の点線よりも傾きが急な黒色の点線は標準正規分布の確率分布関数です。 (→3.3 2標本の計量値 (2)データに対応がない場合)
比較のために、2つの標本集団の例数を50例にして同様のグラフを描いたものが図 付録2.32です。 この場合、母分散比1のt値は自由度98のt分布をし、母分散比10の時のt値は近似的に自由度58のt分布をし、母分散比100の時のt値は近似的に自由度49のt分布をします。 このグラフでは3本の相対累積度数分布と3本のt分布の確率分布関数、そして標準正規分布の確率分布関数はほとんど重なっています。
図 付録2.31と図 付録2.32を見ると、標本集団の例数が5例程度でも母分散比が10未満なら等分散t検定を用いてもそれほど問題は無く、標本集団の例数が50例以上あれば母分散比が100程度でも等分散t検定または正規検定を用いてもほとんど問題は無いことがわかると思います。 そのことをよりはっきりさせるために標本集団の例数が5例の時と50例の時の基礎統計量と、95%信頼区間と5%棄却域に入った標本平均値の差または母平均値の差の割合を求めてみました。
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9260(92.60) | 231(2.31) | 9491(94.91) |
信頼区間外 | 239(2.39) | 270(2.70) | 509(5.09) |
計 | 9499(94.99) | 501(5.01) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9311(93.11) | 180(1.80) | 9491(94.91) |
信頼区間外 | 271(2.71) | 238(2.38) | 509(5.09) |
計 | 9582(95.82) | 418(4.18) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9422(94.22) | 63(0.63) | 9485(94.85) |
信頼区間外 | 59(0.59) | 456(4.56) | 515(5.15) |
計 | 9481(94.81) | 519(5.19) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9422(94.22) | 63(0.63) | 9485(94.85) |
信頼区間外 | 60(0.60) | 455(4.55) | 515(5.15) |
計 | 9482(94.82) | 518(5.18) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9139(91.39) | 373(3.73) | 9512(95.12) |
信頼区間外 | 211(2.11) | 277(2.77) | 488(4.88) |
計 | 9350(93.50) | 650(6.50) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9249(92.49) | 263(2.63) | 9512(95.12) |
信頼区間外 | 273(2.73) | 215(2.15) | 488(4.88) |
計 | 9522(95.22) | 478(4.78) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9363(93.63) | 87(0.87) | 9450(94.50) |
信頼区間外 | 87(0.87) | 463(4.63) | 550(5.50) |
計 | 9450(94.50) | 550(5.50) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9367(93.67) | 83(0.83) | 9450(94.50) |
信頼区間外 | 97(0.97) | 453(4.53) | 550(5.50) |
計 | 9464(94.64) | 536(5.36) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9010(90.10) | 515(5.15) | 9525(95.25) |
信頼区間外 | 205(2.05) | 270(2.70) | 475(4.75) |
計 | 9215(92.15) | 785(7.85) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9235(92.35) | 290(2.90) | 9525(95.25) |
信頼区間外 | 290(2.90) | 185(1.85) | 475(4.75) |
計 | 9525(95.25) | 475(4.75) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9355(93.55) | 102(1.02) | 9457(94.57) |
信頼区間外 | 82(0.82) | 461(4.61) | 543(5.43) |
計 | 9437(94.37) | 563(5.63) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9373(93.73) | 84(0.84) | 9457(94.57) |
信頼区間外 | 94(0.94) | 449(4.59) | 543(5.43) |
計 | 9467(94.67) | 533(5.33) | 10000(100) |
次に母集団のデータが一様乱数の場合について、同様のシミュレーションをしてみました。
標本集団の例数が5例の時と50例の時の基礎統計量と、95%信頼区間と5%棄却域に入った標本平均値の差または母平均値の差の割合は次のようになりました。
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9330(93.30) | 177(1.77) | 9507(95.07) |
信頼区間外 | 134(1.34) | 359(3.59) | 493(4.93) |
計 | 9464(94.64) | 536(5.36) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9376(93.76) | 131(1.31) | 9507(95.07) |
信頼区間外 | 183(1.83) | 310(3.10) | 493(4.93) |
計 | 9559(95.59) | 441(4.41) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9509(95.09) | 46(0.46) | 9555(95.55) |
信頼区間外 | 27(0.27) | 418(4.18) | 445(4.45) |
計 | 9536(95.36) | 464(4.64) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9510(95.10) | 45(0.45) | 9555(95.55) |
信頼区間外 | 27(0.27) | 418(4.18) | 445(4.45) |
計 | 9537(95.37) | 463(4.63) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9068(90.68) | 425(4.25) | 9493(94.93) |
信頼区間外 | 60(0.60) | 447(4.47) | 507(5.07) |
計 | 9128(91.28) | 872(8.72) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9189(91.89) | 304(3.04) | 9493(94.93) |
信頼区間外 | 121(1.21) | 386(3.86) | 507(5.07) |
計 | 9310(93.10) | 690(6.90) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9491(94.91) | 57(0.57) | 9548(95.48) |
信頼区間外 | 29(0.29) | 423(4.23) | 452(4.52) |
計 | 9520(95.20) | 480(4.80) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9497(94.97) | 51(0.51) | 9548(95.48) |
信頼区間外 | 37(0.37) | 415(4.15) | 452(4.52) |
計 | 9534(95.34) | 466(4.66) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 8942(89.42) | 530(5.30) | 9472(94.72) |
信頼区間外 | 55(0.55) | 473(4.73) | 528(5.28) |
計 | 8997(89.97) | 1003(10.03) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9187(91.87) | 285(2.85) | 9472(94.72) |
信頼区間外 | 130(1.30) | 398(3.98) | 528(5.28) |
計 | 9317(93.17) | 683(6.83) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9461(94.61) | 52(0.52) | 9513(95.13) |
信頼区間外 | 34(0.34) | 453(4.53) | 487(4.87) |
計 | 9495(94.95) | 505(5.05) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9473(94.73) | 40(0.40) | 9513(95.13) |
信頼区間外 | 49(0.49) | 438(4.38) | 487(4.87) |
計 | 9522(95.22) | 478(4.78) | 10000(100) |
上記のグラフと基礎統計量から、母集団のデータが近似的に正規分布していなくても標本集団の例数が5例以上あれば標本平均値の差は近似的に正規分布することがわかると思います。 そして2つの母集団のデータが等分散の場合または標本集団の例数が50例以上あれば、等分散t検定を用いてもほとんど問題無いこともわかると思います。
以上の2種類のシミュレーション結果から、不等分散t検定を用いると母集団と標本集団の判定の一致率が少し高くなるのは標本集団の例数が5例程度で、しかも2つの母集団の分散比が10以上ある時という非常に特殊な場合であることがわかると思います。 医学・薬学分野で1群の例数が5例程度という試験は動物実験くらいでしょうが、動物実験で母分散比が10以上あるデータはものすごく稀だと思います。
したがって現実のデータで不等分散t検定を用いる必要性はあまりなく、等分散性に無闇にこだわる必要は無いと思います。 そのため2群の場合も3群以上の場合も、2群ごとの平均値を多重比較する時は全ての群が等分散と仮定して多重比較をしてもあまり問題は無く、むしろその方が整合性が良いということになります。
それから母分散比が1の時、2つの母集団は母平均値と母分散が同じですから同じ母集団と考えられます。 そのため2つの母集団から無作為抽出した2つの標本集団は、ひとつの母集団から2つの標本集団に相当する例数の標本を無作為抽出し、さらにそれを無作為割付けした理想的な無作為化比較対照試験(RCT:Randomized Controlled Trial)における2群と見なすことができます(実際の無作為化比較対照試験では無作為割付けは行うものの無作為抽出は行わず、母集団は仮想的な準母集団になります)。 (→1.9 科学的研究のデザイン)
そして上述のように、1群の例数が5例でも50例でも、2群の標本平均値の差のうち約5%が標本集団から求めた5%棄却域に入ります。 そのため無作為割付けされた2群の背景因子項目の平均値の差の検定を行うと、20回に1回くらいは検定結果が有意水準5%で有意になる時があります。 これはたまたま2群の割付けが偏ってしまい、2群の標本平均値が異なってしまったことを表します。 実際、僕の経験でも、二重盲検試験やRCTで割付けが偏ってしまったことがそれくらいの頻度でありました。
そのような時の検定結果の解釈は、有効性や安全性の検定結果とは少し異なります。 有効性や安全性の検定結果が有意になった時は「有効性や安全性に関して2群の母集団は母平均値が異なっている可能性が高い」と解釈します。 ところが背景因子項目の場合、原理的には母集団は同一であり母平均値は同じです。 そのため背景因子項目の検定結果が有意になった時は、「2群の標本集団は偏って割付けされた可能性が高い」つまり「2群の標本集団は母平均値を正しく推測できる標本集団ではない可能性が高い」と解釈する必要があります。
無作為割付けを行った試験における背景因子を比較するための検定と区間推定は、このような割付けの偏りが起きたかどうかを検討するためのものです。 そして2群の平均値が異なっている可能性が高い時は、「2群の母平均値が異なっている」と解釈するのではなく、「2群が偏って割付けされたのでどちらか一方の群または2群とも事前に想定した母集団を正確には代表できない、そのため比較可能性が低くなり、試験結果の一般化可能性を保証できない」と解釈する必要があります。
例えば無作為割付が偏ってしまい、一方の群は男性ばかりでもう一方の群は女性ばかりだったとします。 すると2群の試験結果の違いが薬剤のせいか、それとも性別のせいか区別できません。 さらに事前に想定した母集団は男女混合集団だったはずなので、試験結果を母集団に一般化できなくなります。
このような時は無作為割付けの失敗であり、最悪の場合は試験をやり直す必要があります。 新薬開発のための臨床試験の場合、これは製薬企業にとって大きな痛手です。 そのため近頃は「無作為割付けを行った場合、背景因子の比較は無意味なので検定は行わない!」という屁理屈を主張し、それが何となく認められつつある困った傾向があります。
検定廃止論者の僕は、検定を行わないことには大いに賛成します。 しかし2群が均等に割付けされ、事前に設定した母集団(実際には準母集団)を正確に代表できるかどうかを区間推定などによって検討し、比較可能性が高いかどうか、試験結果の一般化可能性を保証できるかどうかをしっかりと検討しなければならないと思います。