前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 | 6 | 8 | 9 |
回帰係数は原理的に平均値と同じ統計量なので、中心極限定理によって漸近的に正規分布をします。 それに対して相関係数は2種類のデータが2次元正規分布に従うと仮定すると次のような分布をします。 (→5.1 相関係数と回帰直線 (注1))
母相関係数ρが0の時、密度関数は簡単な式になり、その式に相関係数の検定用のt値を代入すると自由度φ = n - 2のt分布になります。
このことからρ = 0の時、相関係数はt分布をすることがわかります。 そしてt分布はn → ∞の時に正規分布になるので、回帰係数と同様に相関係数も漸近的に正規分布をすることになります。 そこで回帰係数と相関係数について中心極限定理のシミュレーションをしてみましょう。
回帰係数は回帰誤差が正規分布をする時、正確に正規分布をします。 そして相関係数はρ = 0の時に回帰係数と同じ分布をするので、一方の変数の回帰誤差が正規分布をする時は正確に正規分布をします。 そして回帰分析では目的変数は確率変数ですが、説明変数は確率分布ではなく研究者が任意の値を指定します。 そこで次のような手順で説明変数xと目的変数yを作成し、2変量の母集団にします。 (→5.1 相関係数と回帰直線 (注2))
この母集団の散布図が図 付録3.1です。 ただし10万個のプロットをまともに描くと黒い帯になってしまうので、見やすいように間引いてプロットしてあります。 この散布図を見るとxは等間隔に一様分布(確率分布ではなく任意の値を指定した分布)をしていて、yは正規分布状に分布していることがわかると思います。
この母集団から10例、100例、1000例のxとyを無作為抽出して標本集団にし、標本回帰係数と標本相関係数を求めるという操作を1万回繰り返して、1万個の標本回帰係数と標本相関係数を求めます。 そしてそれらの累積度数分布を描き、さらに平均値と標準誤差(=統計量の標準偏差)が同じ値の理論累積分布も描いたグラフが図 付録3.2と図 付録3.3です。
図 付録3.2の赤色の曲線は標本集団が10例の時の標本回帰係数の累積度数分布であり、その曲線とほとんど重なった黒色の点線は累積正規分布です。 そして緑色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が100例の時の標本回帰係数の累積度数分布と累積正規分布であり、青色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が1000例の時の標本回帰係数の累積度数分布と累積正規分布です。
一方、図 付録3.3の赤色の曲線は標本集団が10例の時の標本相関係数の累積度数分布であり、その曲線とかなり重なった黒色の点線は自由度8の累積t分布です。 そして緑色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が100例の時の標本相関係数の累積度数分布と自由度98の累積t分布であり、青色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が1000例の時の標本相関係数の累積度数分布と自由度998の累積t分布です。
また標本回帰係数と標本相関係数を求める操作を繰り返した時の、それぞれの平均値、標準誤差、歪度、尖度の推移をグラフにしたのが図 付録3.4〜図 付録3.11です。 各グラフの黒色の点線で描いた横軸に平行な直線は、それぞれの指標の理論値を表します。
標本相関係数はt分布をし、t分布は正規分布よりもわずかに背が低いので尖度が負になります。 図 付録3.11では標本集団の例数が10例の時は確かに尖度がわずかに負になっているものの、100例と1000例の時の尖度はほとんど0になっています。 このことから例数が100例以上あればt分布はほぼ正規分布になり、標本相関係数は近似的に正規分布をすることがわかると思います。
標本回帰係数と標本相関係数の最終的な分布の基礎統計量は次のようになります。 これらの基礎統計量と図 付録3.1〜図 付録3.11から、母集団の回帰誤差が近似的に正規分布をしている時は標本回帰係数は近似的に正規分布をし、標本相関係数は近似的に自由度(n-2)のt分布をし、例数が多いと近似的に正規分布をすることがわかると思います。
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9176(91.76)←(e) | 262(2.62) | 9438(94.38)←(a) |
信頼区間外 | 286(2.86) | 276(2.76)←(e) | 562(5.62)←(b) |
計 | 9462(94.62)←(c) | 538(5.38)←(d) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9449(94.49) | 0(0.00) | 9449(94.49) |
信頼区間外 | 13(0.13) | 538(5.38) | 551(5.51) |
計 | 9462(94.62) | 538(5.38) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9449(94.49) | 0(0.00) | 9449(94.49) |
信頼区間外 | 0(0.00) | 551(5.51) | 551(5.51) |
計 | 9449(94.49) | 551(5.51) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9439(94.39) | 82(0.82) | 9521(95.21) |
信頼区間外 | 84(0.84) | 395(3.95) | 479(4.79) |
計 | 9523(95.23) | 477(4.77) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9518(95.18) | 0(0.00) | 9518(95.18) |
信頼区間外 | 7(0.07) | 475(4.75) | 482(4.82) |
計 | 9525(95.25) | 475(4.75) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9518(95.18) | 0(0.00) | 9518(95.18) |
信頼区間外 | 0(0.00) | 482(4.82) | 482(4.82) |
計 | 9518(95.18) | 482(4.82) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9471(94.71) | 23(0.23) | 9494(94.94) |
信頼区間外 | 29(0.29) | 477(4.77) | 506(5.06) |
計 | 9500(95.00) | 500(5.00) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9502(95.02) | 0(0.00) | 9502(95.02) |
信頼区間外 | 0(0.00) | 498(4.98) | 498(4.98) |
計 | 9502(95.02) | 498(4.98) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9502(95.02) | 0(0.00) | 9502(95.02) |
信頼区間外 | 0(0.00) | 498(4.98) | 498(4.98) |
計 | 9502(95.02) | 498(4.98) | 10000(100) |
母集団の回帰誤差としてコンピュータで発生させた疑似正規乱数を用いたので、上記のように母回帰係数と母相関係数は正確に0にはなりません。 しかしどちらの値も絶対値が0.01未満ですから、事実上、0と考えて良いと思います。 そしてxの分布は一様分布なので母歪度は0で左右対称ですが、母尖度が1.8で鈍峰です。 それに対してyの分布は近似的に母平均値が0で母標準偏差が1の正規分布です。 そして母回帰係数が近似的に0なのでyがそのまま回帰誤差になります。
また上記のように標本集団の例数が10例の時も100例の時も1000例の時も標本回帰係数は近似的に正規分布をし、標本相関係数は近似的に自由度(n - 2)のt分布をします。 そしてその平均値は例数が多いほど母回帰係数と母相関係数に近似し、標準誤差は標準誤差理論値と近似します。 この標準誤差理論値は標本回帰係数と標本相関係数の標準誤差を求める時と同様に、母回帰係数および母相関係数の分散と標本集団の例数と有限修正因子から理論的に求めることができます。 (→5.1 相関係数と回帰直線)
理論上、標本回帰係数は平均値が母回帰係数と同じ値で、標準誤差が標準誤差理論値と同じ値の正規分布をします。 そこで母回帰係数と標準誤差理論値を用いて推定の95%信頼区間と検定の5%棄却域を求めることができます。 例えば標本集団のデータが10例の時、上記のように95%信頼区間の下限はβL = -0.603で、上限はβU = 0.596729になります。 そしてこの95%信頼区間に入った標本回帰係数の数は9438個であり、全体の94.38%でした。
さらにこの95%信頼区間外の領域が2.5%下側棄却域と2.5%上側棄却域になり、そこに入った標本回帰係数の数は10000 - 9438 = 562個であり、全体の5.62%でした。 これが母集団から求めた95%信頼区間と有意水準5%の検定結果です。
しかし実際のデータでは母回帰係数と標本回帰係数の標準誤差はたいてい不明です。 そのため母回帰係数として母回帰係数推定値――検定では帰無仮説で仮定した母回帰係数の値つまり0――を用い、標準誤差は標本集団のデータから求めた不偏分散を用いて計算します。 そのため標本集団ごとに信頼区間と棄却域が微妙に変化します。 そしてその結果、母集団から求めた信頼区間と棄却域に入った標本回帰係数の個数と、標本集団から求めた信頼区間に母回帰係数が入った回数と棄却域に標本回帰係数が入った回数は微妙に食い違います。
例えば表 付録3.1のように標本集団から求めた95%信頼区間に母回帰係数が入った回数は9462回あり、全体の94.62%でした。 この割合を被覆確率と呼ぶことがあります。 そしてこの95%信頼区間に母回帰係数が入らなかった回数、つまり標本集団から求めた5%棄却域に標本回帰係数が入った回数は538回あり、全体の5.38%でした。 これが普通の95%信頼区間と有意水準5%の検定結果です。
この数字だけ見ると、母集団から求めた信頼区間に入った標本回帰係数の個数9438または棄却域に入った標本回帰係数の個数562と24個しか違わいないように見えます。 しかしその内訳を見ると、母集団と標本集団の判定が一致しているのは9176 + 276 = 9452個(一致率:94.52%)であり、262 + 286 = 548個(不一致率:5.48%)は判定が食い違っています。
この262個の標本回帰係数は母集団から求めた信頼区間に入っているにもかかわらず、標本集団から求めた信頼区間に母回帰係数が入っていません。 これは無作為に抽出した標本集団のデータがたまたま同じような値ばかりで不偏分散が小さくなり、標本集団から求めた信頼区間の幅が狭くなって母回帰係数が入らず、「標本回帰係数は棄却域に入っている」つまり「有意」と判定されてしまったのです。 したがってこの262個は診断学でいう「偽陽性」ということになります。
それに対して286個の標本回帰係数は母集団から求めた棄却域に入っているにもかかわらず、標本集団から求めた棄却域に標本回帰係数が入っていません。 これは無作為に抽出した標本集団のデータのバラツキが大きくて不偏分散が大きくなり、標本集団から求めた信頼区間の幅が広くなって母回帰係数が入り、「標本回帰係数は棄却域に入っていない」つまり「有意ではない」と判定されてしまったのです。 したがってこの286個は診断学でいう「偽陰性」ということになります。
95%信頼区間の被覆確率が94.62%という結果は、見かけ上は信頼区間と棄却域の信頼性はかなり高いと思いがちです。 ところが実際には標本回帰係数が母回帰係数の近くにあるにもかかわらず、信頼区間の幅が本来よりも狭いので母回帰係数が信頼区間に入らないことが2.86%あり、標本回帰係数が母回帰係数から遠く離れているにもかかわらず、信頼区間の幅が本来よりも広いので母回帰係数が信頼区間に入ることが2.86%あるのです。 そのため信頼区間と棄却域の信頼性は見かけよりも低いと考える必要があります。
この母集団と標本集団の判定の食い違いは不偏分散の信頼性の低さが原因ですから、標本集団の例数が多くなれば少なくなるはずです。 事実、標本集団の例数が100例の時の一致率は98.34%であり、1000例の時の一致率は99.48%ですから、一致率は次第に高くなっています。
以上のことから、標本集団の例数が10例でも100例でも1000例でも、標本集団から求めた信頼区間に母回帰係数が入った回数の割合は約95%で、棄却域に標本回帰係数が入った回数の割合は約5%であり、一見すると信頼区間と検定結果の信頼性は例数とは無関係のように思えます。 しかし母集団から求めた本来の信頼区間と検定結果との一致率は例数が多くなるほど高くなり、信頼区間と検定結果の信頼性が高くなることがわかります。 ただし例数が10例でも一致率が94.52%もあるので、t分布を利用した信頼区間と検定結果の信頼性はかなり高いといえるでしょう。
一方、母相関係数が0の時の標本相関係数は、理論的に平均値が0で標準誤差が標準誤差理論値と同じ値の自由度(n - 2)のt分布をします。 そこで標準誤差理論値を用いて95%信頼区間と5%棄却域を求めることができます。 しかし母相関係数が0ではない時は標本相関係数はt分布をしません。 そこでフィッシャーのz変換を利用して標本相関係数を近似的に正規分布するように変換し、その近似正規分布を用いて95%信頼区間を求めました。
例えば標本集団のデータが10例の時は、上記のようにフィッシャーのz変換を利用して求めた95%信頼区間の下限はρL = -0.631807で、上限はρU = 0.627435になります。 そしてこの95%信頼区間に入った標本相関係数は9449個(94.49%)であり、この信頼区間外つまり5%棄却域に入った標本相関係数は10000 - 9449 = 551個(5.51%)でした。 これが母集団から求めた相関係数の95%信頼区間と有意水準5%の検定結果です。
それに対して標本集団から求めた95%信頼区間はフィッシャーのz変換を利用して求めますが、検定は自由度(n - 2)のt分布を利用して行う、つまり5%棄却域はt分布から求めるのが普通です。 そのため信頼区間と棄却域の上下限が一致するとは限りません。 そこで標本集団から求めた信頼区間と棄却域として自由度(n - 2)のt分布を利用した方法とフィッシャーのz変換を利用した方法の両方を行い、結果を比べてみました。
例えば標本集団の例数が10例の時、自由度8のt分布を利用して標本集団から求めた95%信頼区間に母相関係数が入った回数は9462回(94.62%)であり、5%棄却域に標本相関係数が入った回数は10000 - 9462 = 538回(5.38%)でした。 そして母集団と標本集団の判定が一致していたのは9949 + 538 = 9987回(99.87%)でした。 回帰係数と同様に判定の不一致は標本集団の不偏分散の信頼性の低さが原因なので、標本集団の例数が増えるほど母集団との一致率が高くなります。
それに対してフィッシャーのz変換を利用して標本集団から求めた95%信頼区間に母相関係数が入った回数は9449回(94.49%)であり、5%棄却域に標本相関係数が入った回数は10000-9449=551回(5.51%)でした。 そしてこの場合は母集団と標本集団の判定が全て一致していて、一致率は100%でした。 フィッシャーのz変換は相関係数の値と標本集団の例数から信頼区間を求め、標本集団の不偏分散は使いません。 そのため不偏分散の信頼性の低さによる母集団と標本集団の判定の不一致が生じず、標本集団の例数とは無関係に一致率が100%になるのです。
したがって母集団と標本集団の判定の一致度という意味と推定と検定の整合性という意味で、推定も検定もフィッシャーのz変換を利用する方が合理的です。 ただし回帰係数の検定結果との整合性という意味では、検定は回帰係数の検定と同じt分布を利用する方が便利です。 そのため通常は母相関係数が0の時の相関係数の検定は回帰係数の検定と同じt分布を利用し、推定はフィッシャーのz変換を利用するという妥協案を採用することが多いと思います。
しかし母相関係数が0ではない時の相関係数の検定――例えば2種類の相関係数を比較する場合――はフィッシャーのz変換を利用するので、どんな時でも相関係数の推定と検定はフィッシャーのz変換を利用する方が合理的だと思います。
また上記のように標本集団の例数が10例でも100例でも1000例でも、相関係数の推定結果と検定結果はほぼ理論通りになっています。 このことから回帰誤差が近似的に正規分布する時は相関係数の推定結果と検定結果の信頼性は非常に高い、つまりxとyが2次元正規分布に従わなくても相関係数の推定結果と検定結果の信頼性は非常に高いことがわかると思います。
次に母回帰係数と母相関係数が0ではない時についてもシミュレーションをしてみましょう。 今度は次のような手順で説明変数xと目的変数yを作成し、2変量の母集団にします。
この母集団の散布図が図 付録3.12であり、図 付録3.1と同様に見やすいように間引いてプロットしてあります。 そして赤色の直線はxとyfitの関数です。 この散布図を見るとxは等間隔に一様分布していて、yの回帰誤差は正規分布状に分布していることがわかると思います。 この時、xは等間隔の一様分布であることとyは正規分布していないことに注意してください。
次に回帰係数が0の時と同様に、この母集団から10例、100例、1000例のxとyを無作為抽出して標本集団にし、標本回帰係数と標本相関係数を求めるという操作を1万回繰り返して、1万個の標本回帰係数と標本相関係数を求めます。 そしてそれらの累積度数分布を描き、さらに平均値と標準誤差が同じ値の理論累積分布を描いたグラフが図 付録3.13と図 付録3.14です。 これらのグラフの曲線が表すものは図 付録3.2と図 付録3.3と同様です。
標本回帰係数の分布の中心は母回帰係数の値になり、分布状態は回帰誤差だけに依存することを確認するために、実は図 付録3.12の正規乱数はわざと図 付録3.1と同じものを流用し、標本集団を無作為抽出する時の乱数も同じものを流用しています。 そのため図 付録3.13の累積度数分布は図 付録3.2の累積度数分布の平均を0.5に移動しただけで、形は全く同じです。
それに対して母相関係数が0ではない時は標本相関係数の分布はt分布にならず、xとyの分布に依存した特殊な分布になります。 そのため図 付録3.14の累積度数分布は図 付録3.3の累積度数分布の平均値を0.5に移動しただけでなく、形が少し異なります。 このことは標本集団の例数が10例の時の累積度数分布がt分布から少しずれていることからわかると思います。 ただし標本集団の例数が多くなると中心極限定理によって正規分布に近似するので、例数が100例の時と1000例の時の累積度数分布は図 付録3.3の累積度数分布とよく似ています。
また母回帰係数が0の時と同様に、標本回帰係数と標本相関係数の平均値、標準誤差、歪度、尖度の推移をグラフにしたのが図 付録3.15〜図 付録3.22です。 標本回帰係数のグラフは平均値が0.5付近に平行移動しただけであり、標準誤差のグラフも歪度のグラフも尖度のグラフも母回帰係数が0の時と全く同じグラフです。
それに対して標本相関係数のグラフは母相関係数が0の時のグラフと比べるとt分布に対する近似が悪くなっています。 特に歪度が負の値になっていて、分布がわずかに右傾していることがわかります。 これは母相関係数が約0.5なので標本相関係数の分布の中心が0.5付近になっていて、しかも相関係数は上限が1なので分布の右側が詰まって狭くなっていることが原因です。 そしてその結果、標準誤差が理論値よりもわずかに小さくなっています。
標本回帰係数の分布の中心も0.5付近になっていますが、回帰係数は上限がないので分布の右側が詰まることはありません。 そのため分布全体が0.5付近にそのまま移動しているだけなので分布状態が変わらないのです。 この時の標本回帰係数と標本相関係数の最終的な分布の基礎統計量は次のようになります。
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9176(91.76) | 262(2.62) | 9438(94.38) |
信頼区間外 | 286(2.86) | 276(2.76) | 562(5.62) |
計 | 9462(94.62) | 538(5.38) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9501(95.01) | 0(0.00) | 9501(95.01) |
信頼区間外 | 238(2.38) | 261(2.61) | 499(4.99) |
計 | 9739(97.39) | 261(2.61) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9501(95.01) | 0(0.00) | 9501(95.01) |
信頼区間外 | 0(0.00) | 499(4.99) | 499(4.99) |
計 | 9501(95.01) | 499(4.99) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9439(94.39) | 82(0.82) | 9521(95.21) |
信頼区間外 | 84(0.84) | 395(3.95) | 479(4.79) |
計 | 9523(95.23) | 477(4.77) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9586(95.86) | 0(0.00) | 9586(95.86) |
信頼区間外 | 229(2.29) | 185(1.85) | 414(4.14) |
計 | 9815(98.15) | 185(1.85) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9586(95.86) | 0(0.00) | 9586(95.86) |
信頼区間外 | 0(0.00) | 414(4.14) | 414(4.14) |
計 | 9586(95.86) | 414(4.14) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9471(94.71) | 23(0.23) | 9494(94.94) |
信頼区間外 | 29(0.29) | 477(4.77) | 506(5.06) |
計 | 9500(95.00) | 500(5.00) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9552(95.52) | 0(0.00) | 9552(95.52) |
信頼区間外 | 260(2.60) | 188(1.88) | 448(4.48) |
計 | 9812(98.12) | 188(1.88) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9552(95.52) | 0(0.00) | 9552(95.52) |
信頼区間外 | 0(0.00) | 448(4.48) | 448(4.48) |
計 | 9552(95.52) | 448(4.48) | 10000(100) |
標本回帰係数の分布は母回帰係数が0の時の分布を平均値が0.5付近に平行移動しただけです。 そのため上記のように平均値以外の分布の指標は母回帰係数が0の時と同じであり、母集団から求めた95%信頼区間に入った標本回帰係数の個数と標本集団から求めた95%信頼区間に母回帰係数が入った回数、そして母集団と標本集団の判定の一致率も母回帰係数が0の時と同じです。 このことから回帰係数の推定と検定はyの回帰誤差だけに依存することがわかると思います。
それに対して標本相関係数の分布は母相関係数が0の時の分布とは少し異なります。 そのため上記のように分布の指標も、母集団から求めた95%信頼区間に入った標本回帰係数の個数と標本集団から求めた95%信頼区間に母回帰係数が入った回数、そして母集団と標本集団の判定の一致率も母回帰係数が0の時と少し異なります。
そしてt分布を利用した推定結果と検定結果は精度が悪いのに対して、フィッシャーのz変換を利用した推定結果と検定結果は精度が高くなっています。 このことから一方の変数の回帰誤差が近似的に正規分布していれば、母相関係数が0ではない時もフィッシャーのz変換を利用した相関係数の推定と検定は信頼性が高いことがわかると思います。
今度は回帰誤差が正規分布しない時について検討してみましょう。 そのためには正規乱数の代わりに一様乱数を用いるだけです。 しかし実際に一様乱数を用いてシミュレーションをしてみると、正規乱数の時とあまり変わらない結果になるので面白くありません。 そこで次のような手順で説明変数xと目的変数yを作成し、母相関係数が0の時と母相関係数が0.5の時の母集団にします。
この母集団の散布図が図 付録3.23であり、黒色の円が母相関係数が0の時で赤色の楕円が母相関係数が0.5の時です。 どちらも曲線に見えますが、実際には10万個のプロットが連なったものです。 この場合はxもyも回帰誤差も正規分布をしておらず、相当に特殊な分布をしています。 (→5.5 各種手法の相互関係 (注1))
回帰誤差が正規分布する時と同様に、これらの母集団から10例、100例、1000例のxとyを無作為抽出して標本集団にし、標本回帰係数と標本相関係数を求めるという操作を1万回繰り返して、1万個の標本回帰係数と標本相関係数を求めます。 そしてそれらの累積度数分布を描き、さらに平均値と標準誤差が同じ値の理論累積分布を描いたグラフが図 付録3.24〜図 付録3.27です。 これらのグラフの曲線が表すものは図 付録3.2と図 付録3.2と同様です。
図 付録3.24〜図 付録3.27を見ると、回帰誤差が図 付録3.23のように相当に特殊な分布をしていても、そして母回帰係数と母相関係数が0の時も0ではない時も、標本回帰係数と標本相関係数は中心極限定理によって近似的に正規分布をすることがわかると思います。 これらのグラから中心極限定理の有効性と、この定理が推測統計学の基本定理である理由がわかると思います。
また標本回帰係数と標本相関係数の平均値、標準誤差、歪度、尖度の推移をグラフにしたものが図 付録3.28〜図 付録3.43です。 母相関係数が0の時も0ではない時も、標準誤差以外の指標は標本集団の例数が多くなると理論値に近似しています。 ところが標本回帰係数の標準誤差は理論値よりも20〜30%程度小さく、標本相関係数の標準誤差はそれよりもさらに10%程度小さくなっています。
これは図 付録3.23のように回帰誤差が円または楕円なので座標上の右上と右下、そして左上と左下にプロットが存在しないことが原因です。 図 付録3.1と図 付録3.12を見れば何となくわかるように、回帰誤差が正規分布や普通の一様分布をする時は座標上の右上と右下、そして左上と左下に少数ながらプロットが存在します。 そのため標本回帰係数も標本相関係数も絶対値の大きな値が少数ながら存在し、分布の幅が広くなって標準誤差が理論値に近似します。
ところが回帰誤差が円または楕円の時はこの部分にプロットが存在しません。 そのため標本回帰係数も標本相関係数も絶対値の大きな値になりにくく、分布の幅が狭くなって標準誤差が理論値よりも小さくなってしまうのです。
そのため下記のように95%信頼区間に入る標本回帰係数と標本相関係数の割合は95%よりも大きくなり、5%棄却域に入る標本回帰係数と標本相関係数の割合は5%よりも小さくなります。 しかし図 付録3.24〜図 付録3.27を見ればわかるように、標本回帰係数と標本相関係数の分布は中心極限定理によって近似的に正規分布をしています。 そのため標準誤差として理論値ではなく実際の値を用いると、それらの割合は約95%と約5%になります。
現実のデータで図 付録3.23のような特殊な分布をするものはほとんど存在しないでしょう。 しかし2つの項目の関連性が非常に強いと、回帰誤差が特殊な分布をする可能性も0ではありません。 そのため回帰係数と相関係数の推定結果と検定結果は平均値の推定結果と検定結果よりも慎重に検討する必要があります。
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9684(96.84) | 84(0.84) | 9768(97.68) |
信頼区間外 | 155(1.55) | 77(0.77) | 232(2.32) |
計 | 9839(98.39) | 161(1.61) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9835(98.35) | 0(0.00) | 9835(98.35) |
信頼区間外 | 4(0.04) | 161(1.61) | 165(1.65) |
計 | 9839(98.39) | 161(1.61) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9835(98.35) | 0(0.00) | 9835(98.35) |
信頼区間外 | 0(0.00) | 165(1.65) | 165(1.65) |
計 | 9839(98.39) | 165(1.65) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9917(99.17) | 24(0.24) | 9941(99.41) |
信頼区間外 | 14(0.14) | 45(0.45) | 59(0.59) |
計 | 9931(99.31) | 69(0.69) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9930(99.30) | 0(0.00) | 9930(99.30) |
信頼区間外 | 1(0.01) | 69(0.69) | 70(0.70) |
計 | 9931(99.31) | 69(0.69) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9930(99.30) | 0(0.00) | 9930(99.30) |
信頼区間外 | 0(0.00) | 70(0.70) | 70(0.70) |
計 | 9930(99.30) | 70(0.70) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9936(99.36) | 4(0.04) | 9940(99.40) |
信頼区間外 | 4(0.04) | 56(0.56) | 60(0.60) |
計 | 9940(99.40) | 60(0.60) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9940(99.40) | 0(0.00) | 9940(99.40) |
信頼区間外 | 0(0.00) | 60(0.60) | 60(0.60) |
計 | 9940(99.40) | 60(0.60) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9940(99.40) | 0(0.00) | 9940(99.40) |
信頼区間外 | 0(0.00) | 60(0.60) | 60(0.60) |
計 | 9940(99.40) | 60(0.60) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9694(96.94) | 75(0.75) | 9769(97.69) |
信頼区間外 | 158(1.58) | 73(0.73) | 231(2.31) |
計 | 9852(98.52) | 148(1.48) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9860(98.60) | 0(0.00) | 9860(98.60) |
信頼区間外 | 75(0.75) | 65(0.65) | 140(1.40) |
計 | 9935(99.35) | 65(0.65) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9860(98.60) | 0(0.00) | 9860(98.60) |
信頼区間外 | 0(0.00) | 140(1.40) | 140(1.40) |
計 | 9860(98.60) | 140(1.40) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9926(99.26) | 11(0.11) | 9937(99.37) |
信頼区間外 | 17(0.17) | 46(0.46) | 63(0.63) |
計 | 9943(99.43) | 57(0.57) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9945(99.45) | 0(0.00) | 9945(99.45) |
信頼区間外 | 41(0.41) | 14(0.14) | 55(0.55) |
計 | 9986(99.86) | 14(0.14) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9945(99.45) | 0(0.00) | 9945(99.45) |
信頼区間外 | 0(0.00) | 55(0.55) | 55(0.55) |
計 | 9945(99.45) | 55(0.55) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9942(99.42) | 3(0.03) | 9945(99.45) |
信頼区間外 | 6(0.06) | 49(0.49) | 55(0.55) |
計 | 9948(99.48) | 52(0.52) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9949(99.49) | 0(0.00) | 9949(99.49) |
信頼区間外 | 36(0.36) | 15(0.15) | 51(0.51) |
計 | 9985(99.85) | 15(0.15) | 10000(100) |
母集団\標本集団 | 信頼区間(%) | 信頼区間外(%) | 計(%) |
---|---|---|---|
信頼区間 | 9949(99.49) | 0(0.00) | 9949(99.49) |
信頼区間外 | 0(0.00) | 51(0.51) | 51(0.51) |
計 | 9949(99.49) | 51(0.51) | 10000(100) |
以上のシミュレーションから、回帰誤差が近似的に正規分布をしていなくても標本集団の例数が10例以上あれば中心極限定理によって標本回帰係数は近似的に正規分布をするので、推定結果と検定結果の信頼性は高いことがわかると思います。 そしてxとyが近似的に2次元正規分布をしていなくても標本集団の例数が10例以上あれば中心極限定理によって標本相関係数は近似的に正規分布をするので、推定結果と検定結果の信頼性は高いこともわかると思います。
そして回帰分析と相関分析は2変量解析ですから、信頼性の高い回帰係数と相関係数を得るためには少なくとも20例以上の例数が必要です。 したがって20例以上の例数で回帰分析と相関分析を行えば、回帰誤差の正規性とか2つの項目の2次元正規性などに無闇にこだわらず、回帰係数と相関係数の推定結果と検定結果を素直に信頼して良いことになります。 (→7.2 重回帰分析結果の解釈)