前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 |
この章では重回帰分析の原理と結果の解釈方法、そして各種の変数選択手法とパス解析について解説します。
重回帰分析(multiple regression analysis)は多変量解析の中で最もよく利用される手法です。 名前から想像されるように、この手法は回帰分析を多変量に拡張した手法であり、あるデータに影響を与えている他のデータが多数ある時に、その影響のしかたを直線で近似して分析する手法です。
普通の回帰分析と同様に、この手法もあるデータと別のデータの間の因果関係がはっきりしている、または因果関係を想定しているデータに適用します。 例えば各種の項目を総合して概括評価が行われている時に、その概括評価の評価規準つまり各項目の重要度を分析したい場合などに適用します。 なお重回帰分析と区別するために、普通の回帰分析を単回帰分析(simple regression analysis)と呼ぶことがあります。 (→5.1 相関係数と回帰直線)
例として第6章の表6.1.1のデータに重回帰分析を適用してみましょう。 このデータの場合、TCとTGに基づいて重症度を判定したので因果関係は明白です。 しかしこの表を眺めているだけではTCとTGが重症度にどのような影響を及ぼしているのかわかりません。
患者No. | TC | TG | 重症度 |
---|---|---|---|
1 | 220 | 110 | 0 |
2 | 230 | 150 | 1 |
3 | 240 | 150 | 2 |
4 | 240 | 250 | 1 |
5 | 250 | 200 | 3 |
6 | 260 | 150 | 3 |
7 | 260 | 250 | 2 |
8 | 260 | 290 | 1 |
9 | 270 | 250 | 4 |
10 | 280 | 290 | 4 |
そこでデータの分布状態がよくわかるようにグラフを描くことにしましょう。 といっても、残念ながらウェブではホログラムのような3次元表示はできないので、表6.1.1のデータをそのままプロットするわけにはいきません。 そこで3つの項目から2項目ずつ選んで3枚の散布図を描き、参考までに3次元プロットの見取り図を添えておくことにしましょう。
図7.1.1の左上が見取り図、右上がTCと重症度の散布図、左下が重症度とTGの散布図、右下がTCとTGの散布図です。 TCと重症度の散布図と座標軸を合わせるために、他の2枚の散布図は座標軸を反転しているので注意してください。 左上の見取り図にはデータのプロットだけでなく重回帰式が表す平面も描いてあります。 これについては次節で説明します。
図7.1.1に説明変数と目的変数だけでなく説明変数同士の散布図、つまりTCとTGの散布図も描いてあるのを見て不思議に思うかもしれません。 しかし重回帰分析は説明変数同士の関係も計算に入れて分析するので、それが直線的であるかどうかも確認する必要があるのです。 そしてその関係は因果関係ではなく、お互いに影響を及ぼし合っているという相関関係を想定します。 図7.1.1を見ると表6.1.1における3項目間の関係は直線的であり、重回帰分析を適用しても問題なさそうです。
ところで賢明な読者は図7.1.1が3次元プロットの見取り図、正面図、側面図、および立面図になっていることにお気付きでしょう。 そしてもっと賢明な読者は、もし項目が4つ以上あったら4次元以上のプロットが必要になり、その見取り図を描くことはもちろん、そんなプロットを想像することすら不可能になってしまうことにもお気付きでしょう。 そしてもっともっと賢明な読者は(←しつこい!(^^;))、この方法ではp個の項目についてp(p-1)/2枚の散布図を描く必要があり、もし10項目あったら45枚もの散布図を描かなければならないことにもお気付きでしょう。
正直いって、それは恐ろしく面倒な作業です。 項目数が少ないうちはまだ何とかなりますが、10項目以上になるとほとんど手に負えません。 しかし正しい解析結果を得るためには、データを目で見て適切かどうかを判断するというこの重要な作業を省くことはできません。 そこで折衷案として項目数が多い時は目的変数と各説明変数の散布図だけを描き、説明変数同士の散布図は省略することにしても良いでしょう。 それなら説明変数の数だけ散布図を描くだけです。
原則として多変量解析は単変量解析でそれなりの結果が出ている時に、それらを数学的に総合するためのものです。 そのため重回帰分析を適用する前に目的変数と各説明変数の散布図を描き、各変数の基本統計量と相関係数または回帰直線ぐらいは計算しておくべきです。
重回帰分析では目的変数yと説明変数xの間に次のような直線的な関係——数学的には線形関係といいます——があると仮定します。 これを(線形)重回帰モデルといい、β0を切片(intercept)、βjを偏回帰係数(partial regression coefficient)といいます。
偏回帰係数は回帰直線における傾き、つまり回帰係数に相当する値です。 ただし回帰係数と少し違い、「他の説明変数が一定」という条件で、ある説明変数が「1」変化した時に目的変数がいくつ変化するかを表す値です。 そして偏回帰係数と区別するために、普通の回帰係数を単回帰係数と呼ぶことがあります。 切片は回帰直線の切片と同じく単なる「ゲタ」です。 いくら高いゲタを履いても人の身長そのものは変わらないのと同様に、重回帰モデルの本質的な部分は偏回帰係数にあります。
単回帰分析と同様に重回帰分析も最小2乗法の原理を応用して計算します。 つまり回帰誤差εを平方し、それを合計した値を最小にするような偏回帰係数推定値bを求め、それを母集団の偏回帰係数βの推定値にします。 その計算方法は単回帰分析以上に複雑怪奇なので計算方法の説明は(注1)を見ていただくとして、その結果は次のような形の式で表されます。 この式を重回帰式といい、直線回帰式を多変量に拡張したものに相当します。 (注1)
重回帰モデルは多変量解析における基本的なモデルなので、重回帰分析以外にも色々な多変量解析手法で利用されます。 例えば一元配置分散分析は説明変数としてダミー変数を用いた重回帰モデルで表現することができます。 また共分散分析(ANCOVA:analysis of covariance)は説明変数の中に計量尺度のデータと名義尺度のデータが混在した重回帰モデルで表現することができ、判別分析(discriminant analysis)は目的変数が名義尺度の重回帰モデルで表現することができます。 これらの手法については第8章と第9章で説明します。 (注2) (→4.1 多標本の計量値、第8章 共分散分析、第9章 判別分析)
というわけで「ベクトルと行列」を読んでいただいたことにして、重回帰分析をベクトルと行列を用いて記述してみましょう。
このように重回帰モデルをベクトルと行列で記述すると、偏回帰係数βjが変数xjの係数であるのに対して切片β0は定数項1の係数であることがよくわかります。 この重回帰モデルに最小2乗法を適用して、バラメーターβの最良線形不偏推定量(BLUE解)bを求めると次のようになります。
この誤差の2乗和Qを最小にするbは、Qをbで偏微分したものを0p(p次元ゼロベクトル)と置いた連立方程式の解です。
これを正規方程式(normal equations)といい、行列[X'X]が正則つまり逆行列が存在する時(行列式|X'X|≠0の時)は解を持ちます。 [X'X]は単純積和行列と呼ばれることもあり、具体的には次のような内容の(p+1)次対称行列です。
この行列に逆行列が存在するなら、その逆行列を正規方程式の両辺に左からかけて解は次のようになります。
ここで説明変数が1つの時について具体的に計算してみましょう。
余因子行列を用いて単純積和行列の逆行列を求めると次のようになり、単回帰分析の結果と一致します。 (→5.1 相関係数と回帰直線)
偏回帰係数ベクトルbの解を元の重回帰モデルに代入すると次のようになります。
行列Zは次のような性質を持ち、n次元ベクトル空間上のyを(p+1)次元部分空間に正射影してに変換する射影子(projection)になります。 (→ベクトルと行列 6.ベクトルの直交分解と直交変換 (注1))
このことから、重回帰モデルをベクトル空間上で幾何学的に解釈すると図7.1.2のようになります。 すなわちn次元ベクトル空間Rnにおいて、1nベクトルとp個の説明変数ベクトルx1〜xpを基底とする(p+1)次元部分空間Rp+1が考えられ、これはn次元空間中の(p+1)次元超平面(hyperplan)を構成します。 この超平面に目的変数ベクトルyを正射影したものが推定値ベクトルになり、その超平面の直交補空間つまり{n-(p+1)}次元部分空間Rn-(p+1)にyを正射影したものが誤差(残差)ベクトルεになります。
なぜならは1n とx1〜xpの1次結合として次のように表されるので、これらを基底とする超平面に含まれます。 そのためはyを射影子Zによってその超平面に射影したものになるからです。
さらには次のような最小2乗条件を満足する射影つまりεの大きさを最小にする射影であり、必然的に正射影になります。 そしてZはこの最小2乗条件を満足する解から作った射影子ですから、必然的に正射影のための射影子になります。 これらのことは図7.1.2から直観的に理解できると思います。
また1nとx1〜xpがn次元ベクトル空間における(p+1)次元部分空間の基底になるためには、nが少なくとも(p+1)以上である必要があります。 そのため例数nが(p+1)よりも少ない時は重回帰分析の解を求めることができません。
説明変数が1つもなくて、行列Xの成分が1nベクトルだけの時は図7.1.3のようになります。 この図は第6章第2節(注2)の図6.2.2と本質的に同じものです。 つまりがyの平均値を成分とするベクトルmyに相当し、εが偏差ベクトルdyに相当します。 このことはXの成分が1nベクトルだけの正規方程式を解いてみると、よりはっきりします。
また第6章第2節(注2)で説明したように、平均値を求めるということはデータベクトルyを平均値ベクトルmyと偏差ベクトルdyに直交分解していることに相当します。 それと同様に、重回帰分析もデータベクトルyを推定値ベクトルと誤差ベクトルεに直交分解していることに相当します。
したがってデータyを最小2乗法を用いて単純に要約したものが平均値myであり、1つの説明変数との関係を考慮して要約したものが単回帰式(回帰直線)、p個の説明変数との関係を考慮して要約したものが重回帰式であるということになります。 このことから統計学とはデータを要約することであり、多変量解析がその特別 な場合として単変量解析を包含していることが理解できると思います。
ここで説明した重回帰モデルと最小2乗法は、実は暗黙のうちに誤差について次のような仮定を置いています。
もし等分散性が成り立たなければ誤差分散の逆数を重みとした重み付け重回帰モデルになり、重み付け最小2乗法によって最良不偏推定値(BLUE解)を求めます。
重み付け重回帰モデルは√w・yと√w・xを用いた重回帰モデルであり、計算方法は重回帰モデルとほとんど同じです。 ただし平均値を求める時は例数nの代わりに重み合計Σ√wiを用いるなど、細かい点が少し異なります。 (→5.3 計数値の相関分析と回帰分析 (注4)、7.2 7.2 重回帰分析結果の解釈 (注3)、9.3 1変量の場合 (注1)、10.3 ロジスティック回帰分析の計算方法 (注1))
この場合、Xは一元配置のデザインを決める行列なのでデザイン行列と呼ばれます。 ダミー変数が群の数より1つ少ないのは(p-1)個でp個の群を過不足なく表現できるからであり、これは要因Aの自由度が(p-1)になることと関連しています。 ダミー変数が全て0で表される群1は便宜的に基準になる群なので、普通はコントロール群を割り当てます。
このモデルについて正規方程式を解くと次のようになります。
X'Xの逆行列は余因子行列を用いて次のように計算します。
この時、回帰についての分散分析表がそのまま一元配置分散分析表になり、重寄与率が相関比ηの平方になり、重回帰分析は一元配置分散分析と一致します。 そしてこの時の重回帰モデルを多次元空間で表すと図7.1.4のようになります。 この図でA1群のプロットはy軸上にプロットされ、A2群〜Ap群のプロットはx2−Y平面〜xp−Y平面上にプロットされます。 そして回帰直線を多次元に拡張した回帰超平面が、それら3群のプロットの重心つまり平均値を通ります。
また偏回帰係数bjはA1群の平均値とAj群の平均値の差を表し、bjの検定は平均値の差のフィッシャー型多重比較になります。 したがって多重比較の考え方を普通の重回帰分析にも適用するなら、偏回帰係数の検定はフィッシャー型ではなく、例えばダネット型などにすべきだと考えたくなります。
しかし普通の重回帰分析では説明変数間に関連性があり、それらが有機的に組み合わさって目的変数に影響を与えていると考えます。 そのため個々の説明変数を独立に検定することにはあまり意味がなく、特定の説明変数の組み合わせが目的変数にどの程度影響しているかを評価する、つまりどのような説明変数を組み合わせたモデルが最適かを評価することに重点があります。
そして個々の説明変数の偏回帰係数を検定するのは、あくまでも個々の説明変数の寄与分を独立に評価するためです。 多重比較のように、それらの検定結果を”いいとこ取り”してファミリーとしての結論を導くことはありません。 そのため普通の重回帰分析では偏回帰係数の検定に多重比較を適用する必要はありません。 (→4.1 多標本の計量値)
また説明変数が計量値ではなく一元配置分散分析のような名義尺度のデータばかりの時も、ダミー変数を利用して重回帰分析を行うことができます。 例えば説明変数として性と診断名があり、次のように分類されていたとします。
このモデルについて重回帰分析を行うと、その偏回帰係数は次のようになります。
これらは性差または疾患差であると同時に、名義尺度に数量を与えて数量化(quantification)または尺度化(scaling)したものと解釈することができます。 このように名義尺度に何らかの規準に従って数量を与える手法を数量化理論(quantification theory)といいます。 そしてその中で、ダミー変数による重回帰分析に相当する手法を数量化I類といいます。 数量化理論は日本の林知己夫博士によって開発されたので日本では有名です。