前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 |
第3節で回帰式を重回帰式にした共分散分析について説明しました。 このことから類推できるように、共分散分析は説明変数の中に計量尺度のデータと名義尺度のデータが混在した重回帰分析に相当します。 例えば表8.1.1の薬剤を「0:A 1:B」というダミー変数で表し、薬剤と投与前の収縮期血圧を説明変数にし、投与前後の変化量を目的変数にした重回帰分析を適用してみましょう。 (→第7章 重回帰分析)
患者No. | 薬剤 (0:A 1:B) | 投与前 | 投与後 | 変化量 |
---|---|---|---|---|
1 | 0 | 140 | 126 | -14 |
2 | 0 | 140 | 132 | -8 |
3 | 0 | 145 | 127 | -18 |
4 | 0 | 145 | 132 | -13 |
5 | 0 | 150 | 130 | -20 |
6 | 0 | 150 | 135 | -15 |
7 | 0 | 155 | 132 | -23 |
8 | 0 | 160 | 140 | -20 |
9 | 1 | 160 | 142 | -18 |
10 | 1 | 165 | 152 | -13 |
11 | 1 | 165 | 155 | -10 |
12 | 1 | 165 | 150 | -15 |
13 | 1 | 170 | 155 | -15 |
14 | 1 | 170 | 150 | -20 |
15 | 1 | 170 | 148 | -22 |
16 | 1 | 175 | 155 | -20 |
17 | 1 | 175 | 150 | -25 |
18 | 1 | 180 | 157 | -23 |
19 | 1 | 180 | 160 | -20 |
20 | 1 | 185 | 158 | -27 |
要因 | 平方和SS | 自由度φ | 平均平方和Ms(分散V) | 分散比F |
---|---|---|---|---|
回帰 | 288.014 | 2 | 144.007 | 13.2376 |
残差 | 184.936 | 17 | 10.8786 | |
全体 | 472.95 | 19 |
上記の重回帰式の変数x1は薬剤を表すダミー変数なので、この変数に0または1を代入した時の重回帰式はそれぞれA剤投与群またはB剤投与群のx2(投与前収縮期血圧)とy(変化量)の回帰式になります。
これらの回帰式は第2節で説明した共分散分析における共通回帰式に相当することがわかると思います。 また表8.2.1の共分散分析表の非平行性の項を残差にプールすると次のような共分散分析表になります。
要因 | 平方和 | 自由度 | 平均平方和(分散) | F値 |
---|---|---|---|---|
群差 | 33.075 | 1 | 33.075 | 3.040 |
共通回帰 | 254.939 | 1 | 254.939 | 23.435 |
修正群差 | 114.806 | 1 | 114.806 | 10.553 |
全体回帰 | 173.207 | 1 | 173.207 | 15.922 |
残差 | 184.936 | 17 | 10.8786 | |
全体 | 472.95 | 19 |
この共分散分析表と重回帰分析の結果を比べると、共通回帰の検定が偏回帰係数b2(投与前収縮期血圧)の検定に相当し、修正群差の検定が偏回帰係数b1(薬剤)の検定に相当していることがわかると思います。 つまりこの場合の重回帰分析は2群の回帰式が平行と仮定して共分散分析を行っていることに相当します。 またこの表の残差の平均平方和は表8.2.1の共分散分析表の残差の平均平方和よりも小さくなり、検定と推定の精度が少し高くなります。 このように非平行性のF値が1未満の時は非平行性の項を残差にプールした方が効率的です。 (注1)
次にダミー変数化した薬剤と投与前収縮期血圧を掛け合わせて「薬剤×投与前」という項目を作り、この項目まで含めて重回帰分析を適用してみましょう。
患者No. | 薬剤 (0:A,1:B) | 投与前 | 投与後 | 薬剤×投与前 | 変化量 |
---|---|---|---|---|---|
1 | 0 | 140 | 126 | 0 | -14 |
2 | 0 | 140 | 132 | 0 | -8 |
3 | 0 | 145 | 127 | 0 | -18 |
4 | 0 | 145 | 132 | 0 | -13 |
5 | 0 | 150 | 130 | 0 | -20 |
6 | 0 | 150 | 135 | 0 | -15 |
7 | 0 | 155 | 132 | 0 | -23 |
8 | 0 | 160 | 140 | 0 | -20 |
9 | 1 | 160 | 142 | 160 | -18 |
10 | 1 | 165 | 152 | 165 | -13 |
11 | 1 | 165 | 155 | 165 | -10 |
12 | 1 | 165 | 150 | 165 | -15 |
13 | 1 | 170 | 155 | 170 | -15 |
14 | 1 | 170 | 150 | 170 | -20 |
15 | 1 | 170 | 148 | 170 | -22 |
16 | 1 | 175 | 155 | 175 | -20 |
17 | 1 | 175 | 150 | 175 | -25 |
18 | 1 | 180 | 157 | 180 | -23 |
19 | 1 | 180 | 160 | 180 | -20 |
20 | 1 | 185 | 158 | 185 | -27 |
要因 | 平方和SS | 自由度φ | 平均平方和Ms(分散V) | 分散比F |
---|---|---|---|---|
回帰 | 288.247 | 3 | 96.082 | 8.323 |
残差 | 184.703 | 16 | 11.544 | |
全体 | 472.95 | 19 |
上記の重回帰式の変数x1は薬剤を表すダミー変数であり、x3はx1(薬剤)×x2(投与前収縮期血圧)です。 そのためこの2つの変数に0または1を代入した時の重回帰式は、それぞれA剤投与群またはB剤投与群のx2とy(変化量)の回帰式になります。
これらの回帰式は第2節で説明した共分散分析における群別回帰式、つまり第1節の図8.1.2の群ごとの回帰直線を表す式に相当することがわかると思います。 そして表8.2.1の共分散分析表と重回帰分析の結果を比べると、非平行性の検定が偏回帰係数b3(薬剤×投与前収縮期血圧)の検定に相当していることがわかると思います。 つまりこの場合の重回帰分析は2群の回帰式が非平行と仮定して共分散分析を行っていることに相当します。 (注2)
そこでx1(薬剤)に0または1を代入してx2(投与前収縮期血圧)を説明変数にした時の偏回帰直線と偏回帰プロットを描くと、図8.4.3のように偏回帰直線(青色の直線)は群別回帰直線(赤色または黒色の直線)と重なり、偏回帰プロット(青色のプロット)は群別プロット(赤色または黒色のプロット)と重なります。 なお青色のプロット○はB群の症例にA剤を投与した時の予測プロットであり、黒色のプロット×はA群の症例にB剤を投与した時の予測プロットです。 (→7.2 重回帰分析結果の解釈)
そして赤色の点線はA群の群別回帰直線の95%予測限界を表し、青色の点線はx1=0の時の偏回帰直線の95%予測限界を表します。 A群の群別回帰直線の95%予測限界はA群のデータだけから求めたものであるのに対して、偏回帰直線の95%予測限界は2群を合わせて求めたものです。 そのため例数が増える分だけ回帰誤差が小さくなって予測限界の幅が狭くなり、目的変数の予測精度が高くなります。 したがって第3節で説明したように群別に回帰分析をするよりも共分散分析を適用する方が結果の精度が高くなります。
また前述の重回帰式におけるx2の偏回帰係数-0.535は、x1=0つまりA剤投与群の群別回帰式における共変数x(投与前収縮期血圧)の回帰係数に相当します。 そしてx3の偏回帰係数0.032はA剤投与群とB剤投与群の群別回帰式における共変数xの回帰係数の差に相当します。 そのためこれら2つの偏回帰係数は具体的な値であり、解釈が容易です。
一方、x1の偏回帰係数4.405はx2が0の時のA剤投与群とB剤投与群の群別回帰式におけるyの差に相当します。 これはx2つまり投与前収縮期血圧が0の時のA剤投与群とB剤投与群の変化量推測値の差に相当し、あまり現実的な値ではありません。 そこでもっと現実的な値として、投与前収縮期血圧が2群を合わせた時の平均値である162.25の時の変化量推測値と、その時の2群の差を求めると次のようになります。
これらの変化量推測値とその差は現実的値であり、解釈が容易です。 この計算は図8.1.2において、2群のプロットを群別回帰直線にそって投与前収縮期血圧平均値(162.25)の位置までずらした時の2群の平均値とその差を求めていることに相当します。 そしてそれは投与前収縮期血圧のデータを偏差=(投与前収縮期血圧 − 投与前収縮期血圧平均値)に変換してから群別回帰式を求めることに対応します。 このように実測値のデータから平均値を引いて偏差に変換することを中心化(centering)といい、統計学ではよく行われます。
そこで「薬剤×投与前」という項目を「薬剤偏差(薬剤 − 0.6)×投与前偏差(投与前 − 162.25)」に変換して重回帰分析を適用してみましょう。
患者No. | 薬剤 (0:A,1:B) | 投与前 | 投与後 | 薬剤偏差×投与前偏差 | 変化量 |
---|---|---|---|---|---|
1 | 0 | 140 | 126 | 13.35 | -14 |
2 | 0 | 140 | 132 | 13.35 | -8 |
3 | 0 | 145 | 127 | 10.35 | -18 |
4 | 0 | 145 | 132 | 10.35 | -13 |
5 | 0 | 150 | 130 | 7.35 | -20 |
6 | 0 | 150 | 135 | 7.35 | -15 |
7 | 0 | 155 | 132 | 4.35 | -23 |
8 | 0 | 160 | 140 | 1.35 | -20 |
9 | 1 | 160 | 142 | -0.9 | -18 |
10 | 1 | 165 | 152 | 1.1 | -13 |
11 | 1 | 165 | 155 | 1.1 | -10 |
12 | 1 | 165 | 150 | 1.1 | -15 |
13 | 1 | 170 | 155 | 3.1 | -15 |
14 | 1 | 170 | 150 | 3.1 | -20 |
15 | 1 | 170 | 148 | 3.1 | -22 |
16 | 1 | 175 | 155 | 5.1 | -20 |
17 | 1 | 175 | 150 | 5.1 | -25 |
18 | 1 | 180 | 157 | 7.1 | -23 |
19 | 1 | 180 | 160 | 7.1 | -20 |
20 | 1 | 185 | 158 | 9.1 | -27 |
要因 | 平方和SS | 自由度φ | 平均平方和Ms(分散V) | 分散比F |
---|---|---|---|---|
回帰 | 288.247 | 3 | 96.082 | 8.323 |
残差 | 184.703 | 16 | 11.544 | |
全体 | 472.95 | 19 |
この場合のx1の偏回帰係数9.668は投与前収縮期血圧が平均値の時の2群の変化量推測値の差に相当し、これは共分散分析における2群の修正平均値の差9.484に近い値です。 そしてx2の偏回帰係数-0.516は2群の群別回帰式の回帰係数を2群の例数で重み付けした平均値になり、これは共分散分析における共通回帰式の回帰係数-0.514に近い値です。 またx3の偏回帰係数0.032は2群の群別回帰式における共変数の回帰係数の差に相当し、これは「薬剤×投与前」を用いた重回帰分析と同じです。 そして重寄与率と分散分析表も「薬剤×投与前」を用いた重回帰分析と同じです。
このように「薬剤×投与前」を中心化した「薬剤偏差×投与前偏差」を用いると、重回帰分析全体の結果は変わらずに偏回帰係数の値がより具体的になって解釈しやすくなります。 そのため統計ソフトによっては、重回帰分析に「薬剤×投与前」のような項目を含めると自動的に中心化して「薬剤偏差×投与前偏差」に変換して計算するものがあります。 これは共分散分析をシミュレートすることによって重回帰分析の結果を解釈しやすくするための処理です。
またダミー変数を使った重回帰分析ではなく普通の重回帰分析では、例えばx1:体重、x2:投与前収縮期血圧、x3:体重×投与前収縮期血圧のように、2つの項目がどちらも連続量の時も有り得ます。 このような時にこれら3つを説明変数にした重回帰分析を行うと、x1とx2の偏回帰係数はそれぞれ相手の変数の値が0の時のその変数の偏回帰係数になります。 そのような偏回帰係数は非現実的なことが多く、解釈が難しくなりがちです。
そこで「体重×投与前収縮期血圧」を中心化して「体重偏差×投与前収縮期血圧偏差」にして重回帰分析を行うと、x1とx2の偏回帰係数はそれぞれ相手の変数の値が平均値の時のその変数の偏回帰係数になります。 そのような偏回帰係数は現実的であり、解釈が容易になります。 そのため2つの項目がどちらも連続量の場合も、2つの項目を中心化して――または医学的に意義のある値を引いて――偏差に変換してから重回帰分析を行うと結果の解釈が容易になります。
ちなみに「薬剤×投与前」を用いた重回帰分析ではx1とx3の単相関係数が0.998であり、x2とx3の単相関係数が0.882と非常に高い値です。 それに対して「薬剤偏差×投与前偏差」を用いた重回帰分析ではx1とx3の単相関係数が-0.568であり、x2とx3の単相関係数が-0.451と、符号が反対になって絶対値が少し小さくなっています。 説明変数同士の関連性が強いと、次の(2)で説明する多重共線性によって偏回帰係数が非合理な値になって結果の解釈が難しい時があります。 そのため「2つの項目を中心化してから掛け合わせるのは多重共線性を防ぐため」と解説している統計学解説書がたまにあります。
しかし「薬剤×投与前」を用いた重回帰分析は、多重共線性のせいで結果が非合理になっているわけではありません。 一見すると非合理に見えるx1の偏回帰係数は、x1とx2とx3の偏回帰係数を総合すると合理的に解釈できます。 そのため多重共線性を防ぐために関連性が強い説明変数を解析から除外すると正しい結果が得られません。
また「薬剤偏差×投与前偏差」を用いた重回帰分析でもx1とx2とx3の間の相関係数の絶対値はけっこう大きく、「薬剤×投与前」を用いた重回帰分析で多重共線性が問題になるのなら、こちらも多重共線性が問題になっても不思議ではありません。 2つの項目を偏差に変換してから掛け合わせるのは多重共線性を防ぐためではなく、偏回帰係数を現実的な値にして重回帰分析の結果を解釈しやすくするためなのです。
この重回帰式のx3(薬剤×投与前収縮期血圧)は薬剤と投与前収縮期血圧の交互作用(interaction)を表す項目であり、投与前収縮期血圧が変化量に与える影響が薬剤によって異なっている程度を表します。 投与前収縮期血圧が変化量に与える影響が薬剤によって異なっているということは、投与前収縮期血圧と変化量の回帰式の傾きが薬剤投与群ごとに異なっている、つまり非平行であることを表し、結局のところ共分散分析における非平行性に相当します。
重回帰分析では説明変数と目的変数の間に因果関係があると想定します。 そして通常は説明変数間に相関関係があり、その相関関係が非常に強い時は多重共線性があるといいます。 さらに説明変数の中に群を表すダミー変数があり、群によってある説明変数の値が異なっている時は、その説明変数のことを群に関する交絡因子(confounding factor)といいます。 この因果関係と相関関係および交互作用と交絡因子は混同しやすいので、第1節の図8.1.3と図8.1.4を参考にして少し詳しく説明しましよう。
図8.1.3では投与前値と変化量の回帰直線の傾きが2群とも負であり、投与前値が大きいほど変化量が小さくなる、つまり投与後の値が低下しています。 これは前述の重回帰式でx2(投与前収縮期血圧)の偏回帰係数b2が負であることに対応していて、投与前値と変化量の間に因果関係があり、その様子を直線で近似できることを表しています。
さらにA群の投与前値は低く、B群の投与前値は高くなっています。 これは重回帰式でx1(薬剤)とx2(投与前収縮期血圧)の間に相関関係があることに対応していて、x2(投与前収縮期血圧)はx1(薬剤)の交絡因子であることを表しています。 このような時は薬剤が異なると投与前値が異なり、投与前値が異なると低下量も異なるので2つの薬剤の効果を公平に比較できません。 2つの薬剤の効果を公平に比較するためには投与前値で補正する、つまり2群の投与前値を揃えて変化量を比較する必要があります。 それが共分散分析の主目的です。
実は図8.1.3は図8.1.2を模式的に表したものであり、A群とB群の投与前値はほとんど分離していて重なっている部分はごく一部です。 そのため薬剤と投与前の相関関係が非常に強く、図8.1.2では相関係数が0.857もあります。 これだけ相関関係が強いと薬剤と投与前の間に多重共線性があり、重回帰分析結果の信頼性が低い可能性があります。 しかし重回帰分析の結果ではx1(薬剤)の偏回帰係数は4.405、x2(投与前収縮期血圧)の偏回帰係数は-0.535であり、極端に非合理な値というわけではありませんし、後者は有意水準5%で有意です。 そのためこれらの偏回帰係数の信頼性が極端に低いとはいえないので、多重共線性は弱いと考えて良いと思います。 (→7.2 重回帰分析結果の解釈)
また図8.1.4では2群の回帰直線が非平行であり、回帰直線の傾きがA群とB群で異なっています。 これは重回帰式においてx3(薬剤×投与前収縮期血圧)の偏回帰係数が0ではないので群によってx2の偏回帰係数が異なることに対応し、薬剤と投与前の間に交互作用があると解釈できます。 この場合、投与前値が変わると2つの薬剤の効果の差が変わるので単純な薬効比較はできません。
それに対して図8.1.3では2群の回帰直線はほぼ平行であり、薬剤と投与前の間に相関関係はあるものの交互作用はほとんどありません。 そのため2つの薬剤の効果を公平に比較するには2群の投与前値を揃える必要があるものの、投与前値が変わっても2つの薬剤の効果の差は変わらないので単純な薬効比較ができます。 この2つの模式図を見比べると交絡因子と交互作用の違いがよくわかると思います。
交互作用は、この例題のように一方が名義尺度のデータで他方が計量尺度のデータという時に限らず、計量尺度のデータ同士、名義尺度のデータ同士でも全く同じようにして計算することができます。
普通の重回帰分析では説明変数間に相関関係はあるものの交互作用はないと仮定して計算します。 しかしこの交互作用がないという仮定はある意味で暗黙の仮定であり、はっきり意識することは少ないと思います。 ところが実際には説明変数に性別のような項目が含まれていると、目的変数に与える他の説明変数の影響が男と女で異なる、つまり性と他の説明変数の間に交互作用がある時があります。 そのような時は説明変数間の交互作用を考慮するために、説明変数同士を掛け合わせた交互作用項目も含めて重回帰分析を行う必要があります。
また医学分野などでは2つの項目の積を計算したり、比を計算したりして、総合的な指標を作ることがしばしばあります。 例えば肥満度の指標としてよく用いられるBMI(Body Mass Index)は次のような計算式で求めます。
身長を平方した値は人間の体表面積とほぼ比例するので、BMIは単位体表面積あたりの体重を表す指標になります。 つまり端的にいえば体型が球に近いほどBMIが大きくなるということです。 このBMIがある疾患の重症度相当の値に影響を与えていて、その関係が次のような直線回帰式で近似できたとします。
この直線回帰式は、実は重症度に関する体重と身長の平方の逆数の交互作用を表す式になります。 例えば身長が150cmの時と190cmの時の体重と重症度の直線回帰式は、それぞれ次のようになります。
一方、体重が50kgの時と80kgの時の身長の平方の逆数と重症度の直線回帰式は、それぞれ次のようなります。
このようにBMIと重症度の関係が直線で近似できるということは、体重と重症度の関係は直線で近似でき、身長の平方の逆数と重症度の関係も直線で近似でき、体重と身長の平方の逆数の間に交互作用があるということを意味します。 つまり身長が高くなるほど体重が重症度に与える影響は弱くなる、あるいは体重が重くなるほど身長の平方の逆数が重症度に与える影響は強くなるということになります。
逆にいえば体重と重症度の関係が直線で近似でき、身長の平方の逆数と重症度の関係も直線で近似でき、体重と身長の平方の逆数の間に交互作用がある時に限って、BMIと重症度の関係を直線で近似することができるということになります。 これはほとんど意識されていませんが、実は大きな意味を持つことです。
この結果と第2節の(注1)の結果を比べると、b0が群1の共通回帰式の切片に相当し、b1が群2と群1の共通回帰式の切片の差に相当し、b2が共通回帰式の回帰係数に相当し、SRが非平行性をプールした残差平方和に相当することがわかると思います。 表8.4.1のデータについて実際に計算すると次のようになります。 (→8.2 共分散分析結果の解釈 (注1))
第2節(注1)の表8.2.3のデータについて、群A1〜Aaを(a-1)個のダミー変数で表して説明変数にし、yに関する重回帰分析を行ったもの。
これは群を要因Aにした一元配置分散分析に相当し、この時の回帰平方和が共分散分析における群差の平方和SAになり、回帰自由度が群差の自由度φAになります。 表8.4.1のデータについて実際に計算すると次のようになります。
要因 | 平方和SS | 自由度φ | 平均平方和Ms(分散V) | 分散比F |
---|---|---|---|---|
回帰 | 33.075 | 1 | 33.075 | 1.35345 |
残差 | 439.875 | 18 | 24.4375 | |
全体 | 472.95 | 19 |
第2節(注1)の表8.2.3のデータについて、共変数xだけを説明変数にし、yに関する重回帰分析を行ったもの。
これは共変数に関する全体回帰式を計算したものに相当し、この時の回帰平方和が共分散分析における全体回帰の平方和Sβ0になり、回帰自由度が全体回帰の自由度φβ0になります。 表8.4.1のデータについて実際に計算すると次のようになります。
要因 | 平方和SS | 自由度φ | 平均平方和Ms(分散V) | 分散比F |
---|---|---|---|---|
回帰 | 173.207 | 1 | 173.207 | 10.4014 |
残差 | 299.743 | 18 | 16.6524 | |
全体 | 472.95 | 19 |
第2節(注1)の表8.2.3のデータについて、群を(a-1)個のダミー変数で表したものと共変数xを説明変数にし、yに関する重回帰分析を行ったもの。
これは共変数に関する全体回帰式と修正群差を計算したものに相当すると同時に、共通回帰式と群差を計算したものにも相当します。 そのためこの時の回帰平方和は共分散分析における全体回帰の平方和Sβ0と修正群差の平方和SAAの合計になると同時に、共通回帰の平方和Sβと群差の平方和SAの合計にもなります。 そして回帰自由度は全体回帰の自由度φβ0と修正群差の自由度φAAの合計になると同時に、共通回帰の自由度φβと群差の自由度φAの合計にもなります。
表8.4.1のデータについて実際に計算すると、本文中の表8.4.2のようになります。 そしてこの結果と表8.4.6と表8.4.7の結果を利用して、共通回帰と修正群差の平方和と自由度を求めることができます。
第2節(注1)の表8.2.3のデータについて、群を(a-1)個のダミー変数で表したものと共変数x、そして群と共変数を掛けた交互作用変数を説明変数にし、yに関する重回帰分析を行ったもの。
これは共変数に関する群別回帰式と群差を計算したものに相当し、この時の回帰平方和が共分散分析における全体回帰の平方和Sβ0と修正群差の平方和SAAと非平行性の平方和SDの合計になり、回帰自由度が全体回帰の自由度φβ0と修正群差の自由度φAAと非平行性の自由度φDの合計になり、残差SRがそのまま残差SRになります。
表8.4.1のデータについて実際に計算すると、本文中の表8.4.5のようになります。 そしてこの結果と表8.4.2の結果を利用して、非平行性の平方和と自由度を求めることができます。
以上の結果から表8.2.1の共分散分析表を作成することができます。
要因 | 平方和 | 自由度 | 平均平方和(分散) | F値 |
---|---|---|---|---|
群差 | 33.08 | 1 | 33.08 | 2.865 |
共通回帰 | 254.94 | 1 | 254.94 | 22.084 |
修正群差 | 114.81 | 1 | 114.81 | 9.945 |
全体回帰 | 173.21 | 1 | 173.21 | 15.004 |
非平行性 | 0.23 | 1 | 0.23 | 0.020 |
残差 | 184.70 | 16 | 11.54 | |
全体 | 472.95 | 19 |
この手順を応用すれば、色々な多変量解析手法について共分散分析的な解析を行うことができます。 例えばこの手順をロジスティック回帰分析に応用すればロジスティック回帰曲線に関する共分散分析相当の解析を行うことができますし、周期回帰分析に応用すれば周期回帰曲線に関する共分散分析相当の解析を行うことができます。 (→第10章 ロジスティック回帰分析、12.6 周期共分散分析)