統計学入門−第8章

表8.1.1のデータに共分散分析を適用すると次のような結果になります。 _(注1)

表8.2.1 共分散分析表(ANCOVA table)
要因	平方和	自由度	平均平方和(分散)	F値
群差	33.08	1	33.08	2.865
共通回帰	254.94	1	254.94	22.084

修正群差	114.81	1	114.81	9.945
全体回帰	173.21	1	173.21	15.004

非平行性	0.23	1	0.23	0.020
残差	184.70	16	11.54
全体	472.95	19

各群の群別回帰式は、前節と同じように群ごとに計算した回帰直線です。 共通回帰式は2群の回帰直線が平行と仮定した時の回帰式です。この共通回帰式は次のようにして計算します。まず2群のデータを平行移動し、データの重心が全体の重心に重なるようにします。この移動はxとyについて全体の平均値から各群の平均値を引いて移動距離ΔxとΔyを求め、その値を各群のデータに足すことに相当します。

例えば表8.1.1の患者No.1(A剤投与群)のデータと患者No.9(B剤投与群)のデータについて、移動後のデータを計算すると次のようになります。

このような計算を全てのデータについて行うと2群のデータの重心が重なり、離れていた2つの群が1つの群のようになります。そしてこの状態で全体の回帰直線を計算します。これが全体の共通回帰直線であり、その式が全体の共通回帰式になります。こうすると、その共通回帰直線の傾きは群ごとに計算した回帰直線の傾きを平均した値になります。ただし単純な平均値ではなく2群の例数で重み付けした平均値になり、例数の多い群の傾きにより近い値になります。

次にその共通回帰直線の重心を2群の重心まで平行移動します。そうすると傾きは同じで切片だけ異なった2本の回帰直線ができます。この2本の回帰直線が群ごとの共通回帰直線であり、その式が共通回帰式になります。これらの回帰直線の関係を模式図で表したものが図8.2.1です。計算の複雑さを反映して、この図はかなり複雑ですから何が何やらわからない方もいると思います。そんな方は「とにかくめったやたらと複雑な方法で計算した平行な怪奇直線、いや回帰直線なんだな……」と思ってください。

全体回帰式は2群のデータを移動せず、そのままの状態で全体の回帰直線を計算した時の回帰式です。これは2群の回帰直線の傾きと切片がほぼ同じ時だけxとyの関係を正しく反映し、それ以外の時はxとyの関係を正しく反映しません。そのため共分散分析の計算に必要なので求めているだけであり、実質的な意味はあまりありません。

表8.2.1の共分散分析表における群差の行は、2群のyの平均値をそのまま比較した検定結果を表しています。この行の平方和は群の違いによって説明できるyの変動分つまり情報量を表し、自由度＝(群数−1)は情報の担い手の数を表し、平均平方和は平方和を自由度で割った分散つまり情報密度を表し、F値は群差の情報密度と残差の情報密度の比を表しています。これは表8.1.1の変化量について、単純な一元配置分散分析つまり対応の無いt検定を行なったものとほぼ同じです。ただし残差が減っているのでF値が大きくなり、単純な一元配置分散分析よりも検定効率が良くなっています。

共通回帰の行は共通回帰式に関する検定結果を表しています。 修正群差の行は共通回帰直線にそって2群のデータを総平均値の位置までずらした時のyの平均値、つまり2群の修正平均値を比較した検定結果を表しています。 全体回帰の行は全体回帰式に関する検定結果を表しています。しかしこの行は共分散分析の計算に必要なので求めているだけであり、実質的な意味はあまりありません。 非平行性の行は2群の群別回帰直線の傾き、つまり2群の群別回帰式の回帰係数を比較した検定結果を表しています。残差の行は群差から非平行性までの要因で説明し切れないデータの変動を表しています。共分散分析ではこれが誤差になります。

表8.2.1の共分散分析表において共通回帰と修正群差の間に隙間があり、全体回帰と非平行性の間にも隙間があるのは、群差と共通回帰を合わせた平方和と、修正群差と全体回帰を合わせた平方和が等しくなるからです。このことはデータの変動のうちのある部分については、2群の平均値の違いによる変動と平行な共通回帰直線による変動を合わせたものと解釈できると同時に、修正平均値の違いによる変動と全体の回帰直線による変動を合わせたものとも解釈できることを意味しています。

その結果、共分散分析表では全要因の平方和の合計が全体の平方和と一致せず、全要因の自由度の合計も全体の自由度と一致しません。これは同じ変動について2通りの解釈をしているからであり、群差＋共通回帰＋非平行性＋残差の合計または修正群差＋全体回帰＋非平行性＋残差の合計が全体に一致します。このことは少々複雑なことであり、やさしく説明するのはやっかいなのでここではあえて詳しく説明しません。興味のある方は(注1)をじっくりお読みください。

(2) 共分散分析結果の解釈

共分散分析の結果を見る時は、まず最初に共分散分析表の共通回帰と非平行性の行に注目します。共通回帰のF値が大きければ共通回帰の情報密度が誤差の情報密度よりも濃いことになり、共通回帰直線が意味を持つ、つまり共変数の影響が無視できないことになります。非平行性のF値が大きければ非平行性の情報密度が誤差の情報密度よりも濃いことになり、2群の群別回帰直線が非平行である、つまり共変数の与える影響が2群で異なっていることになります。

したがって共変数の影響を取り除いて2群の平均値を純粋に比べることができるのは、共通回帰のF値が大きく、かつ非平行性のF値が小さい場合に限ります。この場合は共変数の与える影響が無視できず、しかも2群の回帰直線はほぼ平行と考えられます。その結果、図8.1.3のように共変数をどのような値に統一しても2群の修正平均値の差は同じになり、それは2群の共通回帰式における切片の差と等しくなります。

非平行性のF値が大きい時は2群の回帰直線は平行ではなく、共変数の与える影響が群によって異なると考えられます。その場合は2群の群別回帰直線が意味を持ちます。そして図8.1.4のようにそれらの回帰直線は非平行であり、必ずどこかで交わります。したがって共変数の影響を取り除いて2群の平均値を純粋に比べることはできません。

その代わり、このことから群の性質が異なることが推測できます。例えばこの例のように群によって種類の異なる薬剤を使用していたのなら、薬剤の性質が異なるということが推測できます。薬剤の性質が異なるということはその作用機序が異なる、つまり薬剤のプロフィールが異なるという可能性を示唆し、これはこれで重要な情報になります。

共通回帰のF値も非平行性のF値もどちらも小さい時は共変数の与える影響が小さく、わざわざ共分散分析を行なう必要はないと考えられます。この場合は共変数を無視して、単なる一元配置分散分析を行なえば良いことになります。そしてその結果は、共分散分析表において群差の行を要因Aとし、共通回帰の行と非平行性の行を残差にプールしたものと一致します。

それではF値がどれくらいなら「大きい」と考えられるのかというと、要因の情報密度が誤差の情報密度よりも2倍以上濃いこと、つまりF値が2以上あること、または(要因の情報量＋誤差情報量)に対する要因の情報量の割合つまり寄与率が20％以上あることを目安にすると良いといわれています。

またF値は検定統計量ですから、この値を利用して分散分析と同じように各要因の検定をすることができます。これはデータの変動におよぼす各要因の影響が数学的な意味で0であるかどうかを検定するだけの有意性検定であり、実質的にほとんど無意味なシロモノです。しかし有意症患者を満足させるためには役立つので、実質的な意味はなくても普通は検定を行います。

回帰直線が意味を持ち、それが平行かどうかは、これまでくどくしつこく述べてきたように、本来は回帰直線の傾きについて医学的・薬学的な面から考察を加えて科学的に判断すべきことです。 F値や寄与率はそのための参考資料にすぎません。いくら検定結果が有意になろうと、寄与率が大きかろうと、科学的に見て意味のある影響を与えていなければ回帰直線は意味を持たないと考えるべきです。

ここで例題の結果について検討を加えてみましょう。まず共通回帰と非平行性のF値と寄与率は次のようになります。

上記の結果から、共通回帰のF値が非常に大きくて寄与率が50％を越えており、傾きもかなり大きいことがわかります。それに対して非平行性のF値と寄与率は非常に小さく、2群の傾きの違いも微々たるものであることもわかります。したがって平行な回帰直線が意味を持ち、それによって投与前値の影響を取り除いて2群の平均値を純粋に比較することができると判断して良いでしょう。例えば2群の投与前値を総平均162に統一すると次のようになります。

A剤投与群の修正平均値は第1節で群別回帰直線を利用して求めた値-24とは若干違います。しかしやはり単純な平均値とは大小関係が逆転していて、A剤投与群の低下量の方が9mmHgだけ多くなっています。この変化量の差は医学的にまあまあ意味のある値ですし、寄与率もまあまあの値です。したがって次のように結論して良さそうです。

ちなみに投与前後の変化量について、投与前値の影響を無視して単純な一元配置分散分析を適用すると次のようになります。

表8.2.2 分散分析表(ANOVA table)
要因	平方和	自由度	平均平方和(分散)	F値
群	33.08	1	33.08	1.353
残差	439.87	18	24.44
全体	472.95	19

この結果から共分散分析を用いると平均値の大小関係が逆転するだけでなく、誤差の平方和と分散がどちらも半分以下になり、結果についての数学的な信頼性が高くなることがわかります。

(3) 共分散分析と変化量と変化率

投与前値をx、投与後値をyとして、その間に次のような直線関係があるとします。

すると投与前後の変化量dは次のように表されます。この式の推定式が共分散分析における回帰式に相当します。

この式でβ = 1の時つまり回帰係数が0の時は次のようになります。この場合、共分散分析は投与前後の変化量をそのまま比較することになります。

また投与前後の変化量を投与前値で割ってパーセントに変換した変化率d(%)は次のようになります。

この式でα = 0の時つまり回帰式の切片が0の時は次のようになります。この場合、変化率の比較は投与前値xを100に統一した時の共分散分析と一致します。

これらのことから投与前後の変化量を計算したり変化率を計算したりするのは共分散分析の特別な場合に相当することと、回帰係数が0の時は変化量が正当性を持ち、切片が0の時は変化率が正当性を持つことがわかります。しかしそれ以外の時は——実はほとんどの場合が「それ以外の時」なのですが——変化量も変化率も投与前値の影響を取り除くことができません。したがって、そのような時は共分散分析を適用しなければなりません。 (→2.4 差と比とパーセントの使い分け)

以上のように、結果に影響をおよぼす項目が存在する時は、その平均値が群によって違っている時はもちろん、たとえ違いがなくても共分散分析を用いて精度の高い分析をすることが望まれます。特に前後の変化量を群間で比較する時は、原則として初期値を共変数にした共分散分析が必要です。知名度が低くてあまり利用されていない共分散分析ですが、便利で応用範囲が広いのでぜひお薦めしたい手法です。

(注1)　共変数をx、目的変数をy、群数すなわち要因群の水準数をa、各群の例数をr_iとして、表8.1.1を一般化すると次のようになります。

表8.2.3 共分散分析の一般的データ
群	群内No.	x	y
A₁	1	x₁₁	y₁₁
	:	:	:
	j	x_1j	y_1j
	:	:	:
	r₁	x_1r1	y_1r1
	計	T_x1	T_y1
	平均値	m_x1	m_y1
:	:	:
A_i	1	x_i1	y_i1
	:	:	:
	j	x_ij	y_ij
	:	:	:
	r_i	x_iri	y_iri
	計	T_xi	T_yi
	平均値	m_xi	m_yi
:	:	:
A_a	1	x_a1	y_a1
	:	:	:
	j	x_aj	y_aj
	:	:	:
	r_a	x_ara	y_ara
	計	T_xa	T_ya
	平均値	m_xa	m_ya
全体	計	T_x	T_y
全体	平均値	m_x	m_y

共分散分析ではデータy_ijを次のように2通りに分解して考えます。

全体回帰：

共通回帰：

全体回帰式による推定値：

　　共通回帰式による推定値：

群別回帰式による推定値：

全体回帰式の回帰係数：b₀　　共通回帰式の回帰係数：b 　　A_i群における群別回帰式の回帰係数：b_i
i = 1,…,a　　j = 1,…,r_i

この基本式に対応する平方和、自由度、分散は次のようになります。

○全体
例数：

　　平方和：

自由度：φ_T = n - 1 　　分散：

○全体回帰
平方和：

積和：

回帰係数：

　　回帰平方和：

自由度：φ_β0 = 1 　　分散：

○共通回帰
平方和：

積和：

回帰係数：

　　回帰平方和：

自由度：φ_β = 1 　　分散：

○群差
平方和：

自由度：φ_A = a - 1 　　分散：

○修正群差
平方和：S_AA=S_A + S_β - S_β0 　　自由度：φ_AA = a - 1 　　分散：

○群別回帰
回帰係数：

　　回帰平方和：

　　自由度：φ_βi = 1 　　分散：

○非平行性
平方和：

　　自由度：φ_D = a - 1 　　分散：

○残差
平方和：

　　自由度：φ_R = n - 2a 　　分散：

各回帰式の切片は次のようにして求めます。

m_y = a + bm_x より a = m_y - bm_x

また共通回帰式から求めた各群の修正平均値の分散を利用して、xの値が全体の平均値の時の2群の修正平均値の差の検定と推定を行うことができます。この修正平均値の差は2群の共通回帰式の切片の差と一致します。そして群数が2の時の検定は修正群差の検定と一致します。

i群の修正平均値：

p群とq群の修正平均値の差：

検定：

＞ F(1,φ_R,α)の時、有意水準100α％で有意
100(1 - α)％信頼区間：

　→ 下限：

　上限：

※ただしF(1,φ_R,α)を用いるのはフィッシャー型多重比較の場合。多重比較の種類に応じてこの値を適当に変える。 (→4.1 多標本の計量値 (注4))

表8.1.1のデータについて実際に計算すると次のようになります。これらの統計量を用いて本文中の表8.2.1の共分散分析表を作成することができます。

　　φ_T = 20 - 1 = 19 　　

φ_β0 = 1　　V_β0 = 173.21

φ_β = 1　　V_β = 254.94

　　φ_A = 2 - 1 = 1　　V_A = 33.08
S_AA = 33.08 + 254.94 - 173.21 = 114.81 　　φ_AA = 2 - 1 = 1　　V_AA = 114.81
S_D = 99.33 + 155.84 - 254.94 = 0.23 　　φ_D = 2 - 1 = 1　　V_D = 0.23
S_R = 472.95 - 33.08 - (99.33 + 155.84) = 184.70 　　φ_R = 20-2×2 = 16 　　

ちなみに平方和と同様に積和にも相加性(additivity)があり、共分散分析はこの性質を利用しています。群間積和は各群の全てのデータx_ijとy_ijが群平均値m_xiとm_yiに等しい時の全体積和に相当します。 (→4.1 多標本の計量値 (注1))

全体積和：

群間積和：

また群数が2の時、非平行性の検定は次のように2群の回帰係数の差の検定に相当します。

※V(b₁ - b₂)：b₁とb₂の差の分散

なお1つの回帰係数の検定は1つの相関係数の検定と一致します。しかし2つの相関係数の差の検定は2つの回帰係数の差の検定とは異なり、フィッシャーのz変換(z-transformation)を利用して次のようになります。 (→5.1 相関係数と回帰直線 (注1))

フィッシャーのz変換：

逆変換：

として

＞ t(∞,α)の時、有意水準100α％で有意

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

8.2 共分散分析結果の解釈

(1) 共分散分析表

(2) 共分散分析結果の解釈

(3) 共分散分析と変化量と変化率