玄関雑学の部屋雑学コーナー統計学入門

18.4 多変量分散分析

(1) 多群の重心のバラツキ

群を判別する時、群の重心が全て重なっていると判別できません。 そこで2群の判別分析では2群の重心が重なっているかどうかをチェックするために、ホッテリングのT2検定という手法が考案されていました。 それと同様に重判別分析でも多群の重心が全て重なっているかどうかをチェックするために、ウィルキス(Wilks)のΛ(ラムダ統計量)を利用した検定が考案されています。 これはホッテリングのT2検定を多群に拡張した手法に相当し、多群の重心がバラついているかどうか、つまりどれか1つ以上の重心が他の重心と離れているかどうかの検定です。 (注1) (→9.4 多変量の場合)

表18.1.1のデータにウィルキスのΛを利用した検定を適用すると次のようになります。

ウィルキスのΛ = 0.305265  相関比:η = 0.83351
Fo = 4.85958(p = 0.00004) > F(10,60,0.05) = 1.99259 … 有意確率5%で有意

この検定結果から、多群の重心は全て重なっているわけではないので判別が不可能ではないと解釈できます。 ただし2群の判別分析と同様に、この場合も多群の重心の比較が目的ではなく個々の個体の判別が目的なので、検定結果よりも重心間のマハラノビスの汎距離や相関比を検討した方が有意義です。

相関比はホッテリングのT2検定における相関比を多群に拡張した指標です。 この値を平方すると寄与率になり、全群の全データのバラツキつまり平方和のうち、群の違いによって説明できる平方和の割合を表します。 上記の結果では相関比を平方すると約0.69になり、全データのバラツキのうち約69%が群の違いによって説明できると解釈できます。 図18.3.1の正準スコアのプロットを見ると、上記の結果が何となく納得できると思います。

図18.3.1 3群の正準スコアのプロット

(2) 重判別分析と多変量分散分析

ホッテリングのT2検定が2標本t検定を多変量に拡張した手法に相当するのと同様に、ウィルキスのΛを利用した検定は一元配置分散分析を多変量に拡張した手法に相当します。 このように分散分析を多変量に拡張した手法のことを多変量分散分析(MANOVA:multivariate analysis of variance)といいます。 ウィルキスのΛを利用した検定は多変量一元配置分散分析に相当しますが、一元配置だけでなく二元配置分散分析も多変量に拡張することができます。 (注2)

第4章で説明した繰り返し測定型のデータはお互いに関連性があるので、繰り返し測定型二元配置分散分析を適用するのは厳密にいえば不適切です。 そこで繰り返し測定データを多変量データと考え、多変量分散分析を適用することが考えられます。 (→4.3 繰り返しのある多標本・多時期の計量値 (2) 繰り返し測定型二元配置分散分析)

しかし多変量分散分析は複雑な手法の上、誤差が多変量正規分布をし、各水準の共分散行列が全て等しいという前提で計算します。 この前提が成り立つ可能性は現実のデータではかなり小さく、どうしても近似的な結果になってしまいます。 そこでどうせ近似的な結果になるなら、繰り返し測定データ同士は独立であるという前提で近似的な結果を求めた方が簡単であり、結果の解釈も容易です。

また繰り返し測定データは時系列データですから、本来は時系列解析を適用すべきです。 しかし研究現場で得られる繰り返し測定データは時期数の少ないものが多く、時系列解析をうまく適用できません。 時系列解析は時期数が少ないと良い結果が得られないのです。 そのため実際の研究現場では多変量分散分析も時系列解析もあまり用いられず、繰り返し測定型二元配置分散分析が多用されます。 (→第12章 時系列解析)


(注1) ウィルキスのΛは群内変動と群間変動の合計に対する群内変動の割合として定義されます。


寄与率(相関比の平和):η2 = 1 - Λo
検定の帰無仮説 H0μ1 = … = μk… = μg
自由度:ω = n - g、γ = g - 1 として
(1) p = 2、g > 3の時:
 Fo > F(2γ,2(ω-1),α)の時、有意水準100α%で有意
(2) g = 2の時:
 Fo > F(p,ω-p+1,α)の時、有意水準100α%で有意
(3) g = 3の時:
 Fo > F(2p,2(ω-p+1),α)の時、有意水準100α%で有意
(4) 上記以外の時(漸近的):バートレット(Bartlett)の方法
 χ2o > χ2(pγ,α)の時、有意水準100α%で有意

上記のようにΛoはq個の固有値から計算するので、この値を利用した検定は多群の重心が全て重なっているかどうかの検定であると同時に、全ての固有値が0かどうかの検定でもあります。 固有値は群間差のバラツキのうち各正準軸に集約できるバラツキの大きさを表すので、固有値が全て0ということは群間差が0ということであり、多群の重心が全て重なっていることになります。

表18.1.1のデータについて実際に計算してみましょう。

Λo = {(1.861 + 1)×(0.145 + 1)}-1 = 3.275845-1=0.305265   η2 = 1 - 0.305265 = 0.694735
ω = 37 - 3 = 34、γ = 3 - 1 = 2
(3) g = 3 に該当:
 Fo = 4.85958(p = 0.00004) > F(10,60,0.05) = 1.99259

(注2) 要因Aの水準数をa、各水準の例数をr、全例数をn、変数の数をpとして、一元配置分散分析を多変量に拡張した多変量一元配置分散分析の一般的データと計算式は次のようになります。

表18.4.1 多変量一元配置分散分析の
一般的データ
群内No.A1AiAa全体
111i1a1 
::::
j1jijaj
::::
r1rirar
1iaT
平均1iaT
n = ar (各水準の例数が不揃いの時:)
           
        
修正項行列:
全体の平方和行列:   自由度:φT = n - 1
要因Aの平方和行列:   自由度:φA = a - 1
残差平方和行列:   自由度:φR = φT - φA
要因Aに関するウィルキスのΛ統計量:
> χ2(pφA,α)の時、有意水準100α%で有意

特定の2群の比較は次のようにして行うことができます。 ただしこれはフィッシャー型の多重比較に相当するので、特定の群を対照群にして他の全ての群をその群と比較したり、あらゆる2群の比較を行う時は、有意確率p値を比較回数倍してボンフェローニ型の多重比較にする必要があります。 (→4.1 多標本の計量値 (1)データに対応がない場合 (注4))

○i群とj群の比較
  
> χ2(p,α)の時、有意水準100α%で有意

二元配置の場合も、上記と同様にして要因Aと要因Bに関するウィルキスのΛ統計量を求めて検定を行うことができます。 (→4.1 多標本の計量値 (1)データに対応がない場合 (注1)(2)データに対応がある場合 (注1))