玄関雑学の部屋雑学コーナー統計学入門

第18章 重判別分析

この章では判別分析を利用した多群の判別、重判別分析の原理と結果の解釈方法、そして多変量分散分析との関係について解説します。

18.1 多群の判別

(1) 多群のデータ

医学分野ではひとつの疾患を判別するだけでなく、2つ以上の疾患を同時に判別したり、疾患に色々なタイプがあって、そのタイプまで判別したい時があります。 そのような場合は疾患と正常の判別という2群の判別ではなく、疾患Aと疾患Bと正常の判別というような多群の判別が必要になります。 例えば正常、疾患A、疾患Bの3群について5種類の検査項目(計量値)を測定したところ、表18.1.1のようになったとします。

表18.1.1 3群の検査項目
ID検査項目1検査項目2検査項目3検査項目4検査項目5
N01正常02243
N02正常03355
N03正常14332
N04正常24542
N05正常05433
N06正常16336
N07正常06566
N08正常26644
N09正常07574
N10正常08625
A01疾患A01365
A02疾患A11444
A03疾患A02313
A04疾患A02575
A05疾患A23458
A06疾患A03531
A07疾患A23623
A08疾患A04423
A09疾患A04546
A10疾患A14632
A11疾患A05564
A12疾患A05647
A13疾患A15731
A14疾患A06736
A15疾患A07855
B01疾患B02234
B02疾患B12467
B03疾患B03343
B04疾患B03465
B05疾患B04476
B06疾患B24432
B07疾患B04586
B08疾患B05367
B09疾患B05443
B10疾患B06565
B11疾患B17658
B12疾患B07754

(2) 2群ごとの判別

このデータを用いて3群の判別を行う時、最初に考えられるのは2群ごとに判別分析を適用し、それらの結果を総合的に検討して群の判別を行うという方法です。 その方法を適用すると次のようになります。 (→第9章 判別分析)

○正常群と疾患A群の判別
判別関数:z = -2.99092 - 2.4002x1 - 3.56353x2 + 4.21481x3 - 1.01225x4 + 1.00335x5
x1 〜 x5:検査項目1 〜 検査項目5
マハラノビスの汎距離:D = 3.1748  相関比:η = 0.85116
D/2 = 1.58741  誤判別確率:p = 0.0562104(判別確率:1 - p = 0.94379)
○正常群と疾患B群の判別
判別関数:z = -1.34854 - 0.61143x1 - 0.860857x2 + 0.833383x3 + 0.0871461x4 + 0.3924x5
マハラノビスの汎距離:D = 1.16505  相関比:η = 0.51978
D/2 = 0.582521  誤判別確率:p = 0.280108(判別確率:1 - p = 0.719892)
○疾患A群と疾患B群の判別
判別関数:z = 0.387397 + 1.54431x1 + 2.29165x2 - 2.9188x3 + 1.32841x4 - 0.529507x5
マハラノビスの汎距離:D = 2.34707  相関比:η = 0.77135
D/2 = 1.17354  誤判別確率:p = 0.120291(判別確率:1 - p = 0.879709)

この結果を見ると正常群と疾患A群の判別確率が最も高く、次が疾患A群と疾患B群、最後が正常群と疾患B群であることがわかります。 つまり正常群と疾患A群が最も異なっていて、疾患B群は疾患A群よりも正常群に近いと解釈できます。 そして3群の判別に大きく寄与するのは検査項目2と検査項目3ですが、正常群と疾患A群および疾患B群を判別する時と、疾患A群と疾患B群を判別する時では判別係数の符号が反対になる、つまり影響の仕方が反対になることがわかります。

上記の判別関数を用いて、例えば疾患A群のA07の症例について判別スコアを計算すると次のようになります。

○正常群と疾患A群の判別スコア
z = -2.99092 - 2.4002×2 - 3.56353×3 + 4.21481×6 - 1.01225×2 + 1.00335×3 = 7.7925
z > 0より疾患A群と判別
○正常群と疾患B群の判別スコア
z = -1.34854 - 0.61143×2 - 0.860857×3 + 0.833383×6 + 0.0871461×2 + 0.3924×3 = 1.197819
z > 0より疾患B群と判別
○疾患A群と疾患B群の判別スコア
z = 0.387397 + 1.54431×2 + 2.29165×3 - 2.9188×6 + 1.32841×2 - 0.529507×3 = -6.093534
z < 0より疾患A群と判別

最初の判別スコアと2番目の判別スコアから、この症例は正常の確率は低いことがわかります。 そしてさらに3番目の判別スコアも考慮すると、疾患Aの確率が最も高いことがわかります。 したがってこの症例は疾患Aと判別することになり、正しく判別することができます。