玄関雑学の部屋雑学コーナー統計学入門

18.3 正準スコア

(1) 正準スコアによる判別

第2節の正準関数を用いて被検者ごとの正準スコアを求め、さらに群ごとの正準スコアの平均値を求めると次のようになります。

○第1正準スコア
z1 = 0.4032238 + 0.7327189x1 + 1.0384614x2 - 1.2873219x3 + 0.4419487x4 - 0.2632886x5
x1 〜 x5:検査項目1 〜 検査項目5
正準スコア平均値:正常群 mz1N = 1.49109   疾患A群 mz1A = -1.53817   疾患B群 mz1B = 0.680132
○第2正準スコア
z2 = -1.7750462 - 0.288767x1 - 0.2208574x2 + 0.0380198x3 + 0.4348566x4 + 0.1750495x5
正準スコア平均値:正常群 mz2N = -0.431886   疾患A群 mz2A = -0.105258  疾患B群 mz2B = 0.491478

一般に正準軸同士は直交するとは限らないものの、正準スコア同士は独立になり、群ごとの正準スコアの標準偏差はほぼ1になります。 ただし群ごとの正準スコアは独立になるとは限りません。 そのため被検者の判別のために各群の重心からの距離を求める時は、理論的には正準スコア同士の関連性を考慮したマハラノビスの汎距離を求める必要があります。 各被検者について2種類の正準スコアと、各群の重心からのマハラノビスの平方距離を計算すると表18.3.1のようになります。 汎距離を平方した平方距離にするのは、後で説明するユークリッドの平方距離と比較するためです。 (注1) (→9.4 多変量の場合)

表18.3.1 正準スコアとマハラノビスの平方距離
ID正準スコア重心からのマハラノビスの平方距離
z1z2正常群疾患A群疾患B群
N01正常0.8834320.1238530.7925446.560950.138552
N02正常0.5499430.7259712.718624.887510.05643
N03正常2.22709-1.178511.3058419.28473.78249
N04正常0.827115-0.9563850.6989118.055192.15597
N05正常0.982223-0.8975360.4759768.830941.90126
N06正常3.25086-0.9200323.2930128.86486.7351
N07正常1.269340.7493451.881148.684410.557758
N08正常1.09014-1.009980.5374579.825532.19836
N09正常3.276330.6132454.0116625.6467.54984
N10正常0.554438-1.568832.284848.46644.82993
A01疾患A-1.085031.6025412.2912.628283.31761
A02疾患A-2.260240.30703314.08340.8974289.79871
A03疾患A-1.72974-1.14279.780980.9644812.0299
A04疾患A-2.179271.8925820.74324.815498.1318
A05疾患A-0.06180730.7116064.192272.591630.532513
A06疾患A-1.85544-0.767910.23170.43334410.9877
A07疾患A-2.64585-1.3921716.2172.3230120.351
A08疾患A-0.498187-1.111543.995822.678655.66029
A09疾患A-1.691480.32134610.42860.2282636.41833
A10疾患A-1.63487-1.064469.146250.83431911.0309
A11疾患A0.7574590.6201032.045515.814070.0316463
A12疾患A-2.203630.31355813.70610.803249.41773
A13疾患A-1.62045-1.422349.62281.5908812.8865
A14疾患A-2.63115-0.47918615.56331.3230515.2177
A15疾患A-1.732820.032640610.0680.07386657.3351
B01疾患B0.178194-0.1359541.759913.423370.928007
B02疾患B-1.127751.4810411.83972.265153.32831
B03疾患B0.634571-0.05898420.9057885.402060.35052
B04疾患B-0.2954311.198856.836352.6421.08252
B05疾患B0.9216911.58795.730567.776161.56352
B06疾患B1.67249-1.429261.3381615.48313.72276
B07疾患B0.07631772.0607710.41175.825222.40048
B08疾患B2.2542241.069213.640518.31674.89404
B09疾患B1.42417-0.4626790.0049787110.72731.08366
B10疾患B1.532630.5742951.2945410.35990.845954
B11疾患B0.7846760.1929831.033975.991740.0866029
B12疾患B-0.182211-0.1804292.72172.172921.71363

マハラノビスの平方距離を計算するのはけっこう面倒なので、近似値として単純なユークリッド平方距離を用いて判別する時もあります。 ユークリッド平方距離とはユークリッド幾何学が成り立つ平らな空間における2点間の距離の平方であり、三平方の定理に基いて次のように計算します。 本来の距離はこの値の平方根ですが、群の判別には平方距離の方をよく用います。

正常群の重心からのユークリッド平方距離:dN2 = (z1 - mz1N)2 + (z2 - mz2N)2
疾患A群の重心からのユークリッド平方距離:dA2 = (z1 - mz1A)2 + (z2 - mz2A)2
疾患B群の重心からのユークリッド平方距離:dB2 = (z1 - mz1B)2 + (z2 - mz2B)2

例えば疾患A群のA07の症例について、正準スコアとユークリッド平方距離を計算すると次のようになります。 この結果と表18.3.1のA07のマハラノビスの平方距離を比較すると、大きく異なっているわけではないことがわかると思います。

第1正準スコア:z1 = 0.4032238 + 0.7327189×2 + 1.0384614×3 - 1.2873219×6 + 0.4419487×2 - 0.2632886×3 = -2.64585
第2正準スコア:z2 = -1.7750462 - 0.288767×2 - 0.2208574×3 + 0.0380198×6 + 0.4348566×2 + 0.1750495×3 = -1.39217
正常群の重心とのユークリッド平方距離:dN2 = (-2.64585 - 1.49109)2 + (-1.39217 + 0.431886)2 = 18.0364
疾患A群の重心とのユークリッド平方距離:dA2 = (-2.64585 + 1.53817)2 + (-1.39217 + 0.105258)2 = 2.8831
疾患B群の重心との平方距離:dB2 = (-2.64585 - 0.680132)2 + (-1.39217 - 0.491478)2 = 14.6103
dA2が最小だから疾患A群と判別

表18.3.1の3種類のマハラノビスの平方距離のうち赤字の斜体で表したものが最小値であり、被検者をその群に判別することになります。 その判別結果を群別にまとめると表18.3.2のようになります。 多群の判別は2群の判別よりも難しく、3群をランダムに判別した時の理論的判別率は約33%です。 そのため全体の判別率が75.7%というのは比較的高い判別率といえます。

表18.3.2 判別結果
実際の群\判別結果正常群(%)疾患A群(%)疾患B群(%)
正常群7(70.0)0(0.0)3(30.0)10
疾患A群0(0.0)13(86.7)2(13.3)15
疾患B群3(25.0)1(8.3)8(66.7)12
全体28(75.7)37

このデータの場合、マハラノビスの平方距離を用いてもユークリッド平方距離を用いても判別率は変わりません。 しかし正準関数は全体の正準スコアが独立になるという条件で求めたものであり、群ごとの正準スコアの関連性については考慮していません。 そのためマハラノビスの平方距離を用いた方が判別率が少し高くなる時もあれば、ユークリッド平方距離を用いた方が判別率が少し高くなる時もあります。 そのため現実のデータでは計算が簡単なユークリッド平方距離の方が実用的です。

次に表18.3.1の正準スコアをプロットすると、図18.3.1のようになります。 このグラフから正常群と疾患A群はかなり異なっていて、疾患B群はその中間的な特徴を持っていることがわかります。 事実、表18.3.2からわかるように、正常群を疾患A群と誤判別した症例はなく、逆に疾患A群を正常群と誤判別した症例もありません。 そして各群のプロットは少し傾いた楕円状に分布しているものの、全体としては傾きのない楕円状に分布していることから、z1とz2は群ごとには独立ではないものの、全体としては独立であることがわかると思います。

さらにA07の症例は3群の中で疾患A群の重心に最も近く、疾患A群の典型的な症例であることもわかります。 ちなみに、図18.3.1のA07のプロットから各群の重心まで引いた破線の長さを単純に平方した値がユークリッド平方距離になります。

図18.3.1 3群の正準スコアのプロット

(2) 少数の正準スコアを用いた判別

正準軸の寄与率と図18.3.1から、3群の判別には第1正準スコアが大きく寄与していて、第2正準スコアの寄与は小さいことがわかります。 例えばA07の症例について、第1正準スコアだけで判別すると次のようになります。

正常群の重心とのユークリッド平方距離:dN2 = (-2.64585 - 1.49109)2 = 17.11431
疾患A群の重心とのユークリッド平方距離:dA2 = (-2.64585 + 1.53817)2 = 1.226964
疾患B群の重心とのユークリッド平方距離:dB2 = (-2.64585 - 0.680132)2 = 11.06218
dA2が最小だから疾患A群と判別

そして全例を第1正準スコアだけで判別すると次のようになります。 この判別率は表18.3.2の結果よりも少し落ちますが、計算量を半分にした割にはそれほど悪くなっていません。

正常群の判別率:50%(5例/10例)  疾患A群の判別率:87%(13例/15例)   疾患B群の判別率:58%(7例/12例)
全体の判別率:68%(25例/37例)

群の数が多くなると正準スコアの数が多くなり、計算量が多くなります。 そこで寄与の大きい少数の正準スコアだけを用いて判別を行うという簡便法が考えられます。 例えば合計寄与率が90%以上になる時の少数の正準スコアだけを用いて判別を行えば、判別率をそれほど落とすことなく簡便な判別を行うことができます。

ちなみに2群の判別分析つまり線形判別分析を前向き研究用にするとロジスティック回帰分析に対応し、判別関数とロジスティック関数が似たものになります。 それと同様に重判別分析を前向き研究用にすると多項ロジスティック回帰分析に対応し、正準関数の中のひとつ——たいていは第1正準関数——がロジスティック関数と似たものになります。 そのため、ひとつの正準スコアだけを用いた重判別分析を前向き研究用にすると多項ロジスティック回帰分析に対応します。

ただし疾患が発症する前に、疾患が発症するかどうかをリスクファクターから予測するための手法がロジスティック回帰分析であり、疾患が発症した後で、疾患であるかどうかを診断指標から診断するための手法が判別分析です。 したがって重判別分析と多項ロジスティック回帰分析も、この基本を踏まえた上でうまく使い分けることが大切です。 (→10.5 順序ロジスティック回帰分析)


(注1) 標準化された正準スコアは総平均値が0で群内分散が1になり、しかもお互いに独立です。 しかし群ごとの正準スコアはそうとは限りません。 群ごとの正準スコアの平均値と分散、そして正準スコア同士の相関係数は次のようにして計算します。

群ごとの正準スコアの平均値:mzki = ai0 + k'i* (k = 1,…,g i = 1,…,q)
群ごとの正準スコアの積和行列:
群ごとの正準スコアの共分散行列:
第i正準スコアと第j正準スコアの相関係数: (k = 1,…,q i = 1,…,q j = 1,…,q)

この正準スコアの平均値と共分散行列の逆行列を利用して、任意の被検者のプロットと各群の重心とのマハラノビスの平方距離を求めることができます。

任意の被検者のデータベクトル:
正準スコアベクトル:   正準スコアの平均値ベクトル:
マハラノビスの平方距離:Dk2 = ( - zk)'zk-1( - zk) (k = 1,…,g)

表18.1.1のA07のデータについて実際に計算してみましょう。

○正常群
正準スコアの積和行列:
正準スコアの共分散行列の逆行列:
A07と重心の第1正準スコアの差 = -2.64585 - 1.49109 = -4.13694
A07と重心の第2正準スコアの差 = -1.39217 + 0.431886 = -0.960284
マハラノビスの平方距離:
○疾患A群
正準スコアの積和行列:
正準スコアの共分散行列の逆行列:
A07と重心の第1正準スコアの差 = -2.64585 + 1.53817 = -1.10768
A07と重心の第2正準スコアの差 = -1.39217 + 0.105258 = -1.286912
マハラノビスの平方距離:
○疾患B群
正準スコアの積和行列:
正準スコアの共分散行列の逆行列:
A07と重心の第1正準スコアの差=-2.64585 - 0680132=-3.325982
A07と重心の第2正準スコアの差=-1.39217 - 0.491478=-1.883648
マハラノビスの平方距離:
D22が最短だから疾患A群と判別