統計学入門−第18章

第2節の正準関数を用いて被検者ごとの正準スコアを求め、さらに群ごとの正準スコアの平均値を求めると次のようになります。

○第1正準スコア
z₁ = 0.4032238 + 0.7327189x₁ + 1.0384614x₂ - 1.2873219x₃ + 0.4419487x₄ - 0.2632886x₅
x₁ 〜 x₅：検査項目1 〜検査項目5
正準スコア平均値：正常群 m_z1N = 1.49109 　　疾患A群 m_z1A = -1.53817 　　疾患B群 m_z1B = 0.680132
○第2正準スコア
z₂ = -1.7750462 - 0.288767x₁ - 0.2208574x₂ + 0.0380198x₃ + 0.4348566x₄ + 0.1750495x₅
正準スコア平均値：正常群 m_z2N = -0.431886 　　疾患A群 m_z2A = -0.105258　　疾患B群 m_z2B = 0.491478

一般に正準軸同士は直交するとは限らないものの、正準スコア同士は独立になり、群ごとの正準スコアの標準偏差はほぼ1になります。ただし群ごとの正準スコアは独立になるとは限りません。そのため被検者の判別のために各群の重心からの距離を求める時は、理論的には正準スコア同士の関連性を考慮したマハラノビスの汎距離を求める必要があります。各被検者について2種類の正準スコアと、各群の重心からのマハラノビスの平方距離を計算すると表18.3.1のようになります。汎距離を平方した平方距離にするのは、後で説明するエウクレイデス(ユークリッド)の平方距離と比較するためです。 _(注1) (→9.4 多変量の場合)

表18.3.1 正準スコアとマハラノビスの平方距離
ID	群	正準スコア	重心からのマハラノビスの平方距離
z₁	z₂	正常群	疾患A群	疾患B群
N01	正常	0.883432	0.123853	0.792544	6.56095	0.138552
N02	正常	0.549943	0.725971	2.71862	4.88751	0.05643
N03	正常	2.22709	-1.17851	1.30584	19.2847	3.78249
N04	正常	0.827115	-0.956385	0.698911	8.05519	2.15597
N05	正常	0.982223	-0.897536	0.475976	8.83094	1.90126
N06	正常	3.25086	-0.920032	3.29301	28.8648	6.7351
N07	正常	1.26934	0.749345	1.88114	8.68441	0.557758
N08	正常	1.09014	-1.00998	0.537457	9.82553	2.19836
N09	正常	3.27633	0.613245	4.01166	25.646	7.54984
N10	正常	0.554438	-1.56883	2.28484	8.4664	4.82993
A01	疾患A	-1.08503	1.60254	12.291	2.62828	3.31761
A02	疾患A	-2.26024	0.307033	14.0834	0.897428	9.79871
A03	疾患A	-1.72974	-1.1427	9.78098	0.96448	12.0299
A04	疾患A	-2.17927	1.89258	20.7432	4.81549	8.1318
A05	疾患A	-0.0618073	0.711606	4.19227	2.59163	0.532513
A06	疾患A	-1.85544	-0.7679	10.2317	0.433344	10.9877
A07	疾患A	-2.64585	-1.39217	16.217	2.32301	20.351
A08	疾患A	-0.498187	-1.11154	3.99582	2.67865	5.66029
A09	疾患A	-1.69148	0.321346	10.4286	0.228263	6.41833
A10	疾患A	-1.63487	-1.06446	9.14625	0.834319	11.0309
A11	疾患A	0.757459	0.620103	2.04551	5.81407	0.0316463
A12	疾患A	-2.20363	0.313558	13.7061	0.80324	9.41773
A13	疾患A	-1.62045	-1.42234	9.6228	1.59088	12.8865
A14	疾患A	-2.63115	-0.479186	15.5633	1.32305	15.2177
A15	疾患A	-1.73282	0.0326406	10.068	0.0738665	7.3351
B01	疾患B	0.178194	-0.135954	1.75991	3.42337	0.928007
B02	疾患B	-1.12775	1.48104	11.8397	2.26515	3.32831
B03	疾患B	0.634571	-0.0589842	0.905788	5.40206	0.35052
B04	疾患B	-0.295431	1.19885	6.83635	2.642	1.08252
B05	疾患B	0.921691	1.5879	5.73056	7.77616	1.56352
B06	疾患B	1.67249	-1.42926	1.33816	15.4831	3.72276
B07	疾患B	0.0763177	2.06077	10.4117	5.82522	2.40048
B08	疾患B	2.254224	1.06921	3.6405	18.3167	4.89404
B09	疾患B	1.42417	-0.462679	0.00497871	10.7273	1.08366
B10	疾患B	1.53263	0.574295	1.29454	10.3599	0.845954
B11	疾患B	0.784676	0.192983	1.03397	5.99174	0.0866029
B12	疾患B	-0.182211	-0.180429	2.7217	2.17292	1.71363

マハラノビスの平方距離を計算するのはけっこう面倒なので、近似値として単純なエウクレイデス(ユークリッド)平方距離を用いて判別する時もあります。エウクレイデス平方距離とはエウクレイデス幾何学が成り立つ平らな空間における2点間の距離の平方であり、三平方の定理に基いて次のように計算します。本来の距離はこの値の平方根ですが、群の判別には平方距離の方をよく用います。

例えば疾患A群のA07の症例について、正準スコアとエウクレイデス平方距離を計算すると次のようになります。この結果と表18.3.1のA07のマハラノビスの平方距離を比較すると、大きく異なっているわけではないことがわかると思います。

第1正準スコア：z₁ = 0.4032238 + 0.7327189×2 + 1.0384614×3 - 1.2873219×6 + 0.4419487×2 - 0.2632886×3 = -2.64585
第2正準スコア：z₂ = -1.7750462 - 0.288767×2 - 0.2208574×3 + 0.0380198×6 + 0.4348566×2 + 0.1750495×3 = -1.39217
正常群の重心とのエウクレイデス平方距離：d_N² = (-2.64585 - 1.49109)² + (-1.39217 + 0.431886)² = 18.0364
疾患A群の重心とのエウクレイデス平方距離：d_A² = (-2.64585 + 1.53817)² + (-1.39217 + 0.105258)² = 2.8831
疾患B群の重心との平方距離：d_B² = (-2.64585 - 0.680132)² + (-1.39217 - 0.491478)² = 14.6103
※d_A²が最小だから疾患A群と判別

表18.3.1の3種類のマハラノビスの平方距離のうち赤字の斜体で表したものが最小値であり、被検者をその群に判別することになります。その判別結果を群別にまとめると表18.3.2のようになります。多群の判別は2群の判別よりも難しく、3群をランダムに判別した時の理論的判別率は約33％です。そのため全体の判別率が75.7％というのは比較的高い判別率といえます。

表18.3.2 判別結果
実際の群＼判別結果	正常群(％)	疾患A群(％)	疾患B群(％)	計
正常群	7(70.0)	0(0.0)	3(30.0)	10
疾患A群	0(0.0)	13(86.7)	2(13.3)	15
疾患B群	3(25.0)	1(8.3)	8(66.7)	12
全体	28(75.7)	37

このデータの場合、マハラノビスの平方距離を用いてもエウクレイデス平方距離を用いても判別率は変わりません。しかし正準関数は全体の正準スコアが独立になるという条件で求めたものであり、群ごとの正準スコアの関連性については考慮していません。そのためマハラノビスの平方距離を用いた方が判別率が少し高くなる時もあれば、エウクレイデス平方距離を用いた方が判別率が少し高くなる時もあります。そのため現実のデータでは計算が簡単なエウクレイデス平方距離の方が実用的です。

次に表18.3.1の正準スコアをプロットすると、図18.3.1のようになります。このグラフから正常群と疾患A群はかなり異なっていて、疾患B群はその中間的な特徴を持っていることがわかります。事実、表18.3.2からわかるように、正常群を疾患A群と誤判別した症例はなく、逆に疾患A群を正常群と誤判別した症例もありません。そして各群のプロットは少し傾いた楕円状に分布しているものの、全体としては傾きのない楕円状に分布していることから、z₁とz₂は群ごとには独立ではないものの、全体としては独立であることがわかると思います。

さらにA07の症例は3群の中で疾患A群の重心に最も近く、疾患A群の典型的な症例であることもわかります。ちなみに、図18.3.1のA07のプロットから各群の重心まで引いた破線の長さを単純に平方した値がエウクレイデス平方距離になります。

(2) 少数の正準スコアを用いた判別

正準軸の寄与率と図18.3.1から、3群の判別には第1正準スコアが大きく寄与していて、第2正準スコアの寄与は小さいことがわかります。例えばA07の症例について、第1正準スコアだけで判別すると次のようになります。

そして全例を第1正準スコアだけで判別すると次のようになります。この判別率は表18.3.2の結果よりも少し落ちますが、計算量を半分にした割にはそれほど悪くなっていません。

群の数が多くなると正準スコアの数が多くなり、計算量が多くなります。そこで寄与の大きい少数の正準スコアだけを用いて判別を行うという簡便法が考えられます。例えば合計寄与率が90％以上になる時の少数の正準スコアだけを用いて判別を行えば、判別率をそれほど落とすことなく簡便な判別を行うことができます。

ちなみに2群の判別分析つまり線形判別分析を前向き研究用にするとロジスティック回帰分析に対応し、判別関数とロジスティック関数が似たものになります。それと同様に重判別分析を前向き研究用にすると多項ロジスティック回帰分析に対応し、正準関数の中のひとつ——たいていは第1正準関数——がロジスティック関数と似たものになります。そのため、ひとつの正準スコアだけを用いた重判別分析を前向き研究用にすると多項ロジスティック回帰分析に対応します。

ただし疾患が発症する前に、疾患が発症するかどうかをリスクファクターから予測するための手法がロジスティック回帰分析であり、疾患が発症した後で、疾患であるかどうかを診断指標から診断するための手法が判別分析です。したがって重判別分析と多項ロジスティック回帰分析も、この基本を踏まえた上でうまく使い分けることが大切です。 (→10.5 順序ロジスティック回帰分析)

(注1)　標準化された正準スコアは総平均値が0で群内分散が1になり、しかもお互いに独立です。しかし群ごとの正準スコアはそうとは限りません。群ごとの正準スコアの平均値と分散、そして正準スコア同士の相関係数は次のようにして計算します。

群ごとの正準スコアの平均値：m_zki = a_i0 + ｍ_k'ａ_i^* (k = 1,…,g　i = 1,…,q)
群ごとの正準スコアの積和行列：

群ごとの正準スコアの共分散行列：

第i正準スコアと第j正準スコアの相関係数：

(k = 1,…,q　i = 1,…,q　j = 1,…,q)

この正準スコアの平均値と共分散行列の逆行列を利用して、任意の被検者のプロットと各群の重心とのマハラノビスの平方距離を求めることができます。

任意の被検者のデータベクトル：

正準スコアベクトル：

　　正準スコアの平均値ベクトル：

マハラノビスの平方距離：D_k² = (ｚ - ｍ_zk)'Ｖ_zk^-1(ｚ - ｍ_zk) (k = 1,…,g)

表18.1.1のA07のデータについて実際に計算してみましょう。

○正常群
正準スコアの積和行列：

正準スコアの共分散行列の逆行列：

A07と重心の第1正準スコアの差 = -2.64585 - 1.49109 = -4.13694
A07と重心の第2正準スコアの差 = -1.39217 + 0.431886 = -0.960284
マハラノビスの平方距離：

○疾患A群
正準スコアの積和行列：

正準スコアの共分散行列の逆行列：

A07と重心の第1正準スコアの差 = -2.64585 + 1.53817 = -1.10768
A07と重心の第2正準スコアの差 = -1.39217 + 0.105258 = -1.286912
マハラノビスの平方距離：

○疾患B群
正準スコアの積和行列：

正準スコアの共分散行列の逆行列：

A07と重心の第1正準スコアの差=-2.64585 - 0680132=-3.325982
A07と重心の第2正準スコアの差=-1.39217 - 0.491478=-1.883648
マハラノビスの平方距離：

※D₂²が最短だから疾患A群と判別

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

18.3 正準スコア

(1) 正準スコアによる判別

(2) 少数の正準スコアを用いた判別