前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 |
2群ごとの判別分析を利用した多群の判別は単純でわかりやすいものの、群の数が増えると判別結果の解釈が複雑になってしまいます。 例えば5群を判別したいとすると、2群ごとの判別分析を10種類行う必要があります。 そして被検者を判別する時は10種類の判別スコアを求め、それらの値を比較検討して最も確率が高いと思われる群に判別する必要があります。 はっきりいって、これは相当複雑な作業です。
そこで、もっと効率的な判別の方法を考えてみましょう。 第9章の図9.1.1を例にして説明したように、2群の判別分析は2群のデータを多次元の散布図にプロットし、2群のプロットの重なりが最小になるような判別軸を見つけて、その軸に2群のプロットを正射影して判別スコアを求め、その判別スコアを利用して判別を行うものでした。
この原理を多群に拡張して、図18.2.1のように多群のデータを多次元の散布図にプロットします。 そしてまず最初に多群の中で最も離れている2群のプロットの重なりが最小になるような判別軸1――図18.2.1では正準軸1――を見つけて、その軸に多群のプロットを正射影して判別スコア1を求めます。 次に、その軸では重なりが大きかった別の2群の重なりが最小になるような判別軸2を見つけて、今度はその軸に多群のプロットを正射影して判別スコア2を求めます。 こうして多群を複数の判別軸で判別すると、最終的には(群数−1)個の判別軸を見つけ出し、判別軸の数だけ判別スコアを計算することができます。
最後にそれらの判別軸を座標軸とする(群数−1)次元座標上に被検者の判別スコアをプロットすると、図18.2.2のようになります。 この図の次元数は(群数−1)であり、図18.2.1(次元数は検査項目の数と等しい)よりも次元数が減少している上に、群がお互いに離れてプロットの重なりが少なくなっています。 そして被検者を判別する時は(群数−1)個の判別スコアを計算して、それをこの図にプロットし、そのプロットと各群の重心(中心)との距離を計算して、それが最小の群に判別します。 群の中心は群ごとに(群数−1)個の判別スコアの平均値を求め、それをプロットした点になります。
このような原理で多群を判別する手法を重判別分析(MDA:Multiple Discriminant Analysis)または正準判別分析(CDA:Canonical Discriminant Analysys)といいます。 そしてこの手法で求めた判別軸のことを重判別軸(multiple discriminant axis)または正準軸(canonical axis)といい、判別スコアのことを重判別スコア(multiple discriminant score)または正準スコア(canonical score)、判別スコアを求めるための関数のことを重判別関数(multiple discriminant function)または正準関数(canonical function)、正準関数の係数のことを正準係数(canonical coefficient)といいます。
ちなみに「正準」とは、本来は正準相関分析(CCA:Canonical Correlation Analysys)で用いられる用語です。 しかし重判別分析が正準相関分析の親切筋に相当する手法のため、この用語を流用しているのです。 (→第19章 正準相関分析)
表18.1.1のデータに重判別分析を適用すると、次のようになります。 (注1)
固有値は群の違いによるデータのバラツキつまり群間差のバラツキのうち各正準軸に集約できるバラツキのことであり、この値が大きいほど各正準スコアの群間差が大きいことを表します。 また寄与率は群間差の情報のうち各正準軸に集約された情報の割合を表します。 このデータの場合、群間差の情報のうち約93%が第1正準軸に集約される、つまり群の判別には第1正準関数が90%以上寄与していると解釈することができます。 このことから2種類の正準関数を用いずに第1正準関数だけで群の判別をしても、それほど大きな違いはないと考えられます。
重判別分析は普通の判別分析つまり線形判別分析を多群に拡張した手法ですから、当然、2群の判別に用いることもできます。 例えば第9章の表9.1.1のデータに重判別分析を適用すると、次のようになります。 (→第9章 判別分析)
重判別分析の正準スコアは総平均値が0、群内分散が1になるように標準化されます。 それに対して線形判別分析の判別スコアは総平均値が0、群内分散がD2になります。 そのため線形判別分析の判別係数をマハラノビスの汎距離Dで割ると、重判別分析の正準係数になります。 なおウィルキスのΛと相関比については第4節で説明します。
群ごとの母平均値ベクトルを平均値ベクトルで推定し、全群の積和行列の和を利用して母共分散行列を推定します。
ここで、p次元の被検者ベクトルxki.'をベクトルa上に正射影した1次元の合成変量をzkiとします。 この合成変量について群間変動と群内変動の比つまりS/N比を最大にするaを求めれば、これがg個の群を最も効率的に判別する正準スコアになり、zkiを求める関数が正準関数になるはずです。
これは行列[W-1B]の固有値問題に帰着します。 [W-1B]の階数はpまたは(g - 1)の小さい方であり、固有値と固有ベクトルはその数だけ抽出されます。 ただし[W-1B]は対称行列とは限らないので、固有ベクトルはお互いに直行するとは限りません。 しかし固有ベクトルはWに関して共役のため合成変量ベクトルはお互いに直行し、正準スコアはお互いに独立になります。
通常、正準スコアは総平均値が0、群内分散が1になるように標準化します。 こうすると群ごとの分散がほぼ1になり、群の重心と個々の被検者のプロットとの距離を計算しやすくなります。
基本的に正準係数の絶対値が大きい変数は判別に大きく寄与します。 ただし各変数の単位が異なると、正準係数の絶対値が寄与の大きさを正確には反映しなくなります。 そこで正準係数に各変数の群内標準偏差(vの対角要素の平方根)を掛けて標準正準係数にすると、各変数が「1群内標準偏差」だけ変化した時の正準スコアの変化量を表すことになり、寄与の大きさの指標になります。 また群が2つの時、線形判別分析の判別係数をマハラノビスの距離Dで割ると正準係数と一致します。 (→9.4 多変量の場合 (注3))
表18.1.1のデータについて実際に計算してみましょう。