前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 |
第2節の正準関数を用いて被検者ごとの正準スコアを求め、さらに群ごとの正準スコアの平均値を求めると次のようになります。
一般に正準軸同士は直交するとは限らないものの、正準スコア同士は独立になり、群ごとの正準スコアの標準偏差はほぼ1になります。 ただし群ごとの正準スコアは独立になるとは限りません。 そのため被検者の判別のために各群の重心からの距離を求める時は、理論的には正準スコア同士の関連性を考慮したマハラノビスの汎距離を求める必要があります。 各被検者について2種類の正準スコアと、各群の重心からのマハラノビスの平方距離を計算すると表18.3.1のようになります。 汎距離を平方した平方距離にするのは、後で説明するユークリッドの平方距離と比較するためです。 (注1) (→9.4 多変量の場合)
ID | 群 | 正準スコア | 重心からのマハラノビスの平方距離 | |||
---|---|---|---|---|---|---|
z1 | z2 | 正常群 | 疾患A群 | 疾患B群 | ||
N01 | 正常 | 0.883432 | 0.123853 | 0.792544 | 6.56095 | 0.138552 |
N02 | 正常 | 0.549943 | 0.725971 | 2.71862 | 4.88751 | 0.05643 |
N03 | 正常 | 2.22709 | -1.17851 | 1.30584 | 19.2847 | 3.78249 |
N04 | 正常 | 0.827115 | -0.956385 | 0.698911 | 8.05519 | 2.15597 |
N05 | 正常 | 0.982223 | -0.897536 | 0.475976 | 8.83094 | 1.90126 |
N06 | 正常 | 3.25086 | -0.920032 | 3.29301 | 28.8648 | 6.7351 |
N07 | 正常 | 1.26934 | 0.749345 | 1.88114 | 8.68441 | 0.557758 |
N08 | 正常 | 1.09014 | -1.00998 | 0.537457 | 9.82553 | 2.19836 |
N09 | 正常 | 3.27633 | 0.613245 | 4.01166 | 25.646 | 7.54984 |
N10 | 正常 | 0.554438 | -1.56883 | 2.28484 | 8.4664 | 4.82993 |
A01 | 疾患A | -1.08503 | 1.60254 | 12.291 | 2.62828 | 3.31761 |
A02 | 疾患A | -2.26024 | 0.307033 | 14.0834 | 0.897428 | 9.79871 |
A03 | 疾患A | -1.72974 | -1.1427 | 9.78098 | 0.96448 | 12.0299 |
A04 | 疾患A | -2.17927 | 1.89258 | 20.7432 | 4.81549 | 8.1318 |
A05 | 疾患A | -0.0618073 | 0.711606 | 4.19227 | 2.59163 | 0.532513 |
A06 | 疾患A | -1.85544 | -0.7679 | 10.2317 | 0.433344 | 10.9877 |
A07 | 疾患A | -2.64585 | -1.39217 | 16.217 | 2.32301 | 20.351 |
A08 | 疾患A | -0.498187 | -1.11154 | 3.99582 | 2.67865 | 5.66029 |
A09 | 疾患A | -1.69148 | 0.321346 | 10.4286 | 0.228263 | 6.41833 |
A10 | 疾患A | -1.63487 | -1.06446 | 9.14625 | 0.834319 | 11.0309 |
A11 | 疾患A | 0.757459 | 0.620103 | 2.04551 | 5.81407 | 0.0316463 |
A12 | 疾患A | -2.20363 | 0.313558 | 13.7061 | 0.80324 | 9.41773 |
A13 | 疾患A | -1.62045 | -1.42234 | 9.6228 | 1.59088 | 12.8865 |
A14 | 疾患A | -2.63115 | -0.479186 | 15.5633 | 1.32305 | 15.2177 |
A15 | 疾患A | -1.73282 | 0.0326406 | 10.068 | 0.0738665 | 7.3351 |
B01 | 疾患B | 0.178194 | -0.135954 | 1.75991 | 3.42337 | 0.928007 |
B02 | 疾患B | -1.12775 | 1.48104 | 11.8397 | 2.26515 | 3.32831 |
B03 | 疾患B | 0.634571 | -0.0589842 | 0.905788 | 5.40206 | 0.35052 |
B04 | 疾患B | -0.295431 | 1.19885 | 6.83635 | 2.642 | 1.08252 |
B05 | 疾患B | 0.921691 | 1.5879 | 5.73056 | 7.77616 | 1.56352 |
B06 | 疾患B | 1.67249 | -1.42926 | 1.33816 | 15.4831 | 3.72276 |
B07 | 疾患B | 0.0763177 | 2.06077 | 10.4117 | 5.82522 | 2.40048 |
B08 | 疾患B | 2.254224 | 1.06921 | 3.6405 | 18.3167 | 4.89404 |
B09 | 疾患B | 1.42417 | -0.462679 | 0.00497871 | 10.7273 | 1.08366 |
B10 | 疾患B | 1.53263 | 0.574295 | 1.29454 | 10.3599 | 0.845954 |
B11 | 疾患B | 0.784676 | 0.192983 | 1.03397 | 5.99174 | 0.0866029 |
B12 | 疾患B | -0.182211 | -0.180429 | 2.7217 | 2.17292 | 1.71363 |
マハラノビスの平方距離を計算するのはけっこう面倒なので、近似値として単純なユークリッド平方距離を用いて判別する時もあります。 ユークリッド平方距離とはユークリッド幾何学が成り立つ平らな空間における2点間の距離の平方であり、三平方の定理に基いて次のように計算します。 本来の距離はこの値の平方根ですが、群の判別には平方距離の方をよく用います。
例えば疾患A群のA07の症例について、正準スコアとユークリッド平方距離を計算すると次のようになります。 この結果と表18.3.1のA07のマハラノビスの平方距離を比較すると、大きく異なっているわけではないことがわかると思います。
表18.3.1の3種類のマハラノビスの平方距離のうち赤字の斜体で表したものが最小値であり、被検者をその群に判別することになります。 その判別結果を群別にまとめると表18.3.2のようになります。 多群の判別は2群の判別よりも難しく、3群をランダムに判別した時の理論的判別率は約33%です。 そのため全体の判別率が75.7%というのは比較的高い判別率といえます。
実際の群\判別結果 | 正常群(%) | 疾患A群(%) | 疾患B群(%) | 計 |
---|---|---|---|---|
正常群 | 7(70.0) | 0(0.0) | 3(30.0) | 10 |
疾患A群 | 0(0.0) | 13(86.7) | 2(13.3) | 15 |
疾患B群 | 3(25.0) | 1(8.3) | 8(66.7) | 12 |
全体 | 28(75.7) | 37 |
このデータの場合、マハラノビスの平方距離を用いてもユークリッド平方距離を用いても判別率は変わりません。 しかし正準関数は全体の正準スコアが独立になるという条件で求めたものであり、群ごとの正準スコアの関連性については考慮していません。 そのためマハラノビスの平方距離を用いた方が判別率が少し高くなる時もあれば、ユークリッド平方距離を用いた方が判別率が少し高くなる時もあります。 そのため現実のデータでは計算が簡単なユークリッド平方距離の方が実用的です。
次に表18.3.1の正準スコアをプロットすると、図18.3.1のようになります。 このグラフから正常群と疾患A群はかなり異なっていて、疾患B群はその中間的な特徴を持っていることがわかります。 事実、表18.3.2からわかるように、正常群を疾患A群と誤判別した症例はなく、逆に疾患A群を正常群と誤判別した症例もありません。 そして各群のプロットは少し傾いた楕円状に分布しているものの、全体としては傾きのない楕円状に分布していることから、z1とz2は群ごとには独立ではないものの、全体としては独立であることがわかると思います。
さらにA07の症例は3群の中で疾患A群の重心に最も近く、疾患A群の典型的な症例であることもわかります。 ちなみに、図18.3.1のA07のプロットから各群の重心まで引いた破線の長さを単純に平方した値がユークリッド平方距離になります。
正準軸の寄与率と図18.3.1から、3群の判別には第1正準スコアが大きく寄与していて、第2正準スコアの寄与は小さいことがわかります。 例えばA07の症例について、第1正準スコアだけで判別すると次のようになります。
そして全例を第1正準スコアだけで判別すると次のようになります。 この判別率は表18.3.2の結果よりも少し落ちますが、計算量を半分にした割にはそれほど悪くなっていません。
群の数が多くなると正準スコアの数が多くなり、計算量が多くなります。 そこで寄与の大きい少数の正準スコアだけを用いて判別を行うという簡便法が考えられます。 例えば合計寄与率が90%以上になる時の少数の正準スコアだけを用いて判別を行えば、判別率をそれほど落とすことなく簡便な判別を行うことができます。
ちなみに2群の判別分析つまり線形判別分析を前向き研究用にするとロジスティック回帰分析に対応し、判別関数とロジスティック関数が似たものになります。 それと同様に重判別分析を前向き研究用にすると多項ロジスティック回帰分析に対応し、正準関数の中のひとつ——たいていは第1正準関数——がロジスティック関数と似たものになります。 そのため、ひとつの正準スコアだけを用いた重判別分析を前向き研究用にすると多項ロジスティック回帰分析に対応します。
ただし疾患が発症する前に、疾患が発症するかどうかをリスクファクターから予測するための手法がロジスティック回帰分析であり、疾患が発症した後で、疾患であるかどうかを診断指標から診断するための手法が判別分析です。 したがって重判別分析と多項ロジスティック回帰分析も、この基本を踏まえた上でうまく使い分けることが大切です。 (→10.5 順序ロジスティック回帰分析)
この正準スコアの平均値と共分散行列の逆行列を利用して、任意の被検者のプロットと各群の重心とのマハラノビスの平方距離を求めることができます。
表18.1.1のA07のデータについて実際に計算してみましょう。