玄関雑学の部屋雑学コーナー統計学入門

19.3 正準相関分析と他の手法との関係

(1) 正準相関係数の検定

正準相関分析は記述統計学的な手法なので、推測統計学的手法である検定とは相性が良くありません。 しかし何が何でも検定をしないと気が済まない有意症患者のために、正準相関係数の近似的な検定手法が考案されています。 それには個々の母正準相関係数が0かどうかを検定する手法と、全ての母正準相関係数が0かどうかを一括して検定する手法の2種類があります。 表19.1.1のデータにそれらの検定を適用すると次のようになります。 (注1)

○第1正準相関係数の検定:r1 = 0.851471
zo = 10.0091(p = 1.44329×10-15) > t(∞,0.05) = 1.96 … 有意確率5%で有意
○第2正準相関係数の検定:r2 = 0.72841
zo = 6.5537(p = 5.61272×10-11) > t(∞,0.05) = 1.96 … 有意確率5%で有意
○第3正準相関係数の検定:r3 = 0.610896
zo = 4.75656(p = 1.9692×10-6) > t(∞,0.05) = 1.96 … 有意確率5%で有意
○第4正準相関係数の検定:r4 = 0.393214
zo = 2.63629(p = 0.00838171) > t(∞,0.05) = 1.96 … 有意確率5%で有意
○第5正準相関係数の検定:r5 = 0.324657
zo = 2.11593(p = 0.0343504) > t(∞,0.05) = 1.96 … 有意確率5%で有意
○全ての正準相関係数の検定
χo2 = 85.2084(p = 4.50773×10-6) > χ2(35,0.05) = 49.8018 … 有意確率5%で有意

これらの検定結果から、5つの母正準相関係数は0ではないといえます。 正準相関分析を適用するためには多数例のデータが必要ですから、このデータのように検定結果はたいてい有意になります。 しかしこれらは単なる有意性検定のため意味はあまり無く、正準相関係数の値そのものと、それらが表している意味を解釈する方が大切です。

(2) 正準相関分析と重相関分析の関係

正準相関分析は重相関分析を拡張した手法であり、一方の項目グループが1つの時は重相関分析に相当します。 そこで第7章の表6.1.1のデータに正準相関分析を適用してみましょう。 重回帰分析に合わせて、便宜的に表6.1.1のTCをx1、TGをx2、重症度をyで表します。

表6.1.1 脂質異常症患者のTCとTG
患者No.x1:TCx2:TGy:重症度
12201100
22301501
32401502
42402501
52502003
62601503
72602502
82602901
92702504
102802904
第1正準相関係数:r1 = 0.902054   寄与率(固有値)r12 = 0.813702
全ての正準相関係数の検定:χo2 = 11.7629(p = 0.0027908) > χ2(2,0.05) = 5.991 … 有意確率5%で有意
正準スコア:u1 = -16.6664043 + 0.0741219x1 - 0.0092737x2   v1 = -1.5324884 + 0.7297564y
u1とv1の平均値 = 0  標準偏差 = 1
正準負荷量:u1とx1 = 0.916867   u1とx2 = 0.427475  v1とy = 1
交差負荷量:v1とx1 = 0.827064   v1とx2 = 0.385605  u1とy = 0.902054

これに対して重回帰分析と重相関分析の結果は次のとおりでした。 (→7.2 重回帰分析結果の解釈)

重相関係数:R = 0.902054  寄与率:R2 = 0.813702
重相関係数の検定(回帰式の検定):Fo = 15.2871(p = 0.0027908) > F(2,7,0.05) = 4.737 … 有意確率5%で有意
重回帰式: = -18.5014 + 0.0916224x1 - 0.0114632x2
yの平均値 = 2.1 標準偏差 = 1.37032   の平均値 = 2.1 標準偏差 = 1.2361
偏相関係数:x1 = 0.883834  x2 = -0.640612

これらの結果を比べると第1正準相関係数と重相関係数およびそれらの寄与率が一致し、全ての正準相関係数の検定と重相関係数の検定がほぼ一致していることがわかります。 そして正準スコアu1の正準変量係数と重回帰式の偏回帰係数はよく似ていて、両者の間には一定の比例関係があることがわかります。

重回帰分析ではyの推測値を重回帰式から求めます。 そのための単位は元のyと同じで、の平均値はyの平均値と一致し、標準偏差はyの標準偏差よりも推測誤差分だけ小さくなります。 例えば表6.1.1のデータの場合、yもも平均値は2.1で、標準偏差はyが1.37032であるのに対しては1.2361です。 それに対して正準スコアは平均値が0で標準偏差が1になるように標準化されています。 そのため正準変量係数を1.2361(の標準偏差)倍すると、偏回帰係数に一致します。 そして正準スコアの切片-16.6664043を1.2361倍して2.1を足すと、重回帰式の切片-18.5014に一致します。

重相関分析または重回帰分析において、説明変数が1つだけの時は単相関分析と単回帰分析になります。 そのため正準相関分析も2つの項目グループがどちらも1つだけの時は単相関分析または単回帰分析に相当します。 これらのことから正準相関分析は相関分析と回帰分析の最も一番的な手法であることがわかると思います。

(3) 正準相関分析と重判別分析の関係

次に正準相関分析と重判別分析の関係について検討しましょう。 重判別分析は正準分析とも呼ばれることからわかるように、正準相関分析の親切筋に当たる手法です。 第18章の表18.1.1のデータに正準相関分析を適用してみましょう。 便宜的に表18.1.1の3群をy1とy2というダミー変数で表し、検査項目1〜5をx1〜x5で表します。

表18.1.1 3群の検査項目
IDy1
疾患A
y2
疾患B
x1
検査項目1
x2
検査項目2
x3
検査項目3
x4
検査項目4
x5
検査項目5
N010002243
N020003355
N030014332
N040024542
N050005433
N060016336
N070006566
N080026644
N090007574
N100008625
A011001365
A021011444
A031002313
A041002575
A051023458
A061003531
A071023623
A081004423
A091004546
A101014632
A111005564
A121005647
A131015731
A141006736
A151007855
B010102234
B020112467
B030103343
B040103465
B050104476
B060124432
B070104586
B080105367
B090105443
B100106565
B110117658
B120107754
○第1正準相関係数:r1 = 0.806518   寄与率(固有値)r12 = 0.650471
正準スコア:u1 = 0.245301 + 0.4457492x1 + 0.6317475x2 - 0.7831417x3 + 0.2688593x4 - 0.1601715x5
v1 = 1.1247174 - 2.2849432y1 - 0.6116995y2
u1とv1の平均値 = 0  標準偏差 = 1
○第2正準相関係数:r2 = 0.355863   寄与率(固有値)r22 = 0.126639
正準スコア:u2 = -1.7069406 - 0.2776875x1 - 0.2123835x2 + 0.036561x3 + 0.4181719x4 + 0.1683331x5
v2 = -1.1670638 + 0.8826293y1 + 2.4951601y2
u2とv2の平均値 = 0  標準偏差 = 1
全ての正準相関係数の検定:χo2 = 37.9704(p = 0.00004) > χ2(10,0.05) = 18.307 … 有意確率5%で有意

これに対して重判別分析の結果は次のとおりでした。 (→18.2 重判別分析)

○第1正準軸
固有値:λ1 = 1.861
正準関数:z1 = 0.4032238 + 0.7327189x1 + 1.0384614x2 - 1.2873219x3 + 0.4419487x4 - 0.2632886x5
z1の平均値 = 0  標準偏差 = 1.64379
○第2正準軸
固有値:λ1 = 0.145002
正準関数:z2 = -1.7750462 - 0.288767x1 - 0.2208574x2 + 0.0380198x3 + 0.4348566x4 + 0.1750495x5
z2の平均値 = 0  標準偏差 = 1.0399
○ウィルキスのΛ = 0.305265  相関比:η = 0.83351
Fo = 4.85958(p = 0.00004) > F(10,60,0.05) = 1.99259 … 有意確率5%で有意

正準相関分析の寄与率つまり固有値r2と重判別分析の固有値λの間には、理論的に次のような関係があります。 (注2)

λ = r 2 1 - r 2
第1正準相関係数と第1正準軸: 0.650471 1 - 0.650471 ≒ 1.861 = λ 1
第2正準相関係数と第2正準軸: 0.126639 1 - 0.126639 ≒ 0.145002 = λ 2

重判別分析の正準スコアは全体の平均値が0であり、群ごとの標準偏差はほぼ1です。 しかし全体の標準偏差は群ごとの平均値がばらついている分だけ大きくなるので、普通は1よりも大きくなります。 例えば表18.1.1の場合、第1正準スコアの全体の標準偏差は1.64379になり、第2正準スコアの全体の標準偏差は1.0399になります。

それに対して正準スコアは、平均値が0で標準偏差が1になるように標準化されています。 そのため第1正準変量係数を1.64379倍すると重判別分析の第1正準係数に一致し、第2正準変量係数を1.0399倍すると重判別分析の第2正準係数に一致します。 そして平均値はどちらも0なので、切片についても同じ値を掛けるだけで両者が一致します。 また全ての正準相関係数の検定結果とウィルキスのΛによる検定結果がほぼ一致していて、全ての正準相関係数の検定は多変量分散分析に相当することがわかります。

群が2つの時の重判別分析は普通の線形判別分析に相当します。 そのため正準相関分析も一方の項目グループが1つのダミー変数だけの時は線形判別分析に相当します。 また多変量分散分析は変数が1つだけの時は一元配置分散分析に相当します。 そのため正準相関分析も一方の項目グループが1つの項目だけの時は一元配置分散分析に相当し、さらにもう一方の項目グループが1つのダミー変数だけの時は2つの平均値の差の検定つまり2標本t検定に相当します。 これらのことから正準相関分析は非常に汎用的な手法であることがわかると思います。


(注1) 正準相関係数の検定は次のようにして行います。

○第k正準相関係数の検定
検定の帰無仮説 H0:ρk = 0 (ρk:第k母正準相関係数)
漸近的に:
の時、有意水準100α%で有意
○全ての正準相関係数の検定…バートレット(Bartlett)の方法
検定の帰無仮説 H0:ρ1 = ρ1 = … = ρk = … = ρm = 0
ウィルキスのΛ:
の時、有意水準100α%で有意

表19.1.1のデータについて実際に計算してみましょう。

○第1正準相関係数の検定
> t(∞,0.05) = 1.96
 (第2正準相関係数以下は省略)
○全ての正準相関係数の検定
Λ5 = (1 - 0.725002)×(1 - 0.530581)×(1 - 0.373194)×(1 - 0.154617)×(1 - 0.105402) = 0.06119343
> χ2(35,0.05) = 49.8018

(注2) 正準相関係数をベクトル空間上で模式的に表すと図19.3.1のようになります。

図19.3.1 正準相関係数の幾何学的解釈

データベクトル.1、…、.pはn次元ベクトル空間Vnの内部にp次元部分空間Wx(超平面α)を張り、データベクトル.1、…、.qはq次元部分空間Wy(超平面β)を張ります。 そして第k正準変量kは超平面α上で.1、…、.pの1次結合した合成ベクトルであり、kは超平面β上で.1、…、.qを一次結合した合成ベクトルです。 この時、kkはこれらのベクトルのなす角θが最小になるように合成されたもので、このθの余弦であるcosθが第k正準相関係数rkになります。

k = k   k = k

図19.3.1でデータベクトルが1つだけの時は第7章の図7.1.2と原理的に同じものになり、重回帰モデルになります。 またデータ行列が多群を分類するためのダミーデータの場合は次のようになります。

単純積和行列:' =   ' = [nkxk]   ' =
:データの合計行列   nk:k群の例数   xk:k群のデータの平均値ベクトル   :x対角成分がnkである対角行列
['][']-1['] =    = +
[ - λ] = [(1 - λ) - λ] = より |(1 - λ) - λ| = 0 →

この固有方程式はλ/(1 - λ)を固有値にした重判別分析の固有方程式に相当します。 そのため、この場合の正準相関分析は重判別分析に相当します。 さらにデータ行列がない時、正準変量はデータ行列の主成分になります。 そのため、この場合の正準相関分析は主成分分析に相当します。 (→18.2 重判別分析 (注1)16.1 主成分と主成分分析 (注1))