玄関雑学の部屋雑学コーナー統計学入門

19.2 正準変量

(1) 正準変量係数

正準相関分析では被験者ごとに正準変量の具体的な値である正準スコアを求め、それを用いて正順相関係数を求めます。 表19.1.1のデータについては、項目がより少ないグループBの項目数と同じ5個の正準変量を求めることができます。 そして個々の被験者についてグループAの臨床検査値A-1〜A-7の値から正準スコアu1〜u5を計算し、グループBの臨床検査値B-1〜B-5の値から正準スコアv1〜v5を計算することができます。

それら10種類の正準スコアを計算するには、A-1〜A-7またはB-1〜B-5の値にある係数を掛けて合計します。 その係数のことを正準変量係数(coefficient of canonical variate)といい、表19.1.1のデータについては表19.2.1と表19.2.2のようになります。 (注1)

表19.2.1 グループAの正準変量係数
項目正準変量
u1u2u3u4u5
切片-14.70620920.3535831-3.5341401-9.43357302.5806944
A-10.1313409-0.0620080-0.13786970.1637980-0.0681752
A-20.03856660.10144000.1302709-0.08047960.0117847
A-30.0375708-0.0134234-0.02962360.00850440.0240954
A-40.01147380.00276160.10573790.0286957-0.1704421
A-50.0153449-0.05026800.0500902-0.03201610.0208637
A-60.0153051-0.0293820-0.0731538-0.0798401-0.0309064
A-70.00170020.0294650-0.02109920.12692870.0648822
表19.2.2 グループBの正準変量係数
項目正準変量
v1v2v3v4v5
切片6.6950593-39.60605095.00845909.2497642-11.7335824
B-1-1.21683512.3543756-1.0565656-1.8648514-0.4030322
B-20.00550740.0245464-0.00597290.0180891-0.0113023
B-30.13444110.0720914-0.1052602-0.13633220.3946559
B-40.00099760.05864130.2340068-0.2626705-0.0238963
B-5-0.01141580.02597660.01723410.00508250.0239891
<正準スコアの例>
○No.1の被験者:A-1 = 46 A-2 = 55 A-3 = 126 A-4 = 51 A-5 = 75.0 A-6 = 25 A-7 = 72  B-1 = 6.8 B-2 = 489 B-3 = 27 B-4 = 8 B-5 = 360
u1 = -14.7062092 + 0.1313409×46 + 0.0385666×55 + 0.0375708×126 + 0.0114738×51 + 0.0153449×75 + 0.0153051×25 + 0.0017002×72 = 0.4316292
u2 = 0.3535831 - 0.0620080×46 + 0.1014400×55 - 0.0134234×126 + 0.0027616×51 - 0.0502680×75 - 0.0293820×25 + 0.0294650×72 = -0.8532617
u3 = -3.5341401 - 0.1378697×46 + 0.1302709×55 - 0.0296236×126 + 0.1057379×51 + 0.0500902×75 - 0.0731538×25 - 0.0210992×72 = -0.6424099
u4 = -9.4335730 + 0.1637980×46 - 0.0804796×55 + 0.0085044×126 + 0.0286957×51 - 0.0320161×75 - 0.0798401×25 + 0.1269287×72 = 0.9514485
u5 = 2.5806944 - 0.0681752×46 + 0.0117847×55 + 0.0240954×126 - 0.1704421×51 + 0.0208637×75 - 0.0309064×25 + 0.0648822×72 = -0.1000971
v1 = 6.6950593 - 1.2168351×6.8 + 0.0055074×489 + 0.1344411×27 + 0.0009976×8 - 0.0114158×360 = 0.6419017
v2 = -39.6060509 + 2.3543756×6.8 + 0.0245464×489 + 0.0720914×27 + 0.0586413×8 + 0.0259766×360 = 0.174067
v3 = 5.0084590 - 1.0565656×6.8 - 0.0059729×489 - 0.1052602×27 + 0.2340068×8 + 0.0172341×360 = 0.1373698
v4 = 9.2497642 - 1.8648514×6.8 + 0.0180891×489 - 0.1363322×27 - 0.2626705×8 + 0.0050825×360 = 1.461711
v5 = -11.7335824 - 0.4030322×6.8 - 0.0113023×489 + 0.3946559×27 - 0.0238963×8 + 0.0239891×360 = -0.9004112

正準相関分析を適用する場合、各項目の単位が同一とは限らないので各項目を標準化してから正準変量係数を求めます。 そのため正準変量係数は正準スコアの標準偏差が1になるように調整されています。 そして表19.2.1と表19.2.2の切片は正準スコアの平均値を0にするためのゲタです。 正準スコアは絶対値に意味があるのではなく、相対的な大きさに意味があります。 そのため全体の平均値を0に、標準偏差を1に標準化するわけです。

また正準変量u1〜u5とv1〜v5は添字が同じuとvだけ相関があり、その他のものは独立です。 つまり第1節の表19.1.4における正準変量1の正準相関係数0.851471はu1とv1の相関係数、正準変量2の正準相関係数0.72841はu2とv2の相関係数、正準変量3の正準相関係数0.610896はu3とv3の相関係数、正準変量4の正準相関係数0.393214はu4とv4の相関係数、正準変量5の正準相関係数0.324657はu5とv5の相関係数であり、これ以外の正準変量の組み合わせの相関係数は全て0です。 そのためこれら5種類の正準変量と正準相関係数を、それぞれ独立に検討することができます。

(2) 正準負荷量

正準変量は主成分と同様の要約値ですから、それがどのような情報を要約したものか解釈する必要があります。 それには表19.2.1と表19.2.2の正準変量係数がある程度は参考になります。 しかし正準変量係数は各項目が「1」増加した時に、正準スコアがいくつ変化するかを表す値です。 そのため各項目の単位や変動範囲が違うと、直接比較することはできません。

そこで正準変量と各項目との相関係数を求め、正準変量係数の代わりにそれを参考にして正準変量が表している情報を解釈するのが普通です。 その相関係数のことを正準負荷量(canonical loading)といいます。 表19.1.1のデータについて正準負荷量を求めると表19.2.3と表19.2.4のようになります。

表19.2.3 グループAの正準負荷量
項目正準変量項目の寄与率
u1u2u3u4u5
A-10.676114-0.264149-0.1101690.081208-0.1438110.566318
A-20.6507290.6119940.272747-0.2490340.1683820.962746
A-30.7474540.170360-0.2671660.059407-0.0379220.664055
A-40.2382840.0266780.3552300.377776-0.6982280.813916
A-50.167670-0.7298040.5318070.0010460.3400470.959180
A-60.3769260.120429-0.128519-0.3887730.0259180.324910
A-70.1065790.1735320.3662990.5479150.4402530.669681
正準変量の寄与率0.2396560.1501820.1025150.0951730.1211600.708686
表19.2.4 グループBの正準負荷量
項目正準変量項目の寄与率
v1v2v3v4v5
B-1-0.6561590.269803-0.551319-0.422608-0.1187941
B-20.7760430.5284930.0514900.192344-0.2807241
B-30.7857370.156051-0.282211-0.2556070.4618311
B-40.6240700.2013520.574096-0.425687-0.2433051
B-5-0.6912600.1873910.4075340.3626770.4352301
正準変量の寄与率0.5034950.0904220.1763830.1187350.1109661

表19.2.3のu1の正準負荷量は全て正の値であり、A-3、A-1、A-2の絶対値が比較的大きくなっています。 そのためu1はA-1〜A-3を重視したグループA全体の平均値のようなもの、つまりレベルを表す要約値であると解釈できます。

一方、u2の正準負荷量はA-1とA-5だけが負の値で、その他の項目は正の値になっています。 これは(A-2+A-3+A-4+A-6+A-7) − (A-1+A-5)という項目間の差を表すものであり、グループAの臨床検査値に関するタイプまたはパターンを表す要約値であると解釈できます。 例えばグループAが肝機能に関する検査項目であり、A-1とA-5が慢性肝炎の時に上昇する検査項目であるのに対して、その他は急性肝炎の時に上昇する検査項目だとします。 するとu2が正の値なら急性肝炎であることを表し、負の値なら慢性肝炎であることを表すと解釈できます。

残りのu3〜u5の正準負荷量も正の値と負の値が混ざっているので、u2とは別のタイプまたはパターンを表す要約値と解釈できます。

なお表19.2.3の項目の寄与率は、u1〜u5の正準変量によって各項目の情報のどの程度の割合が要約されているかを表す値です。 そして正準変量の寄与率は、u1〜u5の各正準変量がA-1〜A-7の情報のどの程度の割合を要約しているかを表す値です。 グループAは7個の項目があるのに対して正準変量は5個だけなので、どの寄与率も1未満です。

表19.2.4ではv2の正準負荷量が全て正の値で、その他の正準負荷量は全て正の値と負の値が混ざっています。 したがってv2がグループB全体のレベルを表す要約値であり、それ以外はタイプまたはパターンを表す要約値と解釈できます。 例えばグループBが腎機能に関する検査項目であり、B-1とB-5が腎炎の時に上昇する検査項目であるのに対して、その他は腎不全の時に上昇する検査項目だとします。 するとv1が正の値なら腎不全であり、負の値なら腎炎であることを表すと解釈できます。

そして正準変量1の正準相関係数が0.851471ですから、このv1とグループAのu1の間に強い相関関係があることになります。 例えばu1が肝機能全体のレベルつまり肝機能障害の程度を表す要約値で、v1が腎機能のタイプを表す要約値——正なら腎不全、負なら腎炎——だとすると、肝機能障害の程度が重症なほど腎不全になる傾向が強いと解釈できます。

また正準変量2の正準相関係数が0.72841ですから、u2とv2の間にも強い相関関係があることになります。 例えばu2が肝炎のタイプを表す要約値——正なら急性肝炎、負なら慢性肝炎——で、v2が腎機能全体のレベルを表す要約値つまり腎機能障害の程度を表す要約値だとすると、急性肝炎では腎機能障害の程度が重症になると解釈できます。

ただしこの場合の「急性肝炎→腎機能障害」という解釈は、医学的知見に基づいて因果関係を想定したものです。 ところが正準相関分析は相関分析の一種ですから、2つのグループがお互いに影響を及ぼし合っているという前提で組み立てられています。 2つのグループの間に因果関係が想定される時は、本来は正準相関分析に対応する正準回帰分析いう手法を適用する必要がありますが、残念ながらそれはまだ開発されていません。 そのため因果関係が想定される時でも、現在のところはとりあえず正準相関分析を適用するのが普通です。

なおグループBは5個の項目に対して正準変量も5個なので、項目の寄与率が全て1になり、正準変量の寄与率を合計した値も1になります。

(3) 交差負荷量

正準相関分析では交差負荷量(cross loading)という値も求めることができます。 この値は一方のグループの正準変量と他方のグループの各項目の相関係数です。 例えば表19.1.1のデータではグループAの正準変量u1〜u5とグループBの各項目B-1〜B-5の相関係数、およびグループBの正準変量v1〜v5とグループAの各項目A-1〜A-7の相関係数であり、それらは表19.2.5と表19.2.6のようになります。

表19.2.5 グループAの正準変量の交差負荷量
項目正準変量項目の寄与率
u1u2u3u4u5
B-1-0.5587000.196527-0.336799-0.166175-0.0385670.493304
B-20.6607780.3849590.0314550.075632-0.0911390.599837
B-30.6690320.113669-0.172401-0.1005080.1499370.522829
B-40.5313780.1466670.350713-0.167386-0.0789910.461131
B-5-0.5885880.1364970.2489610.1426100.1413000.467352
正準変量の寄与率0.3650350.0479760.0658250.0183580.0116960.508890
表19.2.6 グループBの正準変量の交差負荷量
項目正準変量項目の寄与率
v1v2v3v4v5
A-10.575691-0.192408-0.0673020.031932-0.0466890.376170
A-20.5540770.4457820.166620-0.0979240.0546660.546062
A-30.6364350.124092-0.1632110.023360-0.0123120.447784
A-40.2028910.0194330.2170090.148547-0.2266840.162087
A-50.142766-0.5315970.3248790.0004110.1103990.420712
A-60.3209410.087722-0.078512-0.1528710.0084150.140303
A-70.0907490.1264020.2237710.2154480.1429310.141133
正準変量の寄与率0.1737510.0796840.0382580.0147150.0127710.319179

交差負荷量は一方のグループの1つの正準変量と、他方のグループの各項目の偏相関係数のような値です。 そして2つのグループの正準変量同士の相関係数つまり正準相関係数が大きければ、各項目の交差負荷量は正準負荷量と似た値になります。 このデータの場合、5つの正準相関係数は高い値が多いので表19.2.5の値と表19.2.4の値は似ていて、表19.2.6の値と表19.2.3の値も似ています。 このような時は、一方のグループの正準スコアを他方のグルーブの各項目の値からある程度推測できることになります。

交差負荷量の場合、正準変量の寄与率のことを冗長性指数(redundancy index)または冗長性割合(redundancy proportion)と呼ぶことがあります。 冗長性とは重複度のことで、冗長性指数は2つのグループが共通で持っている情報量の大きさを表す指標になります。


(注1) n例の被験者についてp種類の検査項目グループとq種類の検査項目グループが測定されていて、それらのデータ行列をします。 ただしこれらのグループの間に相関関係を想定するので、が説明変数群でが目的変数群というわけではなく、この区分は便宜的なものであり両者は同等です。 このデータ行列について単純積和行列、積和行列、(分散)共分散行列を求めると次のようになります。

データ行列: (n ≧ p + q)
平均値ベクトル:   
単純積和行列:
積和行列:
xx = ' - nxx'   xy = ' - nxy' = yx'   yy = ' - nyy'
(分散)共分散行列:

ここでp次元の症例ベクトルi.'をベクトル上に正射影した合成変量をuiとし、q次元の症例ベクトルi.'をベクトル上に正射影した合成変量をviとします。 するとuiとviの相関係数は次のようになります。

  

この相関係数の平方つまり寄与率r2を最大にするが正準変量になり、その時の相関係数が正準相関係数になります。 それはラグランジュの未定乗数法を用いて求めることができます。

ラグランジュの未定乗数法の束縛条件: 'xx = 'yy = 1
この条件下での寄与率:
h(,,λ,θ) = ('xy)2 - λ('xx - 1) - θ('yy - 1) → 最大化
(1)
(2)
と置いた連立方程式を解く。
(1)より ('xy)xy = λxx ← この式の両辺に'を前掛けすると ('xy)('xy) = λ('xx)
(2)より ('xy)yx = θyy ← この式の両辺に'を前掛けすると ('xy)('yx) = θ('yy)
∴('xy)2 = λ('xx) = θ('yy) → 束縛条件より λ = θ
ここで ' = xx-1' = yy-1 より
(1) [xyyy-1yx - λxx] = pp より |xx-1xyyy-1yx - λp| = 0
(2) [yxxx-1xy - λyy] = qq より |yy-1yxxx-1xy - λq| = 0
となり、この固有方程式を解くことに帰着する。

この結果、非対称行列[xx-1xyyy-1yx]の固有値λが正準相関係数の寄与率r2になり、固有ベクトルを'xx = 1と規格化したものがの正準変量係数ベクトルになります。 そしての正準変量係数ベクトルは次のようにして求めることができます。

('xy)2=λ('yy)=λ →

一般に[xx-1xyyy-1yx]の次元はm = min(p,q)なので、λ1 ≧ … ≧ λm > 0という固有値と、それに対応する固有ベクトルが求められます。 そして第k番目の固有値λkと固有ベクトルkを用いて、第k正準相関係数と正準変量を次のようにして求めることができます。

     

正準負荷量と交差負荷量は次のようになります。

kの正準負荷量:
kの正準負荷量:
ただし   
kに対する寄与率:
kに対する寄与率:
(1、…、m)の.jに対する寄与率:
(1、…、m)の.jに対する寄与率:
kの交差負荷量:
kの交差負荷量:
kに対する寄与率(冗長性指数):
kに対する寄与率(冗長性指数):
(1、…、m)の.jに対する寄与率:
(1、…、m)の.jに対する寄与率:

表19.1.1のデータについて実際に計算してみましょう。


正準変量係数の計算を簡単にするために、実際の計算では共分散行列の代わりに相関行列から計算を始める
相関行列:

第1固有値:λ1 = 0.725002   第1固有ベクトル:
第2固有値:λ2 = 0.530581   第2固有ベクトル:
第3固有値:λ3 = 0.373194   第3固有ベクトル:
第4固有値:λ4 = 0.154617   第4固有ベクトル:
第5固有値:λ5 = 0.105402   第5固有ベクトル:

これらの固有値の平方根が正準相関係数になります。 これらの固有値と固有ベクトル、そしてyy-1yxから係数ベクトルを求めます。

           
の正準負荷量行例:
正準変量負荷量行例:


R2x1u = {0.6761142 + (-0.264149)2 + (-0.110169)2 + 0.0812082 + (-0.143811)2} ≒ 0.566318
R2y1v = {(-0.656159)2 + 0.2698032 + (-0.551319)2 + (-0.422608)2 + (-0.118794)2} = 1
※以下の寄与率については計算を省略
の交差負荷量行例:
交差量負荷量行例:
※以下の交差負荷量と交差負荷量の寄与率については計算を省略

係数ベクトルとxxyyxyから正準変量係数を求めます。

の正準変量係数行例:
の正準変量係数行例: