前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 |
正準相関分析では被験者ごとに正準変量の具体的な値である正準スコアを求め、それを用いて正順相関係数を求めます。 表19.1.1のデータについては、項目がより少ないグループBの項目数と同じ5個の正準変量を求めることができます。 そして個々の被験者についてグループAの臨床検査値A-1〜A-7の値から正準スコアu1〜u5を計算し、グループBの臨床検査値B-1〜B-5の値から正準スコアv1〜v5を計算することができます。
それら10種類の正準スコアを計算するには、A-1〜A-7またはB-1〜B-5の値にある係数を掛けて合計します。 その係数のことを正準変量係数(coefficient of canonical variate)といい、表19.1.1のデータについては表19.2.1と表19.2.2のようになります。 (注1)
項目 | 正準変量 | ||||
---|---|---|---|---|---|
u1 | u2 | u3 | u4 | u5 | |
切片 | -14.7062092 | 0.3535831 | -3.5341401 | -9.4335730 | 2.5806944 |
A-1 | 0.1313409 | -0.0620080 | -0.1378697 | 0.1637980 | -0.0681752 |
A-2 | 0.0385666 | 0.1014400 | 0.1302709 | -0.0804796 | 0.0117847 |
A-3 | 0.0375708 | -0.0134234 | -0.0296236 | 0.0085044 | 0.0240954 |
A-4 | 0.0114738 | 0.0027616 | 0.1057379 | 0.0286957 | -0.1704421 |
A-5 | 0.0153449 | -0.0502680 | 0.0500902 | -0.0320161 | 0.0208637 |
A-6 | 0.0153051 | -0.0293820 | -0.0731538 | -0.0798401 | -0.0309064 |
A-7 | 0.0017002 | 0.0294650 | -0.0210992 | 0.1269287 | 0.0648822 |
項目 | 正準変量 | ||||
---|---|---|---|---|---|
v1 | v2 | v3 | v4 | v5 | |
切片 | 6.6950593 | -39.6060509 | 5.0084590 | 9.2497642 | -11.7335824 |
B-1 | -1.2168351 | 2.3543756 | -1.0565656 | -1.8648514 | -0.4030322 |
B-2 | 0.0055074 | 0.0245464 | -0.0059729 | 0.0180891 | -0.0113023 |
B-3 | 0.1344411 | 0.0720914 | -0.1052602 | -0.1363322 | 0.3946559 |
B-4 | 0.0009976 | 0.0586413 | 0.2340068 | -0.2626705 | -0.0238963 |
B-5 | -0.0114158 | 0.0259766 | 0.0172341 | 0.0050825 | 0.0239891 |
正準相関分析を適用する場合、各項目の単位が同一とは限らないので各項目を標準化してから正準変量係数を求めます。 そのため正準変量係数は正準スコアの標準偏差が1になるように調整されています。 そして表19.2.1と表19.2.2の切片は正準スコアの平均値を0にするためのゲタです。 正準スコアは絶対値に意味があるのではなく、相対的な大きさに意味があります。 そのため全体の平均値を0に、標準偏差を1に標準化するわけです。
また正準変量u1〜u5とv1〜v5は添字が同じuとvだけ相関があり、その他のものは独立です。 つまり第1節の表19.1.4における正準変量1の正準相関係数0.851471はu1とv1の相関係数、正準変量2の正準相関係数0.72841はu2とv2の相関係数、正準変量3の正準相関係数0.610896はu3とv3の相関係数、正準変量4の正準相関係数0.393214はu4とv4の相関係数、正準変量5の正準相関係数0.324657はu5とv5の相関係数であり、これ以外の正準変量の組み合わせの相関係数は全て0です。 そのためこれら5種類の正準変量と正準相関係数を、それぞれ独立に検討することができます。
正準変量は主成分と同様の要約値ですから、それがどのような情報を要約したものか解釈する必要があります。 それには表19.2.1と表19.2.2の正準変量係数がある程度は参考になります。 しかし正準変量係数は各項目が「1」増加した時に、正準スコアがいくつ変化するかを表す値です。 そのため各項目の単位や変動範囲が違うと、直接比較することはできません。
そこで正準変量と各項目との相関係数を求め、正準変量係数の代わりにそれを参考にして正準変量が表している情報を解釈するのが普通です。 その相関係数のことを正準負荷量(canonical loading)といいます。 表19.1.1のデータについて正準負荷量を求めると表19.2.3と表19.2.4のようになります。
項目 | 正準変量 | 項目の寄与率 | ||||
---|---|---|---|---|---|---|
u1 | u2 | u3 | u4 | u5 | ||
A-1 | 0.676114 | -0.264149 | -0.110169 | 0.081208 | -0.143811 | 0.566318 |
A-2 | 0.650729 | 0.611994 | 0.272747 | -0.249034 | 0.168382 | 0.962746 |
A-3 | 0.747454 | 0.170360 | -0.267166 | 0.059407 | -0.037922 | 0.664055 |
A-4 | 0.238284 | 0.026678 | 0.355230 | 0.377776 | -0.698228 | 0.813916 |
A-5 | 0.167670 | -0.729804 | 0.531807 | 0.001046 | 0.340047 | 0.959180 |
A-6 | 0.376926 | 0.120429 | -0.128519 | -0.388773 | 0.025918 | 0.324910 |
A-7 | 0.106579 | 0.173532 | 0.366299 | 0.547915 | 0.440253 | 0.669681 |
正準変量の寄与率 | 0.239656 | 0.150182 | 0.102515 | 0.095173 | 0.121160 | 0.708686 |
項目 | 正準変量 | 項目の寄与率 | ||||
---|---|---|---|---|---|---|
v1 | v2 | v3 | v4 | v5 | ||
B-1 | -0.656159 | 0.269803 | -0.551319 | -0.422608 | -0.118794 | 1 |
B-2 | 0.776043 | 0.528493 | 0.051490 | 0.192344 | -0.280724 | 1 |
B-3 | 0.785737 | 0.156051 | -0.282211 | -0.255607 | 0.461831 | 1 |
B-4 | 0.624070 | 0.201352 | 0.574096 | -0.425687 | -0.243305 | 1 |
B-5 | -0.691260 | 0.187391 | 0.407534 | 0.362677 | 0.435230 | 1 |
正準変量の寄与率 | 0.503495 | 0.090422 | 0.176383 | 0.118735 | 0.110966 | 1 |
表19.2.3のu1の正準負荷量は全て正の値であり、A-3、A-1、A-2の絶対値が比較的大きくなっています。 そのためu1はA-1〜A-3を重視したグループA全体の平均値のようなもの、つまりレベルを表す要約値であると解釈できます。
一方、u2の正準負荷量はA-1とA-5だけが負の値で、その他の項目は正の値になっています。 これは(A-2+A-3+A-4+A-6+A-7) − (A-1+A-5)という項目間の差を表すものであり、グループAの臨床検査値に関するタイプまたはパターンを表す要約値であると解釈できます。 例えばグループAが肝機能に関する検査項目であり、A-1とA-5が慢性肝炎の時に上昇する検査項目であるのに対して、その他は急性肝炎の時に上昇する検査項目だとします。 するとu2が正の値なら急性肝炎であることを表し、負の値なら慢性肝炎であることを表すと解釈できます。
残りのu3〜u5の正準負荷量も正の値と負の値が混ざっているので、u2とは別のタイプまたはパターンを表す要約値と解釈できます。
なお表19.2.3の項目の寄与率は、u1〜u5の正準変量によって各項目の情報のどの程度の割合が要約されているかを表す値です。 そして正準変量の寄与率は、u1〜u5の各正準変量がA-1〜A-7の情報のどの程度の割合を要約しているかを表す値です。 グループAは7個の項目があるのに対して正準変量は5個だけなので、どの寄与率も1未満です。
表19.2.4ではv2の正準負荷量が全て正の値で、その他の正準負荷量は全て正の値と負の値が混ざっています。 したがってv2がグループB全体のレベルを表す要約値であり、それ以外はタイプまたはパターンを表す要約値と解釈できます。 例えばグループBが腎機能に関する検査項目であり、B-1とB-5が腎炎の時に上昇する検査項目であるのに対して、その他は腎不全の時に上昇する検査項目だとします。 するとv1が正の値なら腎不全であり、負の値なら腎炎であることを表すと解釈できます。
そして正準変量1の正準相関係数が0.851471ですから、このv1とグループAのu1の間に強い相関関係があることになります。 例えばu1が肝機能全体のレベルつまり肝機能障害の程度を表す要約値で、v1が腎機能のタイプを表す要約値——正なら腎不全、負なら腎炎——だとすると、肝機能障害の程度が重症なほど腎不全になる傾向が強いと解釈できます。
また正準変量2の正準相関係数が0.72841ですから、u2とv2の間にも強い相関関係があることになります。 例えばu2が肝炎のタイプを表す要約値——正なら急性肝炎、負なら慢性肝炎——で、v2が腎機能全体のレベルを表す要約値つまり腎機能障害の程度を表す要約値だとすると、急性肝炎では腎機能障害の程度が重症になると解釈できます。
ただしこの場合の「急性肝炎→腎機能障害」という解釈は、医学的知見に基づいて因果関係を想定したものです。 ところが正準相関分析は相関分析の一種ですから、2つのグループがお互いに影響を及ぼし合っているという前提で組み立てられています。 2つのグループの間に因果関係が想定される時は、本来は正準相関分析に対応する正準回帰分析いう手法を適用する必要がありますが、残念ながらそれはまだ開発されていません。 そのため因果関係が想定される時でも、現在のところはとりあえず正準相関分析を適用するのが普通です。
なおグループBは5個の項目に対して正準変量も5個なので、項目の寄与率が全て1になり、正準変量の寄与率を合計した値も1になります。
正準相関分析では交差負荷量(cross loading)という値も求めることができます。 この値は一方のグループの正準変量と他方のグループの各項目の相関係数です。 例えば表19.1.1のデータではグループAの正準変量u1〜u5とグループBの各項目B-1〜B-5の相関係数、およびグループBの正準変量v1〜v5とグループAの各項目A-1〜A-7の相関係数であり、それらは表19.2.5と表19.2.6のようになります。
項目 | 正準変量 | 項目の寄与率 | ||||
---|---|---|---|---|---|---|
u1 | u2 | u3 | u4 | u5 | ||
B-1 | -0.558700 | 0.196527 | -0.336799 | -0.166175 | -0.038567 | 0.493304 |
B-2 | 0.660778 | 0.384959 | 0.031455 | 0.075632 | -0.091139 | 0.599837 |
B-3 | 0.669032 | 0.113669 | -0.172401 | -0.100508 | 0.149937 | 0.522829 |
B-4 | 0.531378 | 0.146667 | 0.350713 | -0.167386 | -0.078991 | 0.461131 |
B-5 | -0.588588 | 0.136497 | 0.248961 | 0.142610 | 0.141300 | 0.467352 |
正準変量の寄与率 | 0.365035 | 0.047976 | 0.065825 | 0.018358 | 0.011696 | 0.508890 |
項目 | 正準変量 | 項目の寄与率 | ||||
---|---|---|---|---|---|---|
v1 | v2 | v3 | v4 | v5 | ||
A-1 | 0.575691 | -0.192408 | -0.067302 | 0.031932 | -0.046689 | 0.376170 |
A-2 | 0.554077 | 0.445782 | 0.166620 | -0.097924 | 0.054666 | 0.546062 |
A-3 | 0.636435 | 0.124092 | -0.163211 | 0.023360 | -0.012312 | 0.447784 |
A-4 | 0.202891 | 0.019433 | 0.217009 | 0.148547 | -0.226684 | 0.162087 |
A-5 | 0.142766 | -0.531597 | 0.324879 | 0.000411 | 0.110399 | 0.420712 |
A-6 | 0.320941 | 0.087722 | -0.078512 | -0.152871 | 0.008415 | 0.140303 |
A-7 | 0.090749 | 0.126402 | 0.223771 | 0.215448 | 0.142931 | 0.141133 |
正準変量の寄与率 | 0.173751 | 0.079684 | 0.038258 | 0.014715 | 0.012771 | 0.319179 |
交差負荷量は一方のグループの1つの正準変量と、他方のグループの各項目の偏相関係数のような値です。 そして2つのグループの正準変量同士の相関係数つまり正準相関係数が大きければ、各項目の交差負荷量は正準負荷量と似た値になります。 このデータの場合、5つの正準相関係数は高い値が多いので表19.2.5の値と表19.2.4の値は似ていて、表19.2.6の値と表19.2.3の値も似ています。 このような時は、一方のグループの正準スコアを他方のグルーブの各項目の値からある程度推測できることになります。
交差負荷量の場合、正準変量の寄与率のことを冗長性指数(redundancy index)または冗長性割合(redundancy proportion)と呼ぶことがあります。 冗長性とは重複度のことで、冗長性指数は2つのグループが共通で持っている情報量の大きさを表す指標になります。
ここでp次元の症例ベクトルxi.'をベクトルa上に正射影した合成変量をuiとし、q次元の症例ベクトルyi.'をベクトルb上に正射影した合成変量をviとします。 するとuiとviの相関係数は次のようになります。
この相関係数の平方つまり寄与率r2を最大にするuとvが正準変量になり、その時の相関係数が正準相関係数になります。 それはラグランジュの未定乗数法を用いて求めることができます。
この結果、非対称行列[Vxx-1VxyVyy-1Vyx]の固有値λが正準相関係数の寄与率r2になり、固有ベクトルをa'Vxxa = 1と規格化したものがuの正準変量係数ベクトルになります。 そしてvの正準変量係数ベクトルは次のようにして求めることができます。
一般に[Vxx-1VxyVyy-1Vyx]の次元はm = min(p,q)なので、λ1 ≧ … ≧ λm > 0という固有値と、それに対応する固有ベクトルが求められます。 そして第k番目の固有値λkと固有ベクトルakを用いて、第k正準相関係数と正準変量を次のようにして求めることができます。
正準負荷量と交差負荷量は次のようになります。
表19.1.1のデータについて実際に計算してみましょう。
これらの固有値の平方根が正準相関係数になります。 これらの固有値と固有ベクトル、そしてRyy-1とRyxから係数ベクトルbを求めます。
係数ベクトルとVxx、Vyy、mx、myから正準変量係数を求めます。