玄関雑学の部屋雑学コーナー統計学入門

第19章 正準相関分析

この章では正準相関分析の原理と結果の解釈方法、そして他の手法との関係について解説します。

19.1 正準相関

(1) 複数の項目間の相関関係

一般に、医学分野では人体の生理的な機能を複数の臨床検査値によって総合的に評価します。 例えば腎機能を尿素窒素(BUN)、クレアチニンなどによって総合的に評価したり、肝機能をAST(GOT)、ALT(GPT)、γ-GTPなどによって総合的に評価したりします。 そしてそういった2種類の機能がお互いに影響を及ぼし合っているかどうかを検討するために、それらの間の相関関係を評価したい時があります。

その場合、最も単純な方法は2種類の臨床検査値グループについて総当りで相関係数を求め、それらを総合的に評価する方法です。 この方法では、例えば前述の腎機能に関する2個の臨床検査値と肝機能に関する3個の臨床検査値について、図19.1.1(1)のように全部で3×2 = 6種類の単相関係数が求められます。 そして同じグループの臨床検査値間には相関関係があることを考慮した上で、これら6種類の単相関係数を検討し、腎機能と肝機能の相関関係を総合的に評価する必要があります。 正直いって、これはかなり面倒で難しい作業です。

図19.1.1 正準相関例数の概念

そこで第7章で説明した重相関係数を利用する方法が考えられます。 重相関係数は、ひとつの項目と複数の項目の間の相関性を表す指標です。 そのため2種類の臨床検査値グループのうち数が少ない方の臨床検査値のひとつひとつについて、もう一方の臨床検査値グループとの重相関係数を求めることによって評価すべき相関係数の数を減らすことができます。 (→7.2 重回帰分析結果の解釈)

例えば前述の腎機能と肝機能では、図19.1.1(2)のように腎機能のBUNとクレアチニンのそれぞれについて、肝機能の3個の臨床検査値との重相関係数を求めます。 そしてこれら2種類の重相関係数を検討する時は、腎機能の2個の臨床検査値間の相関関係だけを考慮して、肝機能と腎機能の相関関係を総合的に評価すれば良いことになります。 しかしこの方法でも、腎機能の臨床検査値同士の相関関係は山カンで評価することになります。 これでは何となく中途半端です。

そこで腎機能の臨床検査同士の相関関係も考慮した上で、図19.1.1(3)のように腎機能の臨床検査値グループと肝機能の臨床検査値グループの相関関係を1つの相関係数で要約できると便利です。 そのようなグループ間の相関のことを正準相関(canonical correlation)といい、正準相関の程度を表す指標のことを正準相関係数(canonical correlation coefficient)といいます。 そして正準相関係数を求める手法のことを正準相関分析(CCA:Canonical Correlation Analysys)といいます。 これは重相関係数と重相関分析を拡張した手法に相当します。

心理学分野では人間の外向性や社会性といった心理的因子を複数のアンケート項目によって評価し、それらの心理的因子がお互いにどのように関連しているかを検討することがあります。 また社会学分野でも社会の開放性や平等性といった社会的因子を色々な指標によって評価し、それらの社会的因子がお互いにどのように関連しているかを検討することがあります。

医学分野では複数の臨床検査値を総合せず、個別に検討する方が多いと思います。 しかし心理学分野や社会学分野では、複数の指標を総合して検討する方が多いと思います。 その意味で正準相関分析は医学分野よりも心理学分野や社会学分野に向いた手法といえるでしょう。

(2) 正準相関の実例

ある集団を対象にして、生理的機能Aを調べるための臨床検査を7種類、生理的機能Bを調べるための臨床検査値を5種類測定した結果が表19.1.1のようになったとします。 この仮想的なデータについて単相関係数、重相関係数、正準相関係数を求めてみましょう。

表19.1.1 2つの臨床検査グループ
No.臨床検査グループA臨床検査グループB
A-1A-2A-3A-4A-5A-6A-7 B-1B-2B-3B-4B-5
14655126 5175.02572 6.8489278360
2525595 4281.21850 7.2464305348
34669107 3898.01874 6.8430329386
44950105 4897.61660 6.8362266331
5425590 4666.5268 7.24532311391
64861106 4378.02558 7.0405297389
74960100 4990.61560 7.04202110379
84863122 5256.11768 7.1466282362
94555105 4876.01561 6.8415246386
104864120 3860.22062 7.1413287398
114952100 4253.4642 7.4404236400
124762100 3461.21062 7.2427257407
134151101 5362.4560 8.0372253409
145255125 4386.3562 6.84963010350
15455294 5051.42065 7.6394243399
164957110 4772.31945 7.04463011337
175365112 4790.41575 6.64463012357
18475795 4772.3964 6.6420254447
194860120 4786.41262 6.84472811381
204955113 4184.11560 7.0398274387
214869128 4247.92063 7.1485307350
224257122 4654.21563 7.2400286388
235464155 5171.41961 6.95113312298
245363120 4256.6853 7.5430294353
254271138 4465.21755 7.0487299370
264666120 4562.22268 7.4470287360
27455691 2966.21851 7.9380265358
285060120 4256.6857 6.8460325348
294251126 5050.01357 7.7398272383
304850115 4152.9639 7.4415286314
314252140 4856.31560 6.94702711348
324867105 3969.22360 7.64502810326
334974151 4954.22058 7.05003012330
344755113 4071.41964 7.6410297331
354974120 5354.52259 6.95003321348
364452110 3754.91457 7.5400292421
375266130 4745.91445 6.85052811355
384868100 4553.62370 7.2522289352

1) 単相関係数の場合

この場合は表19.1.2のように(7 + 5)×(7 + 5 - 1)/2 = 66個の単相関係数が求められます。 そしてこれらの単相関係数を総合的に考察して、2つの臨床検査グループの間の相関関係を検討することになります。 現実問題として、これはほとんど不可能でしょう。

表19.1.2 臨床検査ごとの単相関係数
 A-1A-2A-3A-4A-5A-6A-7 B-1B-2B-3B-4B-5
A-110.3010.164-0.0290.2460.072-0.166 -0.4010.3610.4120.280-0.470
A-20.30110.3870.009-0.1010.4560.251 -0.3000.6400.5080.560-0.243
A-30.1640.38710.319-0.2430.193-0.018 -0.3030.5590.5540.322-0.480
A-4-0.0290.0090.3191-0.0370.0520.204 -0.2830.271-0.0410.247-0.093
A-50.246-0.101-0.243-0.03710.0520.323 -0.430-0.184-0.0120.142-0.018
A-60.0720.4560.1930.0520.05210.281 -0.0800.2600.3310.236-0.289
A-7-0.1660.251-0.0180.2040.3230.2811 -0.2570.1500.0390.0840.192
B-1-0.401-0.300-0.303-0.283-0.430-0.080-0.257 1-0.443-0.265-0.4630.074
B-20.3610.6400.5590.2710.1840.2600.150 -0.44310.4990.607-0.469
B-30.4120.5080.554-0.041-0.0120.3310.039 -0.2650.49910.356-0.521
B-40.2800.5600.3220.2470.1420.2360.084 -0.4630.6070.3561-0.420
B-5-0.470-0.243-0.480-0.093-0.018-0.2890.192 0.074-0.469-0.521-0.4201

2) 重相関係数の場合

この場合は表19.1.3のように重相関係数が5個と偏相関係数が5×7 = 35個求められます。 そして重相関係数の値から、グループAとグループBはお互いに相関が高く、中でもB-2とグループAの相関が最も高いことがわかります。 そしてB-2はA-2、A-3、A-1との相関が高く、A-6との相関は低いこともわかります。 B-2とグループAの偏相関係数は表19.1.2の単相関係数と似ているものの、偏相関係数は他の項目の影響を補正した値なので、より厳密な値になっています。

表19.1.3 臨床検査ごとの重相関係数と偏相関係数
 重相関係数偏相関係数
A-1A-2A-3A-4A-5A-6A-7
B-10.702356-0.240821-0.227078-0.280453-0.260044-0.4530610.177214-0.104178
B-20.7744910.3203570.4437970.3328930.221055-0.21672-0.05488520.154852
B-30.7230690.2983630.1794880.509749-0.2611590.03843770.1690750.0471639
B-40.679066-0.03655560.5448830.07558640.3251960.332769-0.0424438-0.24156
B-50.683631-0.3745570.0956927-0.429634-0.000284684-0.0808348-0.3160260.214496

表19.1.3の結果は表19.1.2の結果よりも解釈が簡単です。 しかしこの結果を総合的に解釈するには、グループBの項目同士の相関関係も考慮する必要があります。 これはやはり少々難しいことです。

3) 正準相関係数の場合

正準相関分析は、まずグループごとに主成分のような要約値である正準変量(canonical variate)を主成分分析と似た方法で求めます。 次に正準変量についてグループ間で相関係数を求め、それが正準相関係数になります。 原則として、正準変量は項目数の少ない方のグループの項目数と同じ数だけ求めることができます。 そして各正準変量がどの程度の情報を要約しているかを表す寄与率を求めることができます。 またグループ内の正準変量はお互いに独立なので、個々の正準相関係数を独立に検討することができます。

表19.1.4 臨床検査グループ同士の正準相関係数
A 対 B正準変量1正準変量2正準変量3正準変量4正準変量5
正準相関係数0.8514710.728410.6108960.3932140.324657
寄与率(固有値)0.7250020.5305810.3731940.1546170.105402

表19.1.4では5個全ての正準変量が抽出されていて、それぞれ正準相関係数と寄与率が求められています。 この場合の寄与率は正準相関係数を平方した値であり、主成分分析の固有値に相当します。 これらの正準変量を全て検討せず、寄与率の大きい正準変量についてだけ検討してもかまいません。 例えば寄与率が50%以上の正準変量についてだけ検討するなら、正準変量1と2だけを独立に検討すれば良いことになります。 そしてこれらの正準相関係数の値から、グループAとグループBは相関が高いと容易に解釈することができます。 (→16.1 主成分と主成分分析)

ただしこれらの正準変量がどのような情報を要約したものであるかについては、主成分分析と同様に正準変量と元の項目の関係に注目して検討する必要があります。 それについては次節で説明します。