前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 |
医学・薬学分野で扱うデータは年齢、身長、体重などのように値の単位が異なるのが普通です。 その場合、主成分の解釈が非常に難しくなります。 例えば主成分スコアが「z = 10 + 5×年齢 + 0.1×身長 + 3×体重」という式で表されるとしたら、この主成分を医学的に解釈するのは困難です。 そこでこのような時は各項目を標準化——平均値を引いて標準偏差で割る——し、単位とは無関係な値にしてから主成分分析を適用するという方法が考えられます。 表16.1.1のデータにその方法で主成分分析を適用すると次のような結果になります。 (注1)
生徒ID | 第1主成分スコア | 第2主成分スコア |
---|---|---|
1 | 1.50852 | 0.0286941 |
2 | 0.323946 | 2.04642 |
3 | -0.857434 | -0.659203 |
4 | -1.86021 | 0.284279 |
5 | 0.197482 | -1.6273 |
6 | -0.00536565 | 0.6756 |
7 | 0.817808 | -1.77336 |
8 | 0.69618 | 0.269094 |
9 | -0.175404 | 0.752222 |
10 | -1.40767 | -0.278606 |
11 | -1.01288 | -0.570946 |
12 | -1.19311 | -0.489669 |
13 | 0.0707959 | 0.215057 |
14 | 2.07235 | 1.03995 |
15 | 0.783459 | -0.0941394 |
16 | -0.101493 | 0.539637 |
17 | -0.587323 | 1.61454 |
18 | -0.29177 | 0.227941 |
19 | 1.17942 | -1.45927 |
20 | -0.157293 | -0.740942 |
平均値 | 0 | 0 |
項目を標準化した時は主成分スコアも標準化した方が解釈しやすいので、表16.3.1の主成分スコアは平均値が0で標準偏差が1になるように調整してあります。 そのため図16.2.1のプロットが楕円状に分布しているのに対して、図16.3.1のプロットは円状に分布しています。
このデータの場合、5個の項目は値の単位が全て同じですから、これらの結果は前節までの結果とあまり変わりません。 ただし表16.3.2の第2主成分の主成分負荷量を見ると符号が逆転しています。 そのため図16.2.1と図16.3.1を見比べると、図16.3.1ではプロットが上下反転していることがわかります。 したがってこの場合は第2主成分スコアが正なら「理科系」であり、負なら「文化系」と解釈することになります。
変数 | 第1主成分 | 第2主成分 | 寄与率 |
---|---|---|---|
国語 | 0.787520 | -0.443808 | 0.817153 |
数学 | 0.618605 | 0.688825 | 0.857152 |
英語 | 0.866601 | -0.088676 | 0.758860 |
理科 | 0.696682 | 0.540511 | 0.777518 |
社会 | 0.797692 | -0.471761 | 0.858872 |
表16.1.1のデータについて実際に計算すると次のようになります。
第2主成分までの累積寄与率が80%以上になったので、これで主成分の抽出を終了します。 なおこのように相関行列から主成分を抽出した時は「固有値が1以上の主成分を抽出する」という抽出条件を用いる時もあります。