前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 |
第1節で求めた主成分分析の結果を利用して、表16.1.1の20名の生徒について第1主成分スコアと第2主成分スコアを求めると表16.2.1のようになります。 そしてそれらの値を2次元の散布図にプロットすると図16.2.1のようになります。 なお図16.2.1の破線で描いた楕円は95%のプロットが含まれる楕円つまり95%許容楕円です。 (→5.5 各種手法の相互関係 (注1))
生徒ID | 国語 | 数学 | 英語 | 理科 | 社会 | 合計点 | 第1主成分スコア | 第2主成分スコア |
---|---|---|---|---|---|---|---|---|
1 | 72 | 80 | 88 | 56 | 71 | 367 | 41.2593 | 7.80096 |
2 | 53 | 88 | 62 | 70 | 44 | 317 | 30.3239 | -32.157 |
3 | 44 | 25 | 50 | 38 | 60 | 217 | -30.3628 | 6.33459 |
4 | 29 | 34 | 43 | 24 | 38 | 168 | -44.3167 | -18.4819 |
5 | 66 | 29 | 66 | 37 | 73 | 271 | -11.9909 | 28.5075 |
6 | 51 | 52 | 43 | 72 | 65 | 283 | 4.90215 | -9.41482 |
7 | 73 | 38 | 75 | 40 | 81 | 307 | 3.24431 | 34.3072 |
8 | 69 | 71 | 52 | 63 | 70 | 325 | 23.2175 | -2.80777 |
9 | 35 | 65 | 58 | 50 | 66 | 274 | 4.43507 | -15.8228 |
10 | 42 | 28 | 46 | 29 | 44 | 189 | -39.3147 | -4.87857 |
11 | 57 | 25 | 38 | 41 | 50 | 211 | -32.6906 | 3.36213 |
12 | 55 | 30 | 40 | 32 | 45 | 202 | -34.9206 | -0.971886 |
13 | 49 | 61 | 66 | 45 | 62 | 283 | 5.40817 | -4.86535 |
14 | 73 | 95 | 81 | 85 | 77 | 411 | 64.6349 | -3.40693 |
15 | 63 | 36 | 74 | 77 | 65 | 315 | 12.495 | 15.2434 |
16 | 50 | 41 | 60 | 67 | 53 | 271 | -1.65413 | -3.98432 |
17 | 42 | 71 | 55 | 52 | 38 | 258 | 2.58717 | -31.6919 |
18 | 57 | 55 | 53 | 46 | 52 | 263 | -3.7241 | -7.32121 |
19 | 81 | 47 | 78 | 48 | 78 | 332 | 15.8332 | 31.9023 |
20 | 66 | 45 | 49 | 40 | 63 | 263 | -9.36609 | 8.3464 |
平均値 | 56 | 51 | 59 | 51 | 60 | 276 | 0 | 0 |
また5教科のテスト結果の間の単相関係数を求めると表16.2.2のようになります。 主成分分析の結果を解釈する時は、この相関行列を参考にすると便利です。
国語 | 数学 | 英語 | 理科 | 社会 | |
---|---|---|---|---|---|
国語 | 1 | 0.202 | 0.615 | 0.330 | 0.740 |
数学 | 0.202 | 1 | 0.476 | 0.644 | 0.176 |
英語 | 0.615 | 0.476 | 1 | 0.450 | 0.669 |
理科 | 0.330 | 0.644 | 0.450 | 1 | 0.324 |
社会 | 0.740 | 0.176 | 0.669 | 0.324 | 1 |
第1主成分スコアの各変数の係数(重み)を見ると、符号が全て正なので合計点的な主成分つまりレベルを表す主成分であることがわかります。 そして国語と英語と社会の成分の絶対値が数学と理科よりも少し小さいことから、国語と英語と社会の重みを少し軽くして合計していることがわかります。
実際、表16.2.1の合計点と第1主成分スコアを比較すると、大小関係がよく似ていることがわかります。 そしてこれらの間の相関係数を計算すると0.976であり、非常に強い相関があります。 しかし5番目の生徒と16番目の生徒の合計点はどちらも271ですが、第1主成分は-11.9909と-1.65413であり、5番目の生徒の方が少し小さくなっていることがわかります。 これは5番目の生徒は国語と英語と社会の点数が数学と理科の点数より高いのに対して、16番目の生徒はその反対の傾向があるためです。
一方、第2主成分スコアの係数の符号は国語と英語と社会が正であり、数学と理科は負になっています。 このことから第2主成分はタイプを表す主成分であり、この主成分が大きいと「国語・英語・社会タイプ」つまり俗にいう「文化系」であり、小さいと「数学・理科タイプ」つまり「理科系」であることがわかります。 例えば5番目の生徒と16番目の生徒の第2主成分スコアはそれぞれ28.5075と-3.98432であり、前者が文化系で後者が理科系であることがわかります。
ただしこれは20名の生徒の中の相対的なタイプ分けであり、絶対的なものではありません。 例えばこの20名の生徒が全て国語専攻の生徒であり、文化系の科目が得意だとしても、全員の第2主成分が高い値になるわけではありません。 その場合でもやはり平均値が0になり、値が正で文化系と解釈される生徒と、値が負で理科系と解釈される生徒がほぼ半数ずつになります。
表16.2.2を見ると国語と英語と社会はお互いに関連性が強く、数学と理科も関連性が強いことがわかります。 このことから国語と英語と社会がひとつの学力を反映していて、数学と理科がそれとは別のもうひとつの学力を反映していると考えられます。 そのため第1主成分では国語と英語と社会の重みを数学と理科よりも少し軽くして、2つの学力を公平に合計しています。 そして第2主成分では(国語 + 英語 + 社会) - (数学 + 理科)という形式で2つの学力を比較しているわけです。
ちなみに学力には色々な種類があり、人にも様々な個性があります。 そのため学力を単純に文化系と理科系に2分したり、人の適性を単純に文化系と理科系に2分するのはあまり意味がないことが学問的にわかっています。 日本ではかなり早い段階で子供を文化系と理科系に分けたがるので、本人も周囲もそれを刷り込まれて、そのように思い込んでしまう傾向があるのは実に残念です。
表16.1.1の5科目のデータはテストの得点であり、値の単位も変動範囲も全て同じです。 そのため前述のように主成分スコアの係数を見れば、主成分が表している情報を適切に解釈することができます。 しかし医学・薬学分野で扱うデータは年齢、身長、体重などのように値の単位も変動範囲も異なるのが普通です。 主成分スコアの係数は各変数が「1」増加した時に主成分スコアがいくつ変化するかを表す値ですから、値の単位や変動範囲が違うと直接比較することはできません。
そこで主成分と元のデータとの相関係数を求め、係数の代わりにそれを参考にして主成分が表している情報を解釈するという方法が考えられます。 主成分分析ではその相関係数のことを主成分負荷量(principal component loading)または因子負荷量(factor loading)といいます。 因子負荷量は本来は因子分析で用いる用語ですが、主成分分析でも用いることがあります。 表16.2.1の2種類の主成分について主成分負荷量を求めると表16.2.3のようになり、それをプロットすると図16.2.2のようになります。 (注1) (→17.1 因子と因子分析)
変数 | 第1主成分 | 第2主成分 | 寄与率 |
---|---|---|---|
国語 | 0.570374 | 0.695288 | 0.808751 |
数学 | 0.858940 | -0.449159 | 0.939521 |
英語 | 0.763594 | 0.421586 | 0.760810 |
理科 | 0.813428 | -0.170212 | 0.690637 |
社会 | 0.563454 | 0.724898 | 0.842958 |
表16.2.3の右端の寄与率は、第1主成分の主成分負荷量と第2主成分の主成分負荷量をそれぞれ平方して合計した値です。 この値は各変数の情報のうち、2つの主成分によって集約された情報がどの程度の割合になるかを表します。 図16.2.2において各プロットの2つの座標の値が主成分負荷量ですから、これらを平方して合計した寄与率は原点から各プロットまでの距離を平方した値になります。 そのため主成分負荷量のプロットは原点を中心にして描いた半径1の円の内部に入ります。 そしてプロットがこの円に近いほど寄与率が高くなります。
表16.2.3と図16.2.2を見ると、寄与率は数学が最も高く、理科が最も小さいことがわかります。 もし主成分を全て抽出して5個にすると、全ての変数の寄与率が1(100%)になります。 そして主成分負荷量を5次元座標にプロットすると、全てが半径1の超球面上にプロットされます。
このデータの場合、5個の項目は値の単位も変動範囲も同じなので、主成分スコアの係数と主成分負荷量はほぼ比例します。 そのためどちらの値を参考にして主成分を解釈しても内容は変わりません。 しかし普通は各項目の単位と変動範囲が同じとは限らないので、主成分負荷量を参考にして主成分を解釈するのが合理的です。
第5章第4節で説明したように、心理学分野や社会学分野で行われるアンケート調査では同じような内容の複数の質問項目の回答を合計して下位尺度という値にし、これをデータとして利用することがよくあります。 この時、下位尺度データの信頼性を表す指標としてクロンバックのα係数(Cronbach's coefficient alpha)という値を用いることがあります。 この値が高ければ合計した複数項目の内部一貫性つまり複数項目の一致性が高くなり、下位尺度データの信頼性が高くなるといわれています。 (→5.4 級内相関係数と一致係数、17.3 因子分析と尺度開発)
これと同じ趣旨で主成分でもα係数を求め、主成分の信頼性の指標にすることがたまにあります。 ただしこの値は複数項目の一致性を表す指標なので、このデータの第1主成分のようなレベルを表す主成分だけ意味を持ちます。 第2主成分のようなタイプを表す主成分は、異なった情報を持つ項目の差を求め、それによってタイプを表すので複数項目の一致性は必然的に低くなります。
またα係数が1の時、複数項目のデータは全て一致していることになり、ひとつの項目だけあればその他の項目は必要ないということになります。 つまりα係数が1に近いということは、複数項目は情報を重複して持っていて、実際の情報量は見かけよりも少ないということになります。 したがって複数項目の内部一貫性が高いということは、実はそれほど多くの項目を観測しなくても、もっと少ない項目で効率的に情報を集めることができると解釈することも可能です。 そのためα係数は下位尺度の信頼性の指標というよりも、下位尺度の冗長性または重複性の指標と解釈することもできるわけです。
これらのことから主成分分析におけるα係数は主成分の信頼性の指標として用いるよりも、主成分がレベルを表しているのかタイプを表しているのかを判断する時の参考として用いるのが良いと思います。 実際、このデータについてα係数を求めると次のようになります。 これらの値から第1主成分はレベルを表す主成分であり、第2主成分はタイプを表す主成分であることがわかります。 (注2)
例えばx2(数学)とz1(第1主成分)の主成分負荷量は次のようになります。
例えば第1主成分のα係数は次のようになります。