玄関雑学の部屋雑学コーナー統計学入門

17.3 因子分析と尺度開発

(1) 因子と下位尺度

因子スコアは平均値が0で標準偏差がほぼ1であり、しかも——斜交回転をしないのなら——お互いにほぼ独立であるという好都合な性質を持っています。 しかしこれまでの説明でわかるように、因子スコアを計算するのは少々面倒です。

そこで因子スコアの計算を簡単にするために、切片を省略し、因子負荷量の絶対値が大きい項目の係数を「1」または「-1」にし、絶対値の小さい項目は係数を「0」にするという簡便法が考えられます。 つまり因子負荷量の絶対値が大きい項目の合計——ただし符号が負の項目つまり逆転項目も有り得る——を、そのまま簡便な因子スコアにしてしまうおうというわけです。 これは第2節で説明したプロクラステス回転で用いる単純構造の仮想的ターゲット行列をそのまま因子負荷量行列にしたことに相当します。

例えば第2節で求めたバリマックス回転後の因子スコア計算式について、切片を省略し、因子負荷量の絶対値が大きい項目だけ合計した簡便な因子スコアとその因子負荷量は次のようになります。

第1因子の簡便な因子スコア=下位尺度スコア1:f1i = 1・xi1 + 0・xi2 +1・xi3 + 0・xi4 + 1・xi5=xi1 + xi3 + xi5
第2因子の簡便な因子スコア=下位尺度スコア2:f2i = 0・xi1 + 1・xi2 + 0・xi3 + 1・xi4 + 0・xi5=xi2 + xi4
xi1、xi2、xi3、xi4、xi5:i番目の生徒の国語、数学、英語、理科、社会の点数
表17.3.1 因子と下位尺度の因子負荷量
変数バリマックス回転後プロマックス回転後下位尺度
第1因子第2因子第1因子第2因子下位尺度1下位尺度2
国語0.8018100.1553040.829523-0.03160310
数学0.0820960.929518-0.1235380.97843201
英語0.6800010.4358080.6341150.29994610
理科0.2686850.6638450.1383690.64678301
社会0.9052610.1138230.950588-0.10178110

この簡便な因子スコアは平均値が0にならず、標準偏差も1にならず、お互いに独立ではないものの、簡単に計算できて内容が直感的にわかりやすいという大きなメリットがあります。 そこで心理学分野では本来の因子スコアの代わりにこの簡便な因子スコアを多用し、これを下位尺度スコア(下位尺度得点)と呼び、下位尺度を疑似因子として用います。 そしてこのような下位尺度を確立し、普遍性のある心理学的検査法(通常はアンケート)を開発することを尺度開発と呼びます。

表16.1.1について、上記の下位尺度スコアを求めると表17.3.2のようになります。 そして下位尺度スコアと合計点について、平均値や標準偏差等の基礎統計量を求めると表17.3.3のようになります。

表17.3.2 下位尺度スコアと合計点
生徒ID下位尺度スコア1下位尺度スコア2合計点
1231136367
2159158317
315463217
411058168
520566271
6159124283
722978307
8191134325
9159115274
1013257189
1114566211
1214062202
13177106283
14231180411
15202113315
16163108271
17135123258
18162101263
1923795332
2017885263
平均値175101276
表17.3.3 下位尺度スコアと合計点の基礎統計量
項目平均値標準偏差α係数相関係数
下位尺度スコア回転前
因子スコア
バリマックス回転後
因子スコア
プロマックス回転後
因子スコア
12f1f2f1f2f1f2
下位尺度スコア1175370.86010.4030.921-0.3450.9550.2890.9860.476
下位尺度スコア2101350.7690.40310.7090.6660.1920.9550.3980.966
合計点276600.7910.8480.8270.9760.1730.6980.7300.8360.852

表17.3.3の下位尺度スコアに関するクロンバックのα係数(Cronbach's coefficient alpha)はどちらもかなり高い値であり、「下位尺度の内部一貫性が高い」とか「下位尺度の信頼性が高い」と評価されます。 しかし第16章第2節で説明したように、α係数は下位尺度の信頼性の指標ではなく冗長性または情報重複度の指標と解釈することもできます。 そのため統計学的には、この値が高いほど「下位尺度は情報が重複しており無駄な測定項目が多い」と解釈することも可能です。 (→16.2 主成分分析結果の解釈5.4 級内相関係数と一致係数)

ただしアンケート調査の場合、同じような内容の質問を表現を変えてわざと複数項目作ることがあります。 そのようにして質問内容に冗長性を持たせることによって、データの内部一貫性と信頼性を検討することが可能になります。 医学分野で用いる臨床検査値と違ってアンケートデータは偏りや誤差が入りやすいので、データの信頼性を高くするためにそういった工夫が必要な時があるのです。

また下位尺度の信頼性が高いからといって、その下位尺度が科学的に妥当なものであるとは限りません。 このデータの場合は因子の解釈に基づいて下位尺度1が「国語・英語・数学」の学力つまり文化系の学力を表していて、下位尺度2が「数学・理科」の学力つまり理科系の学力を表していると一応は解釈できます。

しかし文化系の学力とか理科系の学力という概念が妥当かどうか、そして2種類の下位尺度がそれらを適切に反映しているかどうかについては、このデータだけからは判断できません。 それらについては心理学分野の知見や、それを目的とした研究による裏付けが必要です。 このことから下位尺度の信頼性と下位尺度の妥当性は全く別の概念だということがわかります。

表17.3.3の相関係数を見ると、下位尺度スコア1と回転前後の第1因子スコア、下位尺度スコア2と回転後の第2因子スコアの関連性が強く、下位尺度スコア同士にも関連性があります。 そのため2種類の下位尺度スコアの結果について検討する時は、それぞれ独立に評価することができないので注意が必要です。 例えばこの場合は2種類の下位尺度スコアの相関関係が正である、つまり「国語・英語・数学」の学力が高いと「数学・理科」の学力も高いという関係があり、どちらの下位尺度にも全体的な学力を表す要素が入り込んでいると考えられます。 そのため2種類の下位尺度を独立に評価せず、お互いの関連性を考慮しながら評価する必要があります。

また合計点と下位尺度スコアの相関係数を見ると、下位尺度スコアはどちらも正の大きな値です。 そして合計点と因子スコアの相関係数を見ると、回転前は第1因子スコアの相関係数だけが大きく、プロマックス回転後はどちらの因子スコアも相関係数が大きいことがわかります。 このことから、下位尺度スコアとプロマックス回転後の因子スコアには全体的な学力を表す要素が入り込んでいると解釈できます。

さらにプロマックス回転後の因子スコアは下位尺度スコアとの相関係数が大きく、因子スコア同士の相関係数も合計点に対する相関係数も下位尺度スコアのそれと似ています。 このことから、プロマックス回転後の因子スコアは下位尺度スコアとほぼ同じ情報を持っていると解釈できます。 したがって下位尺度を用いるなら、わざわざプロマックス回転をする必要はないと考えられます。

通常、斜交回転しない限り因子はお互いにほぼ独立です。 そのため因子分析を元にして導き出した下位尺度についても、暗黙のうちにお互いにほぼ独立という前提で結果を独立に評価することが多いようです。 しかし斜交回転しない因子はお互いにほぼ独立ですが、下位尺度は独立とは限りません。 そのため回転しない因子または直交回転した因子と下位尺度をうまく使い分けて、結果を合理的に解釈するのがお勧めです。

ちなみに下位尺度スコアを用いて1番目の生徒のテストの点数を復元すると次のようになります。 第1節で因子回転前の因子スコアを用いて同じ生徒のテストの点数を復元したものと同様に、ここでは下位尺度スコアによる復元点数を「共通性による復元点数」扱いし、実際の点数との差を「独自性よる誤差」扱いしています。 (→17.1 因子と因子分析 (3)因子分析結果の解釈)

国語:平均する前の点数 = 1(国語と下位尺度1の因子負荷量)×231(下位尺度スコア1) + 0(国語と下位尺度2の因子負荷量)×136(下位尺度スコア2) = 231
 → 元の単位の点数 = x11 = 231÷3(下位尺度1に含まれる項目数) = 77
 ∴72(実際の点数) − 77(共通性による復元点数) = -5(独自性による復元誤差)
数学:平均する前の点数 = 0(数学と下位尺度1の因子負荷量)×231(下位尺度スコア1) + 1(数学と下位尺度2の因子負荷量)×136(下位尺度スコア2) = 136
 → 元の単位の点数 = x12 = 136÷2(下位尺度2に含まれる項目数) = 68
 ∴80(実際の点数) − 68(共通性による復元点数) = 12(独自性による復元誤差)
英語:平均する前の点数 = 1(英語と下位尺度1の因子負荷量)×231(下位尺度スコア1) + 0(英語と下位尺度2の因子負荷量)×136(下位尺度スコア2) = 231
 → 元の単位の点数 = x13 = 231÷3(下位尺度1に含まれる項目数) = 77
 ∴88(実際の点数) − 77(共通性による復元点数) = 11(独自性による復元誤差)
理科:平均する前の点数 = 0(理科と下位尺度1の因子負荷量)×231(下位尺度スコア1) + 1(理科と下位尺度2の因子負荷量)×136(下位尺度スコア2) = 136
 → 元の単位の点数 = x14 = 136÷2(下位尺度2に含まれる項目数) = 68
 ∴56(実際の点数) − 68(共通性による復元点数) = -12(独自性による復元誤差)
社会:平均する前の点数 = 1(社会と下位尺度1の因子負荷量)×231(下位尺度スコア1) + 0(社会と下位尺度2の因子負荷量)×136(下位尺度スコア2) = 231
 → 元の単位の点数 = x15231÷3(下位尺度1に含まれる項目数) = 77
 ∴71(実際の点数) − 77(共通性による復元点数) = -6(独自性による復元誤差)

上記の計算結果から、下位尺度スコアはその下位尺度に含まれる各項目の点数をそれらの項目の平均値で復元するという、かなりラフな因子スコアに相当することがわかると思います。 ただし因子スコアと違って下位尺度スコアの寄与率は求められないので、共通性と独自性の寄与率も求められません。 そのため下位尺度スコアを用いた時の元のデータの復元率の良し悪しは正確には評価できませんが、因子スコアを用いた時の復元率よりは確実に悪くなります。 これらのことから、下位尺度および下位尺度スコアと因子および因子スコアの関係を何となく理解できるのではないかと思います。

(2) 心理尺度の例

因子分析を用いて尺度開発をした例として、日本語版抑うつ状態チェックリスト改訂版を紹介しましょう。 これは早稲田大学大学院人間科学研究科の長谷川晃先生等が開発された心理尺度で、インターネットの「心理尺度の広場」というサイトにアップされています。 この心理尺度には2種類の下位尺度があり、抑うつ気分の2つの構成成分である情動的成分と、自己全般に対するネガティブな視点を測定することができます。 (→日本パーソナリティ心理学会 心理尺度の広場)

表17.3.4 日本語版抑うつ状態チェックリスト改訂版
日本語版抑うつ状態チェックリスト改訂版
<採点方法>
ネガティブな自己視点形容詞群(下位尺度1) = 項目1 + 5 + 7 + 8 + 9 + 11 + 12 + 15 + 18 + 19 + 22 + 24 + 25 + 28
情動形容詞群(下位尺度2) = 項目2 + 3 + 4 + 6 + 10 + 13 + 14 + 16 + 17 + 20 + 21 + 23 + 26 + 27

上記のようなグレードデータは、医学分野では順序尺度のデータとして扱うのが普通です。 しかし心理学分野では計量尺度のデータとして扱うのが普通です。 何故なら主成分分析や因子分析は計量尺度のデータにしか適用できず、下位尺度を求めることも計量尺度のデータしか行えないからです。

計量尺度と順序尺度の違いは、数字と数字の間隔が等間隔で四則演算ができるかどうかです。 表17.3.4のようなグレードデータは数字と数字の間隔が等間隔とは限らず、厳密にいえば四則演算を行うことはできません。

例えば1番目と2番目の質問の回答がどちらも「3:どちらともいえない」だった被検者と、1番目の回答が「1:まったくあてはまらない」で、2番目の回答が「5:非常にあてはまる」だった被検者がいたとします。 この時、2つの質問の合計を求めるとどちらの被検者も「6」になり、これが下位尺度スコアなら2人とも同じ値と解釈されます。 これは「(3:どちらともいえない)+(3:どちらともいえない)=(1:まったくあてはまらない)+(5:非常にあてはまる)=6」と解釈したことに相当し、数字と数字の間隔が等間隔であることを前提にしています。

ところがこの場合は数字と数字の間隔は等間隔とは限らず、厳密にいえばこのような足し算は成り立たないと考えられます。 しかし心理学分野の研究ではこのようなアンケート調査が中心なので、仕方なくグレードデータを近似的に計量尺度データとして扱い、主成分分析や因子分析を適用して下位尺度を求めているのです。 そしてグレードデータをできるだけ計量尺度に近づけるために、表17.3.4のように「どちらともいえない」を中心にして左右対称の選択肢を設定するのが普通です。 このような回答形式のことをリッカート尺度(Likert scale)といいます。

近代科学はデータをできるだけ定量評価し、結果を関数で表して法則化することが多いので、統計学も計量尺度のデータを中心にして発達してきました。 そのため数学的な厳密さよりも結果を数量表現することを優先し、こういったグレードデータを近似的に計量尺度のデータとして扱ってもかまわないと思います。

またこの例のようなアンケート形式の尺度を開発する時は、解釈しやすい下位尺度を作るために最初から因子を想定してアンケートの質問を作成することが大切です。 例えば「独立心」という因子を想定している時は、独立心の高さや内容を明らかにするような質問をいくつか作成して独立心を多面的に把握できるようにします。 そのようにして作成された複数の質問は、当然、お互いに関連性が強く、因子分析でひとつの因子として抽出され、下位尺度を構成する可能性が高くなります。

(3) 主成分分析と因子分析の使い分け

最後に、主成分分析と因子分析の使い分けについて少し説明しておきましょう。 主成分分析は実際に観測されたデータを要約して概括評価項目つまり目的変数を作成するための手法であり、作成された概括評価項目のことを主成分と呼びます。 それに対して因子分析は実際に観測されたデータが何故そのような値になっているかという要因つまり説明変数を探るための手法であり、推測された潜在的な説明変数のことを因子と呼びます。

図17.1.1 主成分と因子

例えば表16.1.1の1番目の生徒の各項目を標準化した時の主成分スコアと、バリマックス回転後およびプロマックス回転後の因子スコアは次のとおりでした。 (→16.3 特殊な主成分分析 表16.3.117.2 因子軸の回転 表17.2.2)

表17.3.5 主成分スコアと因子スコア
生徒ID国語数学英語理科社会合計点主成分スコアバリマックス回転後の
因子スコア
プロマックス回転後の
因子スコア
z1z2f1f2f1f2
172808856713671.508520.02869410.9469221.175091.186551.34561
平均値5651595160276000000

そして因子スコアと因子負荷量から、この生徒のテストの点を復元すると次のようになります。 なお因子軸を回転しても共通性と独自性は変わらないので、復元した点数は回転前と変わりません。 標準化された点数がわずかに異なるのは計算誤差によるものです。 (→17.1 因子と因子分析 (3)因子分析結果の解釈)

○バリマックス回転後の因子スコアから復元した点数
国語:標準化された点数 = 0.80181(国語と第1因子の因子負荷量)×0.946922(f11) + 0.155304(国語と第2因子の因子負荷量)×1.17509(f21) = 0.9417473
 → 元の単位の点数 = x11 = 0.9417473×13.9596(国語の標準偏差) + 56.35(国語の平均値) ≒ 69
 ∴72(実際の点数) − 69(共通性による復元点数) = 3(独自性による復元誤差)
数学:標準化された点数 = 0.082096(数学と第1因子の因子負荷量)×0.946922(f11) + 0.929518(数学と第2因子の因子負荷量)×1.17509(f21) = 1.170002
 → 元の単位の点数 = x12=1.170002×21.6421(数学の標準偏差) + 50.8(数学の平均値) ≒ 76
 ∴80(実際の点数) − 76(共通性による復元点数) = 4(独自性による復元誤差)
英語:標準化された点数 = 0.680001(英語と第1因子の因子負荷量)×0.946922(f11) + 0.435808(英語と第2因子の因子負荷量)×1.17509(f21) = 1.156022
 → 元の単位の点数 = x13 = 1.156022×14.5829(英語の標準偏差) + 58.85(英語の平均値) ≒ 76
 ∴88(実際の点数) − 76(共通性による復元点数) = 12(独自性による復元誤差)
理科:標準化された点数 = 0.268685(理科と第1因子の因子負荷量)×0.946922(f11) + 0.663845(理科と第2因子の因子負荷量)×1.17509(f21) = 1.034499
 → 元の単位の点数 = x14=1.034499×14.5829(理科の標準偏差) + 50.6(理科の平均値) ≒ 68
 ∴56(実際の点数) − 68(共通性による復元点数) = -12(独自性による復元誤差)
社会:標準化された点数 = 0.905261(社会と第1因子の因子負荷量)×0.946922(f11) + 0.113823(社会と第2因子の因子負荷量)×1.17509(f21) = 0.9909649
 → 元の単位の点数 = x15 = 0.9909649×13.4942(社会の標準偏差) + 59.75(社会の平均値) ≒ 73
 ∴71(実際の点数) − 73(共通性による復元点数) = -2(独自性による復元誤差)
○プロマックス回転後の因子スコアから復元した点数
国語:標準化された点数 = 0.829523(国語と第1因子の因子負荷量)×1.18655(f11) - 0.031603(国語と第2因子の因子負荷量)×1.34561(f21) = 0.9417452
 → 元の単位の点数 = x11 = 0.9417452×13.9596(国語の標準偏差) + 56.35(国語の平均値) ≒ 69
 ∴72(実際の点数) − 69(共通性による復元点数) = 3(独自性による復元誤差)
数学:標準化された点数 = -0.123538(数学と第1因子の因子負荷量)×1.18655(f11) + 0.978432(数学と第2因子の因子負荷量)×1.34561(f21) = 1.170004
 → 元の単位の点数 = x12=1.170004×21.6421(数学の標準偏差) + 50.8(数学の平均値) ≒ 76
 ∴80(実際の点数) − 76(共通性による復元点数) = 4(独自性による復元誤差)
英語:標準化された点数 = 0.634115(英語と第1因子の因子負荷量)×1.18655(f11) + 0.299946(英語と第2因子の因子負荷量)×1.34561(f21) = 1.156019
 → 元の単位の点数 = x13=1.156019×14.5829(英語の標準偏差) + 58.85(英語の平均値) ≒ 76
 ∴88(実際の点数) − 76(共通性による復元点数) = 12(独自性による復元誤差)
理科:標準化された点数 = 0.138369(理科と第1因子の因子負荷量)×1.18655(f11) + 0.646783(理科と第2因子の因子負荷量)×1.34561(f21) = 1.034499
 → 元の単位の点数 = x14=1.034499×14.5829(理科の標準偏差) + 50.6(理科の平均値) ≒ 68
 ∴56(実際の点数) − 68(共通性による復元点数) = -12(独自性による復元誤差)
社会:標準化された点数 = 0.950588(社会と第1因子の因子負荷量)×1.18655(f11) - 0.101781(社会と第2因子の因子負荷量)×1.34561(f21) = 0.9909627
 → 元の単位の点数 = x15=0.9909627×13.4942(社会の標準偏差) + 59.75(社会の平均値) ≒ 73
 ∴71(実際の点数) − 73(共通性による復元点数) = -2(独自性による復元誤差)

主成分分析の結果から第1主成分はレベルを表す合計点的な概括評価項目であり、第2主成分は理科系・文化系のタイプを表す概括評価項目と解釈できました。 そこでこの生徒は第1主成分スコアが正の大きな値であり、第2主成分が正の小さな値であることから、合計点は平均値よりもかなり高く、タイプとしては理科系と文化系の中間的なタイプである、つまりどの教科の点数も平均値より高いと評価できます。

一方、因子分析の結果から第1因子は文化系の学力を表し、第2因子は理科系の学力を表していると解釈できました。 そこでこの生徒は第1因子スコアも第2因子スコアも正で大きな値であることから、2種類の学力をどちらも平均以上に持っているので、どの教科も平均値以上の点数を取ることができたと解釈できます。

このように因子分析は特定の個人や特定の集団についてある観測値が得られている時、それらの観測値がそのような値になっている原因を因子によって説明することが主な目的です。 そのため因子分析に基いて作成した下位尺度も同じような目的に用いるべきです。 心理学・社会学分野では因子分析が多用され、本来は主成分分析を適用すべき場合でも因子分析を適用したり、下位尺度を用いたりしてしまうことがよくあります。 2種類の手法の違いをよく理解して、適切に使い分けることが大切です。