玄関雑学の部屋雑学コーナー統計学入門

20.2 クラスター分析結果の解釈

(1) クラスター分析の手順

第1節のアルゴリズムの説明は抽象的でわかりにくいので、表20.1.1のデータにクラスター分析を適用し、クラスター分析の手順を具体的に説明しましょう。 説明のために、最も単純な方法であるユークリッド平方距離と最短距離法を用いることにします。

○ステップ0

最初に6例の被験者をそれぞれクラスターにし、クラスター間の距離を求めます。 その結果を表にしたものが表20.2.1です。 対角線上は同一クラスター間の距離なので、本来は0になります。 しかし距離の計算にクラスターの個体数が必要なものがあるので、ここに各クラスターの個体数を入れることにします。

表20.2.1 クラスター間のユークリッド平方距離−0
クラスターID C1  C2  C3  C4  C5  C6 
C111313102968
C2131251037
C313211425
C410511526
C529104519
C66837252691

○ステップ1-1

表20.2.1の中で距離が最も近い2つのクラスターはC3とC4です。 そこでこの2つのクラスターを融合し、あらためてC3にします。 クラスターを融合する時は、番号の大きいクラスターを番号の小さいクラスターに融合します。 この様子を散布図で描いたものが図20.2.1であり、2分木(binary tree)で描いたものが図20.2.2です。 2分木は節(node)が2つ以下の枝を持つ木構造(tree)のことで、この場合は最初のクラスターつまり各個体を葉(leaf)で表し、それを融合したクラスターを節で表します。

C3 ← C4を融合 … クラスター間のユークリッド平方距離:d342 = 1
C3に含まれる個体:3、4
図20.2.1 趣味の程度の散布図 図20.2.2 趣味の程度の2分木

○ステップ1-2

融合後のC3と他のクラスターの距離を更新します。 この時、C3と他のクラスターとの距離は、C3に含まれる3番の個体の距離と4番の個体の距離のうち短い方を採用します。 その結果を表にしたものが表20.2.2です。 後の作図のためにC4は個体数を0にして残してあり、以後の融合対象からは除外します。

表20.2.2 クラスター間のユークリッド平方距離−1
クラスターID C1  C2  C3  C4  C5  C6 
C111310(10)2968
C21312(5)1037
C31022(1)425
(C4)(10)(5)(1)0(5)(26)
C529104(5)19
C6683725(26)91

○ステップ2-1

表20.2.2の中で距離が最も近い2つのクラスターはC2とC3です。 そこでこの2つのクラスターを融合し、あらためてC2にします。

C2 ← C3を融合 … クラスター間のユークリッド平方距離:d232 = 2
C2に含まれる個体:2、3、4
図20.2.3 趣味の程度の散布図 図20.2.4 趣味の程度の2分木

○ステップ2-2

融合後のC2と他のクラスターの距離を更新します。 この時、C2と他のクラスターとの距離は、C2に含まれる2番、3番、4番の個体の距離の中で最短のものを採用します。 その結果を表にしたものが表20.2.3です。

表20.2.3 クラスター間のユークリッド平方距離−2
クラスターID C1  C2  C3  C4  C5  C6 
C1110(10)(10)2968
C2103(2)(5)425
(C3)(10)(2)0(1)(4)(25)
(C4)(10)(5)(1)0(5)(26)
C5294(4)(5)19
C66825(25)(26)91

○ステップ3-1

表20.2.3の中で距離が最も近い2つのクラスターはC2とC5です。 そこでこの2つのクラスターを融合し、あらためてC2にします。

C2 ← C5を融合 … クラスター間のユークリッド平方距離:d252 = 4
C2に含まれる個体:2、3、4、5
図20.2.5 趣味の程度の散布図 図20.2.6 趣味の程度の2分木

○ステップ3-2

融合後のC2と他のクラスターの距離を更新します。 この時、C2と他のクラスターとの距離は、C2に含まれる2番、3番、4番、5番の個体の距離の中で最短のものを採用します。 その結果を表にしたものが表20.2.4です。

表20.2.4 クラスター間のユークリッド平方距離−3
クラスターID C1  C2  C3  C4  C5  C6 
C1110(10)(10)(29)68
C2104(2)(5)(4)9
(C3)(10)(2)0(1)(4)(25)
(C4)(10)(5)(1)0(5)(26)
(C5)(29)(4)(4)(5)0(9)
C6689(25)(26)(9)1

○ステップ4-1

表20.2.4の中で距離が最も近い2つのクラスターはC2とC6です。 そこでこの2つのクラスターを融合し、あらためてC2にします。

C2 ← C6を融合 … クラスター間のユークリッド平方距離:d262 = 9
C2に含まれる個体:2、3、4、5、6
図20.2.7 趣味の程度の散布図 図20.2.8 趣味の程度の2分木

○ステップ4-2

融合後のC2とC1の距離を更新します。 この時、C2とC1との距離は、C2に含まれる2番、3番、4番、5番、6番の個体の距離の中で最短のものを採用します。 その結果を表にしたものが表20.2.5です。

表20.2.5 クラスター間のユークリッド平方距離−4
クラスターID C1  C2  C3  C4  C5  C6 
C1110(10)(10)(29)(68)
C2105(2)(5)(4)(9)
(C3)(10)(2)0(1)(4)(25)
(C4)(10)(5)(1)0(5)(26)
(C5)(29)(4)(4)(5)0(9)
(C6)(68)(9)(25)(26)(9)0

○ステップ5

最後にC1とC2を融合し、すべての個体が1つのクラスターになります。

C1 ← C2を融合 … クラスター間のユークリッド平方距離:d122 = 10
C1に含まれる個体:1、2、3、4、5、6
図20.2.9 趣味の程度の散布図 図20.2.10 趣味の程度の2分木
表20.2.6 クラスター間のユークリッド平方距離−5
クラスターID C1  C2  C3  C4  C5  C6 
C16(10)(10)(10)(29)(68)
C2(10)0(2)(5)(4)(9)
(C3)(10)(2)0(1)(4)(25)
(C4)(10)(5)(1)0(5)(26)
(C5)(29)(4)(4)(5)0(9)
(C6)(68)(9)(25)(26)(9)0

(2) 樹形図(デンドログラム)

クラスター分析の結果をグラフ表示する時、通常は階層構造を図式化するのに適した樹形図(dendrogram、デンドログラム)を用います。 これは図20.2.11のように横軸を個体IDにし、縦軸を距離にして、個体がクラスターに融合される様子を枝分かれした樹木状のグラフとして描いたものであり、図20.2.10の2分木をグラフ化したものに相当します。

図20.2.11 最短距離法の樹形図

この樹形図は図20.2.10の2分木と表20.2.5を利用して描くことができます。 例えば図20.2.10の2分木で最初に融合したのはC3とC4であり、表20.2.5からC3とC4の融合時の距離は1だったことがわかります。 そして次に融合したのがC2とC3であり、表20.2.5のC2とC3の融合時の距離は2でした。 こうしたことを続けて行き、最後にC1とC2が距離10で融合するところまでたどれば、図20.2.11を描くのに必要なデータが全て手に入ります。

(3) クラスター数の決め方と解釈方法

このように階層的クラスター分析では、最後は必ず1つのクラスターになります。 そこで最適なクラスター数はいくつか、つまりクラスターの融合をどこで止めるかという問題が生じます。 この問題に対する一般的な規準はなく、色々な要素を考慮してデータごとに決める必要があります。 その際、樹形図が大いに参考になります。

例えば図20.2.11の樹形図を見ると、2番、3番、4番、5番の個体が融合する時の距離は比較的短いのに対して、6番と1番が融合する時の距離は長くなっています。 このことから1番と6番の個体は単独で1つのクラスターにし、2〜4番の個体はまとめて1つのクラスターにするというグループ分けが妥当だと考えられます。 このことは図20.2.5の散布図を見ても納得がいくと思います。

クラスターの数を決めたら、次は各クラスターの特徴を要約し、各クラスターに適当な名称を付けると解釈が容易になります。 例えば図20.2.5の3つのクラスターについては、C1(1番の個体)はスポーツも読書もあまり好きではない「どちらも興味無グループ」、C2はスポーツも読書もある程度は好きな「どちらも興味有グループ」、C6(6番の個体)はスポーツが非常に好きな「スポーツ偏愛グループ」と解釈することができます。