前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 |
第1節のアルゴリズムの説明は抽象的でわかりにくいので、表20.1.1のデータにクラスター分析を適用し、クラスター分析の手順を具体的に説明しましょう。 説明のために、最も単純な方法であるユークリッド平方距離と最短距離法を用いることにします。
最初に6例の被験者をそれぞれクラスターにし、クラスター間の距離を求めます。 その結果を表にしたものが表20.2.1です。 対角線上は同一クラスター間の距離なので、本来は0になります。 しかし距離の計算にクラスターの個体数が必要なものがあるので、ここに各クラスターの個体数を入れることにします。
クラスターID | C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|---|
C1 | 1 | 13 | 13 | 10 | 29 | 68 |
C2 | 13 | 1 | 2 | 5 | 10 | 37 |
C3 | 13 | 2 | 1 | 1 | 4 | 25 |
C4 | 10 | 5 | 1 | 1 | 5 | 26 |
C5 | 29 | 10 | 4 | 5 | 1 | 9 |
C6 | 68 | 37 | 25 | 26 | 9 | 1 |
表20.2.1の中で距離が最も近い2つのクラスターはC3とC4です。 そこでこの2つのクラスターを融合し、あらためてC3にします。 クラスターを融合する時は、番号の大きいクラスターを番号の小さいクラスターに融合します。 この様子を散布図で描いたものが図20.2.1であり、2分木(binary tree)で描いたものが図20.2.2です。 2分木は節(node)が2つ以下の枝を持つ木構造(tree)のことで、この場合は最初のクラスターつまり各個体を葉(leaf)で表し、それを融合したクラスターを節で表します。
融合後のC3と他のクラスターの距離を更新します。 この時、C3と他のクラスターとの距離は、C3に含まれる3番の個体の距離と4番の個体の距離のうち短い方を採用します。 その結果を表にしたものが表20.2.2です。 後の作図のためにC4は個体数を0にして残してあり、以後の融合対象からは除外します。
クラスターID | C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|---|
C1 | 1 | 13 | 10 | (10) | 29 | 68 |
C2 | 13 | 1 | 2 | (5) | 10 | 37 |
C3 | 10 | 2 | 2 | (1) | 4 | 25 |
(C4) | (10) | (5) | (1) | 0 | (5) | (26) |
C5 | 29 | 10 | 4 | (5) | 1 | 9 |
C6 | 68 | 37 | 25 | (26) | 9 | 1 |
表20.2.2の中で距離が最も近い2つのクラスターはC2とC3です。 そこでこの2つのクラスターを融合し、あらためてC2にします。
融合後のC2と他のクラスターの距離を更新します。 この時、C2と他のクラスターとの距離は、C2に含まれる2番、3番、4番の個体の距離の中で最短のものを採用します。 その結果を表にしたものが表20.2.3です。
クラスターID | C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|---|
C1 | 1 | 10 | (10) | (10) | 29 | 68 |
C2 | 10 | 3 | (2) | (5) | 4 | 25 |
(C3) | (10) | (2) | 0 | (1) | (4) | (25) |
(C4) | (10) | (5) | (1) | 0 | (5) | (26) |
C5 | 29 | 4 | (4) | (5) | 1 | 9 |
C6 | 68 | 25 | (25) | (26) | 9 | 1 |
表20.2.3の中で距離が最も近い2つのクラスターはC2とC5です。 そこでこの2つのクラスターを融合し、あらためてC2にします。
融合後のC2と他のクラスターの距離を更新します。 この時、C2と他のクラスターとの距離は、C2に含まれる2番、3番、4番、5番の個体の距離の中で最短のものを採用します。 その結果を表にしたものが表20.2.4です。
クラスターID | C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|---|
C1 | 1 | 10 | (10) | (10) | (29) | 68 |
C2 | 10 | 4 | (2) | (5) | (4) | 9 |
(C3) | (10) | (2) | 0 | (1) | (4) | (25) |
(C4) | (10) | (5) | (1) | 0 | (5) | (26) |
(C5) | (29) | (4) | (4) | (5) | 0 | (9) |
C6 | 68 | 9 | (25) | (26) | (9) | 1 |
表20.2.4の中で距離が最も近い2つのクラスターはC2とC6です。 そこでこの2つのクラスターを融合し、あらためてC2にします。
融合後のC2とC1の距離を更新します。 この時、C2とC1との距離は、C2に含まれる2番、3番、4番、5番、6番の個体の距離の中で最短のものを採用します。 その結果を表にしたものが表20.2.5です。
クラスターID | C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|---|
C1 | 1 | 10 | (10) | (10) | (29) | (68) |
C2 | 10 | 5 | (2) | (5) | (4) | (9) |
(C3) | (10) | (2) | 0 | (1) | (4) | (25) |
(C4) | (10) | (5) | (1) | 0 | (5) | (26) |
(C5) | (29) | (4) | (4) | (5) | 0 | (9) |
(C6) | (68) | (9) | (25) | (26) | (9) | 0 |
最後にC1とC2を融合し、すべての個体が1つのクラスターになります。
クラスターID | C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|---|
C1 | 6 | (10) | (10) | (10) | (29) | (68) |
C2 | (10) | 0 | (2) | (5) | (4) | (9) |
(C3) | (10) | (2) | 0 | (1) | (4) | (25) |
(C4) | (10) | (5) | (1) | 0 | (5) | (26) |
(C5) | (29) | (4) | (4) | (5) | 0 | (9) |
(C6) | (68) | (9) | (25) | (26) | (9) | 0 |
クラスター分析の結果をグラフ表示する時、通常は階層構造を図式化するのに適した樹形図(dendrogram、デンドログラム)を用います。 これは図20.2.11のように横軸を個体IDにし、縦軸を距離にして、個体がクラスターに融合される様子を枝分かれした樹木状のグラフとして描いたものであり、図20.2.10の2分木をグラフ化したものに相当します。
この樹形図は図20.2.10の2分木と表20.2.5を利用して描くことができます。 例えば図20.2.10の2分木で最初に融合したのはC3とC4であり、表20.2.5からC3とC4の融合時の距離は1だったことがわかります。 そして次に融合したのがC2とC3であり、表20.2.5のC2とC3の融合時の距離は2でした。 こうしたことを続けて行き、最後にC1とC2が距離10で融合するところまでたどれば、図20.2.11を描くのに必要なデータが全て手に入ります。
このように階層的クラスター分析では、最後は必ず1つのクラスターになります。 そこで最適なクラスター数はいくつか、つまりクラスターの融合をどこで止めるかという問題が生じます。 この問題に対する一般的な規準はなく、色々な要素を考慮してデータごとに決める必要があります。 その際、樹形図が大いに参考になります。
例えば図20.2.11の樹形図を見ると、2番、3番、4番、5番の個体が融合する時の距離は比較的短いのに対して、6番と1番が融合する時の距離は長くなっています。 このことから1番と6番の個体は単独で1つのクラスターにし、2〜4番の個体はまとめて1つのクラスターにするというグループ分けが妥当だと考えられます。 このことは図20.2.5の散布図を見ても納得がいくと思います。
クラスターの数を決めたら、次は各クラスターの特徴を要約し、各クラスターに適当な名称を付けると解釈が容易になります。 例えば図20.2.5の3つのクラスターについては、C1(1番の個体)はスポーツも読書もあまり好きではない「どちらも興味無グループ」、C2はスポーツも読書もある程度は好きな「どちらも興味有グループ」、C6(6番の個体)はスポーツが非常に好きな「スポーツ偏愛グループ」と解釈することができます。