玄関雑学の部屋雑学コーナー統計学入門

20.3 各種のクラスター分析結果

(1) アルゴリズムを変えた時

クラスター分析では距離とアルゴリズムを色々と変えて何度も解析を行い、それらの結果を解釈しながら、実質科学的に最も妥当と思われる結果を探索するのが普通です。 そこで表20.1.1のデータについて、まずアルゴリズムを色々と変えてクラスター分析を行ない、その結果を比較してみましよう。

図20.2.11 最短距離法の樹形図 図20.3.1 最長距離法の樹形図 図20.3.2 メジアン法の樹形図 図20.3.3 重心法の樹形図 図20.3.4 群平均法の樹形図 図20.3.5 ウォード法の樹形図

これらの樹形図を見ると、最長距離法以外は1番と6番の個体を単独で1つのクラスターにし、2〜5番の個体はまとめて1つのクラスターにするというグループ分けが良さそうです。 そして最短距離法とメジアン法は1番の個体を最後に融合し、重心法、群平均法、ウォード法は6番の個体を最後に融合しています。 図20.1.1の散布図を見ると、これはどちらがより妥当だとはいえない感じです。 そのため1番と6番は無理に他のクラスターに融合せず、単独で1つのクラスターにするのが良いと考えられます。

図20.1.1 趣味の程度の散布図

(2) 距離を変えた時

次に距離を標準ユークリッド平方距離にして(1)と同様にアルゴリズムを色々と変えてクラスター分析を行い、その結果を比較してみましょう。

図20.3.6 最短距離法の樹形図 図20.3.7 最長距離法の樹形図 図20.3.8 メジアン法の樹形図 図20.3.9 重心法の樹形図 図20.3.10 群平均法の樹形図 図20.3.11 ウォード法の樹形図
図23.12.12 趣味の程度の散布図

標準ユークリッド平方距離は2つの項目のバラツキ具合を同じにした時の距離です。 図20.1.1の散布図を見ると、スポーツ好きの程度はかなりばらついているのに対して、読書好きの程度はある範囲にまとまっています。 そのため2つの項目のバラツキ具合を同じにすると、図20.3.12のように6番の個体は他の個体に近づき、1番の個体は他の個体から離れることになります。 そして5番の個体が3番の個体に近づき、個体間の距離はこの2つの個体が最も短くなります。

その結果、ユークリッド平方距離では、どのアルゴリズムでも3番と4番の個体が最初に融合するのに対して、標準ユークリッド平方距離では、どのアルゴリズムでも3番と5番の個体が最初に融合します。 そして標準ユークリッド平方距離では、どのアルゴリズムでも1番の個体が最後に融合します。 したがって距離を標準ユークリッド平方距離にすると、どのアルゴリズムでも1番の個体だけを単独で1つのクラスターにし、2〜6番の個体はまとめて1つのクラスタにするというグループ分けが良さそうです。 なお図20.3.6から図20.3.11では、素直な樹形図になるように個体ID軸(横軸)の4番と5番を入れ替えているので注意してください。

データを標準化すると値は絶対的な大きさではなく相対的な大きさを表すことになります。 そのためこの場合のグループ分けは個体間の相対的な距離に基いて行なっていることになります。 そこでクラスター1(1番の個体)はスポーツも読書も人並み外れて好きではない「どちらも興味無グループ」、クラスター2(2〜6番の個体)はスポーツも読書も人並みに好きな「どちらも興味有グループ」と解釈することになります。

ちなみに個体間の距離をデータにして個体に関する主成分分析を行い、少数の主成分空間上に個体をプロットする多次元尺度構成法(MDS:Multi Dimensional Scaling)という多変量解析手法が開発されています。 この手法は個体をクラスターに分類するためのものではなく、個体同士の位置関係を低次元空間上で視覚的に把握するためのものです。 しかしこの手法を用いると個体を感覚的にクラスターに分類することができるので、クラスター分析と同じような目的で用いられることがあります。