玄関雑学の部屋雑学コーナー統計学入門

第2章 データの基本処理

この章では統計学で取り扱うデータの種類とそれに対応した統計学手法、パラメトリック手法とノンパラメトリック手法の違い、データの基本的な処理方法などを解説します。

2.1 データの種類と統計手法

(1) 尺度によるデータの分類

統計学で取り扱うデータは、大雑把にいって測ったものと数えたものに大別されます。 そしてそのようなデータの種類によってデータを分類する基準のことを尺度(scale)といいます。 このあたりも簡単なものをわざわざ難しくする数学者の面目躍如たるところであります。 尺度によってデータの種類を分類すると次のようになります。

I. 計量値(measured)

身長160cm、体重60kgというように測る性質のデータのことで、単に「データ」といえば大抵はこのデータを指します。 このデータは数値と数値の間隔が等しいかどうかで、さらに次のように分類されます。

I-1 計量尺度(metric scale)

身長、体重など最も一般的なデータであり、データが具体的な連続した数値で与えられ、数値と数値の間隔が等しいものです。 数値と数値の間隔が等しいという意味は、例えば1と2の間隔と2と3の間隔が同じく1であり、四則演算を行うことができるという意味です。 何をあたり前のことをいっているんだとお思いでしょうが、次に説明する順序尺度では驚くなかれ——驚いてもかまいませんが——この間隔が違っていて、四則演算ができないのです。

厳密にいえば、このデータは絶対0点があるかないかによって比例尺度(ratio scale)間隔尺度(interval scale)に細分されます。 比例尺度のデータとはデータとデータの間に比例関係があり、比が意味を持つデータのことです。 例えば100kgの体重は50kgの体重の2倍重く、2つのデータの間に比例関係があります。 そして0kgは何倍しても0kgであり、絶対0点があることになります。

それに対して間隔尺度のデータとはデータとデータの間に比例関係がなく、比が意味を持たないデータのことです。 例えば50℃のお湯は25℃のお湯の2倍熱いわけではなく、2つのデータの間に比例関係はありません。 そして0℃は単に水が氷になる時の温度であり、絶対0点ではありません。

医学・薬学分野でよく利用される統計手法は、どちらかといえばデータが間隔尺度であることを前提にしているものが多いようです。 しかしこの分野でよく利用される変動係数(CV)は、原則として比例尺度のデータでしか意味がありません。 これについては後で詳しく検討する予定です。 (→2.5 標準誤差・標準偏差・変動係数・偏り)

I-2 順序尺度(ordinal、ranking scale)

体重を軽い順に40kg<42kg<50kg……と並べ、それに順番を1、2、3、……と付けた時、この順番というデータは一見普通の計量値のようですが、数値と数値の間隔が同じではありません。 つまり1と2の間隔と2と3の間隔は同じではなく、それは数量的な意味の1でもありません。 そのため1+1=2という関係が成り立たず、四則演算が行えません。 このようなデータのことを順序尺度のデータといいます。

例えばマラソンレースで、実際のタイムではなく順位によって競技者の成績を評価する時はこのデータになります。 その場合、1位と2位の差が1時間でも1秒でも成績は同じという、まるでマスコミのスポーツ報道のような評価になります。 しかし実際には順位よりもタイムの方が競技者の実力を反映するので、計量尺度のデータを無闇に順序尺度扱いするのは危険です。

このデータは考え方によってはII-1の順序分類尺度とみなすことができるので、統計学上はどちらも同じように扱います。

II. 計数値(enumerated)

男10人・女15人というように、数える性質のデータです。 実験対象の属性をいくつかのカテゴリーに分類して、各カテゴリーに属する例数を数えます。 このデータもカテゴリー間に順序が付けられるかどうかで、さらに次のように分類されます。

II-1 順序分類尺度(ordered-categorical scale)

重症・中等症・軽症・無症状といった疾患の重症度のように、カテゴリー間に科学的な順序が付けられるデータのことです。 このようなデータは軽症+中等症=重症というような四則演算が行えず、平均値や標準偏差を計算することができません。 そのためデータそのものではなく、データに順序を付け、その順序を用いて色々な統計計算を行います。

順序尺度のデータは具体的な計量値に順番を付けたものか、もしくは潜在的な計量値を順序として表現したものです。 それに対してこの順序分類尺度のデータは、分類したカテゴリーにたまたま順序が付けられたものであるという点に違いがあります。 とはいっても実際にはどちらも全く同じ扱いをするので、両者の違いに必要以上にこだわることはありません。

また体重と標準体重による肥満度について、-10%未満を「ヤセ」、-10〜+10%を「普通」、+10%以上を「デブ」とグレーディングすれば、医学的・健康的な意味で順序分類尺度のデータになります。 しかしテストの点数や偏差値などで人間をグレーディングしたものは、文部科学省的・受験的な意味では順序分類尺度のデータになっても、科学的・人間的な意味では順序分類尺度のデータにはなりません。

順序尺度や順序分類尺度のデータに順序を付けると、それは必然的に整数になります。 そのため整数しか存在しない離散データまたは不連続データは全て順序尺度である、と誤解してしまうことがあります。 しかし計量尺度と順序尺度の根本的な違いは数字と数字の間隔が等間隔で四則演算が行えるかどうかという点であり、連続データか離散データかという点ではありません。 いくら離散データでも数字と数字の間隔が等間隔で四則演算が行えれば、それは計量尺度として扱うことができます。

また順序尺度または順序分類尺度のデータをそのまま計量尺度として扱ってしまってもそれほど問題はありませんし、場合によっては計量尺度扱いした方が良いこともあります。 実際、心理学や社会学分野では順序分類尺度のデータを計量値扱いできるように工夫したリッカート尺度(Likert scale)をよく用い、気楽に計量尺度として扱って合計したり平均値を計算したりしています。 数学者などは重箱の隅をほじくりかえしていちいち口うるさいことをいいたがりますが、細かいことに目くじらを立てず、万事鷹揚に構えて大局的見地から物事を見るようにしたいものです。 (→3.4 2標本の計数値17.3 因子分析と尺度開発)

II-2 名義尺度(categorical、nominal scale)

有・無、男・女、日・中・韓・他のようにカテゴリー間に科学的な順序が付けられないデータのことであり、分類データとも呼ばれます。 このデータは男+女=恋愛というような四則演算が行えず、平均値や標準偏差を計算できないだけでなく、データに順番を付けることさえできません。 そのためデータの度数(例数)に注目し、それを用いて色々な統計計算を行います。

なお性については順序が付くと主張する人もいますが、カテゴリー間の順序は、その人が属するカテゴリーによって異なるのが常のようです。 また国や人種についてもカテゴリー間に順序があると思い込んでいる人々がいるのは、何とも情けない限りです。

以上に説明したデータの尺度はI-1→I-2→II-1→II-2の順に情報量が少なくなり、レベルが低いと表現されます。 例えばI-1の計量尺度のデータである体重を小さい順に並べて順番を付ければI-2の順序尺度のデータになり、10kgごとにグレーディングすればII-1の順番分類尺度のデータになり、さらに50kgを境界値として軽量級と重量級に2分類すればII-2の名義尺度のデータになります。 しかしその反対に名義尺度のデータを順序尺度や計量尺度のデータにすることは、特別な場合を除いて不可能です。 これがレベルが高いとか低いとかいわれるゆえんです。

レベルの高いデータをレベルの低いデータに変換する、いわゆる尺度合わせについては、その科学的な意義をしっかりと吟味しなければなりません。 これについては後で詳しく検討する予定ですが、原則として尺度合わせはするべきではなく、元のデータが持っている情報を最大限有効に利用することが大切です。 (→2.6 尺度合わせと外れ値)

尺度によるデータの分類をまとめると表2.1.1のようになります。

表2.1.1 データの尺度
データ計量値等間隔……計量尺度絶対0点あり…比例尺度
絶対0点なし…間隔尺度
不等間隔…順序尺度
計数値順序あり…順序分類尺度
順序なし…名義尺度

(2) 標本の数によるデータの分類

データは標本集団の数とデータに対応があるかないかによっても分類することができます。 対応のあるデータは同じ被験者から同時にまたは時期を変えて2つ以上のデータが得られた時のように、お互いに共通の基盤があるデータのことです。 それに対して対応のないデータは別々の薬を投与した別々の患者群のように、お互いに共通の基盤がないデータのことです。

統計学上は共通の基盤があるデータは非独立であり、共通の基盤がないデータは独立と考えます。 独立とは「関連性がない」ということであり、データとデータの間に因果関係(原と結関係:A→B)も相関関係(:A←→B)もありません。

独立の代わりに無相関という言葉もよく使いますが、これは誤解を招きやすい言葉です。 無相関という言葉は本来は「相関関係(相互関連性)がない」という意味ですが、往々にして「相関係数が0である」という意味に解釈されがちです。 相関係数は2つのデータの間に相関関係がある時に、その内容を数学的に要約するための不完全な指標のひとつにすぎません。 そのため相関係数が0でも無因果関係かつ無相関関係とは限らず、相関係数が0ではなくても無因果関係かつ無相関関係ということも有り得ます。 (→5.1 相関係数と回帰直線)

I. 1標本(one sample)

第1章の体重測定の例のように、1つの標本集団から得られた1種類のデータのことです。 最も基本的なデータであり、計量値の場合は要約値として主に平均値を用い、基準値との差の検定や推定などを、計数値の場合は要約値として主に出現率を用い、基準出現率との差の検定や推定などを行います。

II. 2標本(two sample)

2標本以上ではデータに対応があるかないかで扱いが異なります。

II-1 対応あり

1つの標本集団から同時に得られた2項目のデータについては、相関係数や回帰直線を求めてデータ間の関係を要約したり、比や差を計算して1標本に還元したりします。 1つの標本集団の同一項目について時期を変えて得られた2つのデータについては、差や比を計算して変化量や変化率に変換し、1標本に還元して扱います。 差が良いかそれとも比が適当かについては後で詳しく検討しますが、原則として比例尺度は比に変換し、間隔尺度は差に変換すると理解しておいてください。 (→2.4 差と比とパーセントの使い分け)

II-2 対応なし

2つの標本集団から得られた同一項目のデータのことで、2群の比較が中心になります。 データが計量値の場合は要約値として主に平均値を用い、平均値の差の検定や推定などを、計数値の場合には要約値として主に出現率を用い、出現率の差の検定や推定などを行います。

III. 多標本(multi sample)

一般には多標本は2標本の拡張と考えられますが、統計手法上はむしろ2標本の方が多標本の特殊な場合であると考えた方が適しています。

III-1 対応あり

1つの標本集団から同時に得られた多項目のデータについては、重相関分析や重回帰分析などの多変量解析を適用します。 1つの標本集団の同一項目について時間を変えて得られた多時期のデータについては、実測値の平均値や初期値からの変化量の平均値などを求めて1標本に還元して扱うか、時系列解析を適用します。

III-2 対応なし

2つ以上の標本集団から得られた同一項目のデータのことで、多群の比較が中心になります。 そして全ての標本をひっくるめて比較するには分散分析を、2標本ずつ取り出して比較するには多重比較を用います。

データの尺度と標本の数および対応の有無でデータを分類し、統計手法と対応させて整理すると表2.1.2のようになります。 この表には検定の名前だけしか書いてありませんが、それぞれの検定にはそれに対応する推定も存在すると考えてください。 これらの統計手法の中には、どんな内容の統計手法なのか皆目見当もつかないものがあると思います。 でもここはとりあえず私の顔を立てて、「なるほど!」としたり顔をしておいてください。

表2.1.2 データの種類と統計手法
尺度\標本数1標本(1群)2標本多標本
対応あり対応なし(2群)対応あり対応なし(多群)
2時期2項目多時期多項目
比例尺度
または
間隔尺度
1標本t検定(平均値の検定) 対応のあるt検定=1標本t検定(変化量平均値の検定) 相関分析
回帰分析
対応のないt検定=2標本t検定(平均値の差の検定) 二元配置分散分析+多重比較
時系列解析
級内相関係数
多変量解析
一元配置分散分析+多重比較
用量反応解析
順序尺度
または
順序分類尺度
ウィルコクソン(Wilcoxon)の1標本検定 ウィルコクソン(Wilcoxon)の符号付き順位検定=ウィルコクソンの1標本検定 スペアマン(Spearman)の順位相関係数 ウィルコクソン(Wilcoxon)の順位和検定=ウィルコクソンの2標本検定
マン・ホイットニィ(Mann-Whitney)のU検定
フリードマン(Friedman)の検定+多重比較
拡張マンテル(Mantel)検定・一般化拡張マンテル検定
ケンドール(Kendall)の一致係数W クリスカル・ウォーリス(Kruskal-Wallis)のH検定+多重比較
名義尺度 χ2検定(1×b)(適合度の検定)
二項検定(出現率の検定)
符号検定(出現率の検定)
マクネマー(McNemar)の検定
四分点相関係数=φ(ファイ)係数
クラメール(Cremer)の連関係数
一致係数κ
オッズ比
フィッシャー(Fisher)の正確検定
χ2検定(2×b)(出現率パターンの検定)
マンテル・ヘンツェル(Mantel-Haenszel)の検定
リスク比
コクラン(Cochran)のQ検定
マンテル・ヘンツェル(Mantel-Haenszel)の検定+ブレスロー・デイ(Breslow-Day)の検定
生命表解析(生存時間解析)
一致係数κ
多変量解析
クラメール(Cremer)の連関係数(χ2検定(a×b))
尤度比検定
コクラン・アーミテージ(Cochran-Armitage)の傾向分析
プロビット分析
ロジット分析

統計手法はデータを把握しやすいようにする道具ですから、上手に使えばなかなか便利なものですが、使い方を誤れば凶器(狂気?)にもなります。

「お役所がこれを使えといったからそうした」

とか、

「エライ人がこんなふうに使っていたからマネをした」

などといったポリシーのない使い方はやめて、なぜその道具が開発されたのか、どのように使うべきものなのかをじっくり考えて、最適なものを上手に使いこなしましょう。

数学は科学や技術と同じように諸刃の剣です。 政治や権力がからむとロクなことにはなりません。