前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 | 6 |
この章では統計学で取り扱うデータの種類とそれに対応した統計学手法、パラメトリック手法とノンパラメトリック手法の違い、データの基本的な処理方法などを解説します。
統計学で取り扱うデータは、大雑把にいって測ったものと数えたものに大別されます。 そしてそのようなデータの種類によってデータを分類する基準のことを尺度(scale)といいます。 このあたりも簡単なものをわざわざ難しくする数学者の面目躍如たるところであります。 尺度によってデータの種類を分類すると次のようになります。
身長160cm、体重60kgというように測る性質のデータのことで、単に「データ」といえば大抵はこのデータを指します。 このデータは数値と数値の間隔が等しいかどうかで、さらに次のように分類されます。
身長、体重など最も一般的なデータであり、データが具体的な連続した数値で与えられ、数値と数値の間隔が等しいものです。 数値と数値の間隔が等しいという意味は、例えば1と2の間隔と2と3の間隔が同じく1であり、四則演算を行うことができるという意味です。 何をあたり前のことをいっているんだとお思いでしょうが、次に説明する順序尺度では驚くなかれ——驚いてもかまいませんが——この間隔が違っていて、四則演算ができないのです。
厳密にいえば、このデータは絶対0点があるかないかによって比例尺度(ratio scale)と間隔尺度(interval scale)に細分されます。 比例尺度のデータとはデータとデータの間に比例関係があり、比が意味を持つデータのことです。 例えば100kgの体重は50kgの体重の2倍重く、2つのデータの間に比例関係があります。 そして0kgは何倍しても0kgであり、絶対0点があることになります。
それに対して間隔尺度のデータとはデータとデータの間に比例関係がなく、比が意味を持たないデータのことです。 例えば50℃のお湯は25℃のお湯の2倍熱いわけではなく、2つのデータの間に比例関係はありません。 そして0℃は単に水が氷になる時の温度であり、絶対0点ではありません。
医学・薬学分野でよく利用される統計手法は、どちらかといえばデータが間隔尺度であることを前提にしているものが多いようです。 しかしこの分野でよく利用される変動係数(CV)は、原則として比例尺度のデータでしか意味がありません。 これについては後で詳しく検討する予定です。 (→2.5 標準誤差・標準偏差・変動係数・偏り)
体重を軽い順に40kg<42kg<50kg……と並べ、それに順番を1、2、3、……と付けた時、この順番というデータは一見普通の計量値のようですが、数値と数値の間隔が同じではありません。 つまり1と2の間隔と2と3の間隔は同じではなく、それは数量的な意味の1でもありません。 そのため1+1=2という関係が成り立たず、四則演算が行えません。 このようなデータのことを順序尺度のデータといいます。
例えばマラソンレースで、実際のタイムではなく順位によって競技者の成績を評価する時はこのデータになります。 その場合、1位と2位の差が1時間でも1秒でも成績は同じという、まるでマスコミのスポーツ報道のような評価になります。 しかし実際には順位よりもタイムの方が競技者の実力を反映するので、計量尺度のデータを無闇に順序尺度扱いするのは危険です。
このデータは考え方によってはII-1の順序分類尺度とみなすことができるので、統計学上はどちらも同じように扱います。
男10人・女15人というように、数える性質のデータです。 実験対象の属性をいくつかのカテゴリーに分類して、各カテゴリーに属する例数を数えます。 このデータもカテゴリー間に順序が付けられるかどうかで、さらに次のように分類されます。
重症・中等症・軽症・無症状といった疾患の重症度のように、カテゴリー間に科学的な順序が付けられるデータのことです。 このようなデータは軽症+中等症=重症というような四則演算が行えず、平均値や標準偏差を計算することができません。 そのためデータそのものではなく、データに順序を付け、その順序を用いて色々な統計計算を行います。
順序尺度のデータは具体的な計量値に順番を付けたものか、もしくは潜在的な計量値を順序として表現したものです。 それに対してこの順序分類尺度のデータは、分類したカテゴリーにたまたま順序が付けられたものであるという点に違いがあります。 とはいっても実際にはどちらも全く同じ扱いをするので、両者の違いに必要以上にこだわることはありません。
また体重と標準体重による肥満度について、-10%未満を「ヤセ」、-10〜+10%を「普通」、+10%以上を「デブ」とグレーディングすれば、医学的・健康的な意味で順序分類尺度のデータになります。 しかしテストの点数や偏差値などで人間をグレーディングしたものは、文部科学省的・受験的な意味では順序分類尺度のデータになっても、科学的・人間的な意味では順序分類尺度のデータにはなりません。
順序尺度や順序分類尺度のデータに順序を付けると、それは必然的に整数になります。 そのため整数しか存在しない離散データまたは不連続データは全て順序尺度である、と誤解してしまうことがあります。 しかし計量尺度と順序尺度の根本的な違いは数字と数字の間隔が等間隔で四則演算が行えるかどうかという点であり、連続データか離散データかという点ではありません。 いくら離散データでも数字と数字の間隔が等間隔で四則演算が行えれば、それは計量尺度として扱うことができます。
また順序尺度または順序分類尺度のデータをそのまま計量尺度として扱ってしまってもそれほど問題はありませんし、場合によっては計量尺度扱いした方が良いこともあります。 実際、心理学や社会学分野では順序分類尺度のデータを計量値扱いできるように工夫したリッカート尺度(Likert scale)をよく用い、気楽に計量尺度として扱って合計したり平均値を計算したりしています。 数学者などは重箱の隅をほじくりかえしていちいち口うるさいことをいいたがりますが、細かいことに目くじらを立てず、万事鷹揚に構えて大局的見地から物事を見るようにしたいものです。 (→3.4 2標本の計数値、17.3 因子分析と尺度開発)
有・無、男・女、日・中・韓・他のようにカテゴリー間に科学的な順序が付けられないデータのことであり、分類データとも呼ばれます。 このデータは男+女=恋愛というような四則演算が行えず、平均値や標準偏差を計算できないだけでなく、データに順番を付けることさえできません。 そのためデータの度数(例数)に注目し、それを用いて色々な統計計算を行います。
なお性については順序が付くと主張する人もいますが、カテゴリー間の順序は、その人が属するカテゴリーによって異なるのが常のようです。 また国や人種についてもカテゴリー間に順序があると思い込んでいる人々がいるのは、何とも情けない限りです。
以上に説明したデータの尺度はI-1→I-2→II-1→II-2の順に情報量が少なくなり、レベルが低いと表現されます。 例えばI-1の計量尺度のデータである体重を小さい順に並べて順番を付ければI-2の順序尺度のデータになり、10kgごとにグレーディングすればII-1の順番分類尺度のデータになり、さらに50kgを境界値として軽量級と重量級に2分類すればII-2の名義尺度のデータになります。 しかしその反対に名義尺度のデータを順序尺度や計量尺度のデータにすることは、特別な場合を除いて不可能です。 これがレベルが高いとか低いとかいわれるゆえんです。
レベルの高いデータをレベルの低いデータに変換する、いわゆる尺度合わせについては、その科学的な意義をしっかりと吟味しなければなりません。 これについては後で詳しく検討する予定ですが、原則として尺度合わせはするべきではなく、元のデータが持っている情報を最大限有効に利用することが大切です。 (→2.6 尺度合わせと外れ値)
尺度によるデータの分類をまとめると表2.1.1のようになります。
データ | 計量値 | 等間隔……計量尺度 | 絶対0点あり…比例尺度 |
---|---|---|---|
絶対0点なし…間隔尺度 | |||
不等間隔…順序尺度 | |||
計数値 | 順序あり…順序分類尺度 | ||
順序なし…名義尺度 |
データは標本集団の数とデータに対応があるかないかによっても分類することができます。 対応のあるデータは同じ被験者から同時にまたは時期を変えて2つ以上のデータが得られた時のように、お互いに共通の基盤があるデータのことです。 それに対して対応のないデータは別々の薬を投与した別々の患者群のように、お互いに共通の基盤がないデータのことです。
統計学上は共通の基盤があるデータは非独立であり、共通の基盤がないデータは独立と考えます。 独立とは「関連性がない」ということであり、データとデータの間に因果関係(原因と結果の関係:A→B)も相関関係(相互関連性:A←→B)もありません。
独立の代わりに無相関という言葉もよく使いますが、これは誤解を招きやすい言葉です。 無相関という言葉は本来は「相関関係(相互関連性)がない」という意味ですが、往々にして「相関係数が0である」という意味に解釈されがちです。 相関係数は2つのデータの間に相関関係がある時に、その内容を数学的に要約するための不完全な指標のひとつにすぎません。 そのため相関係数が0でも無因果関係かつ無相関関係とは限らず、相関係数が0ではなくても無因果関係かつ無相関関係ということも有り得ます。 (→5.1 相関係数と回帰直線)
第1章の体重測定の例のように、1つの標本集団から得られた1種類のデータのことです。 最も基本的なデータであり、計量値の場合は要約値として主に平均値を用い、基準値との差の検定や推定などを、計数値の場合は要約値として主に出現率を用い、基準出現率との差の検定や推定などを行います。
2標本以上ではデータに対応があるかないかで扱いが異なります。
1つの標本集団から同時に得られた2項目のデータについては、相関係数や回帰直線を求めてデータ間の関係を要約したり、比や差を計算して1標本に還元したりします。 1つの標本集団の同一項目について時期を変えて得られた2つのデータについては、差や比を計算して変化量や変化率に変換し、1標本に還元して扱います。 差が良いかそれとも比が適当かについては後で詳しく検討しますが、原則として比例尺度は比に変換し、間隔尺度は差に変換すると理解しておいてください。 (→2.4 差と比とパーセントの使い分け)
2つの標本集団から得られた同一項目のデータのことで、2群の比較が中心になります。 データが計量値の場合は要約値として主に平均値を用い、平均値の差の検定や推定などを、計数値の場合には要約値として主に出現率を用い、出現率の差の検定や推定などを行います。
一般には多標本は2標本の拡張と考えられますが、統計手法上はむしろ2標本の方が多標本の特殊な場合であると考えた方が適しています。
1つの標本集団から同時に得られた多項目のデータについては、重相関分析や重回帰分析などの多変量解析を適用します。 1つの標本集団の同一項目について時間を変えて得られた多時期のデータについては、実測値の平均値や初期値からの変化量の平均値などを求めて1標本に還元して扱うか、時系列解析を適用します。
2つ以上の標本集団から得られた同一項目のデータのことで、多群の比較が中心になります。 そして全ての標本をひっくるめて比較するには分散分析を、2標本ずつ取り出して比較するには多重比較を用います。
データの尺度と標本の数および対応の有無でデータを分類し、統計手法と対応させて整理すると表2.1.2のようになります。 この表には検定の名前だけしか書いてありませんが、それぞれの検定にはそれに対応する推定も存在すると考えてください。 これらの統計手法の中には、どんな内容の統計手法なのか皆目見当もつかないものがあると思います。 でもここはとりあえず私の顔を立てて、「なるほど!」としたり顔をしておいてください。
統計手法はデータを把握しやすいようにする道具ですから、上手に使えばなかなか便利なものですが、使い方を誤れば凶器(狂気?)にもなります。
「お役所がこれを使えといったからそうした」
「エライ人がこんなふうに使っていたからマネをした」
数学は科学や技術と同じように諸刃の剣です。 政治や権力がからむとロクなことにはなりません。