前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 | 6 |
データに統計手法を適用する場合、まず始めにデータの分布状態を目で見てから適当な手法を選択します。 その時、データが1項目の時はたいてい度数分布図(frequency distribution)を描きます。 ただし度数分布図は直観的にわかりやすいものの、例数が少ないとあまり見栄えのしないものになりがちです。 また度数を数える区間の幅や区間の数——これを級間と階級数といいます——によって分布の形が変わってしまうので、データの分布状態を把握しにくい時があります。
そこでデータを小さい順に累積した累積度数分布図(cumulative frequency distribution)を併用すると便利です。 累積度数分布図は単調増加の性質を持つシグモイド曲線(sigmoid curve、S字状曲線)になり、慣れないとなかなか理解しにくいと思います。 でも例数が少なくても一応の格好がとれ、データを区間に区切る必要がないので分布の形が一定になります。 (注1)
データが対応のある2項目の時はそれぞれの項目をX軸とY軸にし、ペアになった個々のデータをプロットした散布図(scatter diagram)または散点図と呼ばれる図を描きます。 その際、なるべく基本的な項目つまり原因項目をX軸にし、その項目によって影響を受けると思われる項目つまり結果項目をY軸にします。
次にこれらの図を眺めながら、データ内容を把握するのに最適な要約値や代表値を検討します。 母集団の要約値や代表値を母数といい、平均値のように分布の中心位置を表す母数を位置母数(location parameter)、標準偏差のように分布のバラツキ具合を表す母数を尺度母数(scale parameter)といいます。
代表的な位置母数には次のようなものがあります。
代表的な尺度母数には次のようなものがあります。
主要な位置母数と尺度母数をひとつのグラフに描き、しかもデータの分布状態まである程度把握できるようにしようという非常に欲張りな図をチューキー(John Wilder Tukey)が考案しています。 それが図2.2.10の右側に描いた箱ヒゲプロット(box and whisker plot)または箱ヒゲ図と呼ばれるものです。 この図は次のような手順で描きます。
Q1、Q2、Q3を四分位点(quartile)またはヒンジ(hinge)といいます。 これらの値はデータを小さい順に累積していった時、25%が含まれる値、50%が含まれる値つまり中央値、そして75%が含まれる値になります。 そしてQ1からQ3までの範囲をヒンジ散布度またはIQR(interquartile range)といい、これが箱の長さhになります。 図2.2.10には参考のために中央に個々のデータをプロットし、左側に一般的な平均値±標準偏差のプロットを描いています。 これらのプロットと箱ヒゲプロットを比べると、箱ヒゲプロットの特徴がよくわかると思います。 (注3)
データが正規分布する時、平均値±標準偏差の間に約68%のデータが含まれます。 そして箱ヒゲプロットでは箱の中に50%のデータが含まれるので、これはほぼ平均値±0.67×標準偏差に相当します。 さらに内堀の間、つまり下のヒゲから上のヒゲまでの間には約99%のデータが含まれます。 図2.2.10では平均値±標準偏差の幅と内堀の幅がほぼ等しくなっています。 しかしこれはデータ数が少ないためであり、データ数が多くなると内堀の幅がもっと広くなります。 ヒゲの長さを1.5hではなく1hにすると内堀の間には約96%のデータが含まれ、これはほぼ平均値±2×標準偏差に相当します。 そのためヒゲの長さを1hにする方法もあります。
分布の特徴を最大値、最小値、中央値(Q2)、Q1、Q3の5つの値で要約することを五数要約といいます。 箱ヒゲプロットは五数要約を具体的にグラフ表示した図であり、うまく利用すれば大変有用です。 しかしデータが多いと外れ値が増えたり、ヒゲが非常に長くなったりして、あまり実用的ではなくなってしまいます。 そのため箱ヒゲプロットはデータが比較的少ない時に用いると効果的です。 また箱ヒゲプロットは要約値をグラフ表示することが主目的ですから、データの分布状態をグラフ表示することが主目的の時は度数分布か累積度数分布を用いる方が便利です。
正規分布では平均値=中央値=最頻値であり、平均±2標準偏差の間に約95%のデータが含まれます。 そこで分布が近似的に正規分布とみなせる時は、平均値と標準偏差によってデータを要約するのが普通です。 しかし分布が正規分布と極端に異なっている時は3つの位置母数が一致するとは限らず、要約値としてどれを用いるべきか検討が必要です。
例えば普通の会社における給与分布は、たいてい図2.2.11のような歪んだ分布をします。 このような分布では3つの位置母数が一致するとは限りません。 そして給与がこのような分布をしている時、仮に全社員一律5%の賃上げをしたとします。 すると実際の賃上げ金額は元の給与が高い社員ほど高くなるので、賃上げ後の給与分布は歪みがさらに大きくなり図2.2.11の破線のようになります。
その結果、平均給与はある程度上昇したように見えますが、中央値と最頻値はあまり変わらず、大部分の社員の給与は平均給与の上昇ほどは上昇してはいないことになります。 そのため大部分の社員が感覚的に感じる上昇幅と平均値の上昇幅が食い違うことになり、何となく数字に騙されたような割り切れない気持ちを抱きがちです。
実際には元の給与が高い社員ほど高い賃上げ率にする上に厚く下に薄い賃上げをすることが多いでしょう。 そうすると図2.2.11以上に給与格差はひどくなり、大部分の社員の不満感が募るのも当然なわけです。 国民所得などでも全く同様であり、株価上昇だとか貿易黒字だとかいっても、もともと裕福な極一部の限られた人間だけが恩恵にあずかり、国民の大多数は相変らずウサギ小屋で毎日の生活とローンの支払いに汲々としているのが現実なのです。
……どうも、この手の話題になる貧乏人のビガミ根性がモロに出てしまっていけません。 話題を経済学から統計学に戻しましょう。
図2.2.11の給与分布は元のデータを対数変換したデータが正規分布をする対数正規分布(ジブラ分布、Gibrat's distribution)に近い分布です。 医学や薬学で扱うデータも近似的に対数正規分布をするものがあり、特に物質の濃度が関係する時は対数正規性が顕著になります。 そのため薬理学などでは薬物の用量データとして対数変換した対数用量y=log(用量)を用いるのが常識になっています。 その理由は、たいていの薬物は対数用量と薬理反応が正比例することが多く、その結果としてLD50などの用量データが対数正規性を持つからです。
このようなデータは対数変換してから平均値などを計算し、それを要約値として用いるのが理にかなっています。 ちなみに(1)で説明したように、データを対数変換してから平均値を計算し、それを指数変換して元のデータと同じ単位に戻した値は幾何平均値と一致します。 (注4)
しかし分布の形が対数正規分布に似ているからといって無闇に対数変換するのは問題です。 対数変換したデータは通常のデータとは意味が異なり、下手をすると科学的な解釈ができなくなってしまうからです。
例えば常用対数で変換したデータが薬剤投与前後で「1」増加したとします。 これは投与前値が1だったものは投与後は10になり、投与前値が10だったものは投与後は100になるということです。 したがって投与前値1のものが9増加して10になることと、投与前値10のものが90増加して100になることが医学的または薬学的に同じ意義を持たなければ、「対数変換したデータが1増加した」ということをまともに解釈できなくなってしまいます。 そしてその結果、対数変換したデータの平均値が要約値としての意味を失ってしまいます。 (注6)
そこでデータを順序尺度的に扱って、平均値の代りに中央値を、標準偏差の代わりに範囲を用いてデータを代表させることが考えられます。 中央値や範囲は対数変換したデータの平均値や標準偏差ほど理解しにくくはない上、データがどんな分布をしていても値があまり変化しません。 数学者はデータの分布状態が変わっても値が変わらない不変性または頑健性(robustness)を重んじるので、このような時は中央値を用いることを推奨します。
しかし要約値や代表値を決める時の最も重要なポイントは、データの分布状態ではなく科学的に最も意味があるのはどの要約値または代表値かということです。 そして結局のところ、それは科学的な評価指標として最適なのはどの要約値または代表値かということになります。 (注5)
例えば血圧が正常範囲の正常群と、血圧が少し高めの軽症高血圧群、血圧がもう少し高めの中症高血圧群、血圧がかなり高めの重症高血圧群があったとします。 高血圧に限らずどんな疾患でも、普通は正常群の人数が圧倒的に多く、軽症群、中症群、重症群になるにしたがって人数が減ります。 そのため正常群と高血圧群の両方を含んだ集団の血圧分布を描くと図2.2.12のような分布になります。
一見すると、この分布は対数正規分布のように見えます。 しかし実は4つの群の血圧分布は近似的に正規分布であるにもかかわらず、それらを合わせてしまったので分布の右裾が長くなり、対数正規分布のような形になっているのです。 医学分野で扱う対象はこのように大部分の正常群とごく少数の疾患群からなる集団のことが多く、それがデータの分布が対数正規分布と似た形になる原因のひとつと考えられます。
今、これらの集団に降圧剤を投与したところ、高血圧群だけ血圧が低下して図2.2.13のようになったとします。 この時、投与前後で大部分のデータは変化しないので平均値は低下するものの中央値は変化しません。 こんな場合、医学的に血圧は低下したと評価すべきでしょうか、それとも低下していないと評価すべきでしょうか? 言葉を変えれば降圧剤の効果を評価するのに適した評価指標は平均値でしょうか、それとも中央値でしょうか?
要約値の不変性を重んじる数学者なら、このような時は、
「分布状態が変化しても値が変わらない中央値の方が数学的に評価指標として適している。 したがって降圧剤の効果は無かった」
「投与前後の分布状態の変化を反映する平均値の方が医学的に評価指標として適している。 したがって降圧剤の効果があった」
このように平均値と中央値は数学的にも科学的にも意義の異なる指標です。 データが正規分布する時は両者が一致しますが、正規分布しない時は一致するとは限りません。 そしてデータが正規分布しない時でも中心極限定理によって標本平均値は近似的に正規分布します。
標本中央値も、一応、中心極限定理が成り立ちます。 しかし標本中央値の標準偏差つまり標準誤差は、標本平均値と違って母集団のデータの分布状態によって変化します。 そのため中央値を境界値として利用する中央値検定という手法はありますが、中央値そのものを検定したり区間推定したりする普遍的な手法はありません。 (→付録2 中心極限定理のシミュレーション−平均値と中央値、3.4 2標本の計数値 (1)順序尺度(順序データ) 2)データに対応がない場合 ○中央値検定)
その上、標本平均値は母平均値に関する全ての情報を持っている十分統計量(sufficient statistic)ですが、標本中央値は十分統計量ではありません。 この十分統計量という概念は統計学の基本的な概念であり、要約値を選択する時の重要なポイントです。 したがって中央値は情報が少なく、しかも母集団のデータの分布状態によって標本中央値の標準誤差が変わってしまうので、実は母集団のデータの分布状態が不明の時の評価指標にはあまり適していないのです。 (注5)
そして平均値と中央値に限らず評価指標に適した要約値や代表値を決める時に最も重要なのは科学的な判断であり、データの分布状態に関する数学的な判断は二の次であるべきです。
実際の級間は、これらの式によって求められた値に近くて区切りの良い値を選びます。
確率変数xの行動を規定する関数を確率密度関数(pdf:probability density function)または頻度関数(frequency function)と呼び、f(x)と書きます。 これに対して密度関数を累積(積分)したものを分布関数(df:distribution function)または累積分布関数(cdf:cumulative distribution function)呼び、F(x)と書きます。 例えば正規分布の場合は次のようになります。
F(x)に例数nを掛けるとデータが正規分布する時の理論的累積度数分布になります。 しかしf(x)に例数nを掛けたものは級間が1σの時の理論的度数分布になり、実際の度数分布と比べるには都合の悪い時があります。 そこで級間hとF(x)を用いて次のように理論度数を計算し、それによって級間がhの時の理論的度数分布を描くことができます。
また第1章の検定の手順で説明したように、検定における有意確率p値もF(x)を利用して計算します。 我々には馴染みが薄いのですが、統計学上はf(x)よりもF(x)の方が重要なのです。 (→1.5 有意性検定の考え方、付録1 各種の確率分布)
中央値は最小値や最大値のような極値(extreme value)の一種ですから、標本中央値は次のような極値分布((extreme value distribution)をします。
標本中央値の確率密度関数をテーラー展開すると正規分布に近似するので、標本中央値にも中心極限定理が成り立ちます。 ただし標本中央値の分散は次のように母中央値の確率密度に依存します。 そのため標本平均と違って標準誤差が母集団のデータの分布状態に依存するという少々厄介な特徴があります。 (→付録2 中心極限定理のシミュレーション−平均値と中央値)
標準誤差が母集団のデータの分布状態に依存するということは、検定や推定によって標本中央値から母中央値を推測するには母集団のデータの分布状態を知る必要があるということです。 そのため平均値と違って中央値そのものを検定したり、推定したりする普遍的で精度の高い手法は存在しません。
また中央絶対偏差MADは次のような値になります。
標準正規分布N(0,12)において、下側確率が0.75になる時の正規偏位(NED:normal deviate)zは0.67449です。 そこでxが正規分布N(μ,σ2)に従う時、MADを0.67449で割った値は正規偏位z=1の時の偏差つまり標準偏差に相当します。 これをMADNと書き、標準偏差の不偏推定量として利用することがあります。
実際のデータは連続分布ではなく離散分布になるので、パーセンタイル値の公式は次のようになります。
ところがこの公式で計算した25%タイル値と75%タイル値は四分位点とは異なる時があります。 それはデータが離散分布であり、ちょうどパーセンタイル値と一致する値が存在しない時があるからです。 そのため離散分布の時の四分位点は考え方によって色々な計算式があります。 そのうち代表的な計算式は次のようなものです。
例えばデータが5個あり、それらがx1=10、x2=11、x3=12、x4=13、x5=14だったとします。 この時のパーセンタイル値と四分位点を上記の公式によって計算すると次のようになります。
図2.2.14を見ると、それぞれの値の特徴がわかると思います。 パーセンタイル値は累積度数が0である点を仮想的にx0=-∞と考え、x0〜x5までの累積度数分布を折れ線で近似して、その近似曲線について25%タイル、50%タイル、75%タイルを計算した値になります。 そのためそれぞれの値は四分位点とは一致しません。
第1の公式で計算した四分位点はx1〜x5の範囲を4分割して四分位点を計算した値になります。 第2の公式で計算した四分位点はx0=-∞とx6=+∞という値を仮想的に考え、x0〜x6の範囲を4分割して四分位点を計算した値になります。 第3の公式で計算した四分位点は、まずx1〜x5の中央値を計算してQ2とし、その後でx1〜Q2とQ2〜x5の中央値を計算した値になります。
3つの公式で計算した四分位点はQ2だけは中央値と一致しますが、それ以外の値は一致するとは限りません。 この例では第1の公式と第3の公式で計算した値はたまたま一致していますが、必ず一致するとは限りません。 個人的には第1の公式で計算した値が最も妥当だと思います。
xの平均をμx、中央値をμx'、幾何平均をμx*、分散をσx2、変動係数をCVxとすると、これらのパラメターとyのパラメターの間には次のような関係があります。
ここでexの級数展開による近似式より、CVx≪1の時は次のように近似できます。
y''=log(x)と常用対数を用いた時は次のようになるので注意が必要です。
原理的には変動係数が一定のデータすなわち比例尺度のデータは対数正規分布をし、標準偏差が一定のデータすなわち間隔尺度のデータは通常の正規分布をします。 (→2.5 標準誤差・標準偏差・変動係数・偏り、付録1 各種の確率分布)
そのため多くの統計手法は要約値について検定や推定を行い、代表値について検定や推定を行うことはほとんどありません。 例えば本文中で説明したように中央値そのものを検定したり推定したりする普遍的な手法はありません。
また十分統計量の厳密な定義は次のとおりです。 確率変数x1、…、xnの同時確率密度関数をf(x1,…,xn)とし、母数をθ、統計量をT=T(x1,…,xn)とすると、次のようにf(x1,…,xn)をθおよびTに関係した部分と無関係な部分に分解できる時、Tはθの十分統計量になります。
例えばx1、…、xnが正規分布N(μ,σ2)に従う時、f(x1,…,xn)を次のように分解できます。
この式からxiの合計T=∑xiは母平均値μの十分統計量になることがわかります。 したがって標本平均値mx=T/nも母平均値μの十分統計量になります。 また上式の1行目の式はσ2と∑xi2に関係しています。 そこでこの式をg(∑xi2;σ2)と考え、h(x1,…,xn)=exp(0)=1とすると、平方合計∑xi2は母分散σ2の十分統計量になります。 したがって平方和∑(xi-mx)2と不偏分散∑(xi-mx)2/(n-1)も母分散σ2の十分統計量になります。
ちなみに評価指標は分野によって様々なものが用いられます。 例えば陸上や水泳などの競技では複数回の試技記録の中の最大値を評価指標にします。 また体操などの採点競技では、5名の審判の採点のうち最低値と最大値を除外して残りの3名の採点の平均値を評価指標にすることが多いようです。
そしてマスコミは、ある選手の最高記録または最高順位によってその選手の実力を評価するのが常です。 しかし選手の実力の評価指標としては平均値の方が適しているので、マスコミの評価と選手の実力が食い違うことがよくあります。 またマスコミでは選手の容姿も重要な評価指標になるので、マスコミ人気と実力が一致しないことが多々あったりします。
この式を利用して次のような変数変換が工夫されています。
また正のデータを正規分布に近似させるための変数変換としてボックス・コックス(Box-Cox)変換という変換法があります。 この変換法はベキ数λと平均値μと分散σ2を利用するのでLMS法と呼ばれることもあります。
ボックス(George Box、フィッシャーの娘婿)とコックス(David Cox)はどちらもイギリスの統計学者であり、彼等の統計学に対する考え方は少し異なっていました。 しかしイギリスでは「ボックスとコックス」は「1つの役割を2人の役者が交代で演じる」という意味の演劇用語だったので、2人はそれにちなんで一緒に論文を書くことにしました。 その結果、1964年に王立統計学会誌に発表された論文がこのボックス・コックス変換に関する論文でした。
これは、理論物理学分野で有名な「アルファ・ベータ・ガンマ理論」のエピソード――ジョージ・ガモフが、指導していたラルフ・アルファーの博士学位論文に、シャレのために友人のハンス・ベーテの名前を強引に加えた――を連想させるダジャレの効いたエピソードです。