統計学入門−第2章

データに統計手法を適用する場合、まず始めにデータの分布状態を目で見てから適当な手法を選択します。その時、データが1項目の時はたいてい度数分布図(frequency distribution)を描きます。ただし度数分布図は直観的にわかりやすいものの、例数が少ないとあまり見栄えのしないものになりがちです。また度数を数える区間の幅や区間の数——これを級間と階級数といいます——によって分布の形が変わってしまうので、データの分布状態を把握しにくい時があります。

そこでデータを小さい順に累積した累積度数分布図(cumulative frequency distribution)を併用すると便利です。累積度数分布図は単調増加の性質を持つシグモイド曲線(sigmoid curve、S字状曲線)になり、慣れないとなかなか理解しにくいと思います。でも例数が少なくても一応の格好がとれ、データを区間に区切る必要がないので分布の形が一定になります。 _(注1)

データが対応のある2項目の時はそれぞれの項目をX軸とY軸にし、ペアになった個々のデータをプロットした散布図(scatter diagram)または散点図と呼ばれる図を描きます。その際、なるべく基本的な項目つまり原因項目をX軸にし、その項目によって影響を受けると思われる項目つまり結果項目をY軸にします。

(2) 位置母数と尺度母数

次にこれらの図を眺めながら、データ内容を把握するのに最適な要約値や代表値を検討します。母集団の要約値や代表値を母数といい、平均値のように分布の中心位置を表す母数を位置母数(location parameter)、標準偏差のように分布のバラツキ具合を表す母数を尺度母数(scale parameter)といいます。

(3) 箱ヒゲプロット

主要な位置母数と尺度母数をひとつのグラフに描き、しかもデータの分布状態まである程度把握できるようにしようという非常に欲張りな図をチューキー(John Wilder Tukey)が考案しています。それが図2.2.10の右側に描いた箱ヒゲプロット(box and whisker plot)または箱ヒゲ図と呼ばれるものです。この図は次のような手順で描きます。

Q₁、Q₂、Q₃を四分位点(quartile)またはヒンジ(hinge)といいます。これらの値はデータを小さい順に累積していった時、25％が含まれる値、50％が含まれる値つまり中央値、そして75％が含まれる値になります。そしてQ₁からQ₃までの範囲をヒンジ散布度またはIQR(interquartile range)といい、これが箱の長さhになります。図2.2.10には参考のために中央に個々のデータをプロットし、左側に一般的な平均値±標準偏差のプロットを描いています。これらのプロットと箱ヒゲプロットを比べると、箱ヒゲプロットの特徴がよくわかると思います。 _(注3)

データが正規分布する時、平均値±標準偏差の間に約68％のデータが含まれます。そして箱ヒゲプロットでは箱の中に50％のデータが含まれるので、これはほぼ平均値±0.67×標準偏差に相当します。さらに内堀の間、つまり下のヒゲから上のヒゲまでの間には約99％のデータが含まれます。図2.2.10では平均値±標準偏差の幅と内堀の幅がほぼ等しくなっています。しかしこれはデータ数が少ないためであり、データ数が多くなると内堀の幅がもっと広くなります。ヒゲの長さを1.5hではなく1hにすると内堀の間には約96％のデータが含まれ、これはほぼ平均値±2×標準偏差に相当します。そのためヒゲの長さを1hにする方法もあります。

分布の特徴を最大値、最小値、中央値(Q₂)、Q₁、Q₃の5つの値で要約することを五数要約といいます。箱ヒゲプロットは五数要約を具体的にグラフ表示した図であり、うまく利用すれば大変有用です。しかしデータが多いと外れ値が増えたり、ヒゲが非常に長くなったりして、あまり実用的ではなくなってしまいます。そのため箱ヒゲプロットはデータが比較的少ない時に用いると効果的です。また箱ヒゲプロットは要約値をグラフ表示することが主目的ですから、データの分布状態をグラフ表示することが主目的の時は度数分布か累積度数分布を用いる方が便利です。

(4) 対数正規分布

正規分布では平均値=中央値=最頻値であり、平均±2標準偏差の間に約95％のデータが含まれます。そこで分布が近似的に正規分布とみなせる時は、平均値と標準偏差によってデータを要約するのが普通です。しかし分布が正規分布と極端に異なっている時は3つの位置母数が一致するとは限らず、要約値としてどれを用いるべきか検討が必要です。

例えば普通の会社における給与分布は、たいてい図2.2.11のような歪んだ分布をします。このような分布では3つの位置母数が一致するとは限りません。そして給与がこのような分布をしている時、仮に全社員一律5％の賃上げをしたとします。すると実際の賃上げ金額は元の給与が高い社員ほど高くなるので、賃上げ後の給与分布は歪みがさらに大きくなり図2.2.11の破線のようになります。

その結果、平均給与はある程度上昇したように見えますが、中央値と最頻値はあまり変わらず、大部分の社員の給与は平均給与の上昇ほどは上昇してはいないことになります。そのため大部分の社員が感覚的に感じる上昇幅と平均値の上昇幅が食い違うことになり、何となく数字に騙されたような割り切れない気持ちを抱きがちです。

実際には元の給与が高い社員ほど高い賃上げ率にする上に厚く下に薄い賃上げをすることが多いでしょう。そうすると図2.2.11以上に給与格差はひどくなり、大部分の社員の不満感が募るのも当然なわけです。国民所得などでも全く同様であり、株価上昇だとか貿易黒字だとかいっても、もともと裕福な極一部の限られた人間だけが恩恵にあずかり、国民の大多数は相変らずウサギ小屋で毎日の生活とローンの支払いに汲々としているのが現実なのです。

……どうも、この手の話題になる貧乏人のビガミ根性がモロに出てしまっていけません。話題を経済学から統計学に戻しましょう。

図2.2.11の給与分布は元のデータを対数変換したデータが正規分布をする対数正規分布(ジブラ分布、Gibrat's distribution)に近い分布です。医学や薬学で扱うデータも近似的に対数正規分布をするものがあり、特に物質の濃度が関係する時は対数正規性が顕著になります。そのため薬理学などでは薬物の用量データとして対数変換した対数用量y=log(用量)を用いるのが常識になっています。その理由は、たいていの薬物は対数用量と薬理反応が正比例することが多く、その結果としてLD₅₀などの用量データが対数正規性を持つからです。

このようなデータは対数変換してから平均値などを計算し、それを要約値として用いるのが理にかなっています。ちなみに(1)で説明したように、データを対数変換してから平均値を計算し、それを指数変換して元のデータと同じ単位に戻した値は幾何平均値と一致します。 _(注4)

しかし分布の形が対数正規分布に似ているからといって無闇に対数変換するのは問題です。対数変換したデータは通常のデータとは意味が異なり、下手をすると科学的な解釈ができなくなってしまうからです。

例えば常用対数で変換したデータが薬剤投与前後で「1」増加したとします。これは投与前値が1だったものは投与後は10になり、投与前値が10だったものは投与後は100になるということです。したがって投与前値1のものが9増加して10になることと、投与前値10のものが90増加して100になることが医学的または薬学的に同じ意義を持たなければ、「対数変換したデータが1増加した」ということをまともに解釈できなくなってしまいます。そしてその結果、対数変換したデータの平均値が要約値としての意味を失ってしまいます。 _(注6)

(5) 要約値と評価指標

そこでデータを順序尺度的に扱って、平均値の代りに中央値を、標準偏差の代わりに範囲を用いてデータを代表させることが考えられます。中央値や範囲は対数変換したデータの平均値や標準偏差ほど理解しにくくはない上、データがどんな分布をしていても値があまり変化しません。数学者はデータの分布状態が変わっても値が変わらない不変性または頑健性(robustness)を重んじるので、このような時は中央値を用いることを推奨します。

しかし要約値や代表値を決める時の最も重要なポイントは、データの分布状態ではなく科学的に最も意味があるのはどの要約値または代表値かということです。そして結局のところ、それは科学的な評価指標として最適なのはどの要約値または代表値かということになります。 _(注5)

例えば血圧が正常範囲の正常群と、血圧が少し高めの軽症高血圧群、血圧がもう少し高めの中症高血圧群、血圧がかなり高めの重症高血圧群があったとします。高血圧に限らずどんな疾患でも、普通は正常群の人数が圧倒的に多く、軽症群、中症群、重症群になるにしたがって人数が減ります。そのため正常群と高血圧群の両方を含んだ集団の血圧分布を描くと図2.2.12のような分布になります。

一見すると、この分布は対数正規分布のように見えます。しかし実は4つの群の血圧分布は近似的に正規分布であるにもかかわらず、それらを合わせてしまったので分布の右裾が長くなり、対数正規分布のような形になっているのです。医学分野で扱う対象はこのように大部分の正常群とごく少数の疾患群からなる集団のことが多く、それがデータの分布が対数正規分布と似た形になる原因のひとつと考えられます。

今、これらの集団に降圧剤を投与したところ、高血圧群だけ血圧が低下して図2.2.13のようになったとします。この時、投与前後で大部分のデータは変化しないので平均値は低下するものの中央値は変化しません。こんな場合、医学的に血圧は低下したと評価すべきでしょうか、それとも低下していないと評価すべきでしょうか？言葉を変えれば降圧剤の効果を評価するのに適した評価指標は平均値でしょうか、それとも中央値でしょうか？

「分布状態が変化しても値が変わらない中央値の方が数学的に評価指標として適している。したがって降圧剤の効果は無かった」

と主張するかもしれません。しかし科学的な意義を重んじる医学研究者なら、

「投与前後の分布状態の変化を反映する平均値の方が医学的に評価指標として適している。したがって降圧剤の効果があった」

このように平均値と中央値は数学的にも科学的にも意義の異なる指標です。データが正規分布する時は両者が一致しますが、正規分布しない時は一致するとは限りません。そしてデータが正規分布しない時でも中心極限定理によって標本平均値は近似的に正規分布します。

その上、標本平均値は母平均値に関する全ての情報を持っている十分統計量(sufficient statistic)ですが、標本中央値は十分統計量ではありません。この十分統計量という概念は統計学の基本的な概念であり、要約値を選択する時の重要なポイントです。したがって中央値は情報が少なく、しかも母集団のデータの分布状態によって標本中央値の標準誤差が変わってしまうので、実は母集団のデータの分布状態が不明の時の評価指標にはあまり適していないのです。 _(注5)

そして平均値と中央値に限らず評価指標に適した要約値や代表値を決める時に最も重要なのは科学的な判断であり、データの分布状態に関する数学的な判断は二の次であるべきです。

(注1)　度数分布を描く時の一般的規準が次のように色々と提唱されています。

(1) 級間ｈと階級数nの規準

シャリエ(Charlier)：
フィッシャー：
スタージェス(Sturges)：データ数Nから次のように求める。

実際の級間は、これらの式によって求められた値に近くて区切りの良い値を選びます。

(2) 注意点

級間hは区切りの良い値にし、特殊な場合を除いて等間隔にする。
階級の中央の値を級心といい、級心が見やすい値になるように階級の上限と下限を決める。
データにたびたび出てくる値は階級の境界値にはせず、級心になるようにする。
階級の上限と次の階級の下限は連続し、境界値はなるべくデータに出てこないような値が望ましい。

確率変数xの行動を規定する関数を確率密度関数(pdf：probability density function)または頻度関数(frequency function)と呼び、f(x)と書きます。これに対して密度関数を累積(積分)したものを分布関数(df：distribution function)または累積分布関数(cdf：cumulative distribution function)呼び、F(x)と書きます。例えば正規分布の場合は次のようになります。

確率密度関数(pdf)：

分布関数(df)：

F(x)に例数nを掛けるとデータが正規分布する時の理論的累積度数分布になります。しかしf(x)に例数nを掛けたものは級間が1σの時の理論的度数分布になり、実際の度数分布と比べるには都合の悪い時があります。そこで級間hとF(x)を用いて次のように理論度数を計算し、それによって級間がhの時の理論的度数分布を描くことができます。

データの理論度数：

また第1章の検定の手順で説明したように、検定における有意確率p値もF(x)を利用して計算します。我々には馴染みが薄いのですが、統計学上はf(x)よりもF(x)の方が重要なのです。 (→1.5 有意性検定の考え方、付録1 各種の確率分布)

(注2)　変数xの確率密度関数をf(x)、確率分布をF(x)とすると、連続分布における中央値は次のような式を満足するμ'と定義されています。

中央値は最小値や最大値のような極値(extreme value)の一種ですから、標本中央値は次のような極値分布((extreme value distribution)をします。

確率密度関数：

　f(x)：母集団のデータxの確率密度関数　F(x)：母集団のデータxの確率分布関数
単純化のために標本数nを奇数としてn = 2m + 1とすると、標本中央値はx_m+1になる。
標本中央値の確率密度関数：

標本中央値の確率密度関数をテーラー展開すると正規分布に近似するので、標本中央値にも中心極限定理が成り立ちます。ただし標本中央値の分散は次のように母中央値の確率密度に依存します。そのため標本平均と違って標準誤差が母集団のデータの分布状態に依存するという少々厄介な特徴があります。 (→付録2　中心極限定理のシミュレーション−平均値と中央値)

標本中央値の分散：

　V(x)：母分散　μ'：母中央値
※母集団のデータが標準正規分布N(0,1²)の時：

標準誤差が母集団のデータの分布状態に依存するということは、検定や推定によって標本中央値から母中央値を推測するには母集団のデータの分布状態を知る必要があるということです。そのため平均値と違って中央値そのものを検定したり、推定したりする普遍的で精度の高い手法は存在しません。

また中央絶対偏差MADは次のような値になります。

標準正規分布N(0,1²)において、下側確率が0.75になる時の正規偏位(NED：normal deviate)zは0.67449です。そこでxが正規分布N(μ,σ²)に従う時、MADを0.67449で割った値は正規偏位z=1の時の偏差つまり標準偏差に相当します。これをMADNと書き、標準偏差の不偏推定量として利用することがあります。

(注3)　四分位点の公式は次のとおりです。

… データを1：3に分ける位置の値 = 25％タイル値

… データを1：1に分ける位置の値 = 50％タイル値 = 中央値

… データを3：1に分ける位置の値 = 75％タイル値
x_Q1、x_Q2、x_Q3：第1四分位点、第2四分位点、第3四分位点がある階級の下限値
f_Q1、f_Q2、f_Q3：第1四分位点、第2四分位点、第3四分位点がある階級の度数
F_Q1、F_Q2、F_Q3：第1四分位点、第2四分位点、第3四分位点がある階級の累積度数
h：階級の幅　　n：標本数

実際のデータは連続分布ではなく離散分布になるので、パーセンタイル値の公式は次のようになります。

x_p = x_i + (x_i+1 - x_i)(pn - i)
p：パーセンタイルの値　　n：標本数　　i = int(pn)：切り捨てによる整数化

ところがこの公式で計算した25％タイル値と75％タイル値は四分位点とは異なる時があります。それはデータが離散分布であり、ちょうどパーセンタイル値と一致する値が存在しない時があるからです。そのため離散分布の時の四分位点は考え方によって色々な計算式があります。そのうち代表的な計算式は次のようなものです。

○第1の公式：

(Q₁：k = 1、Q₂：k = 2、Q₃：k = 3)

○第2の公式：

(Q₁：k = 1、Q₂：k = 2、Q₃：k = 3)

○第3の公式：Q₁…最小値からQ₂までの中央値　　Q₂…全データの中央値　　Q₃…Q₂から最大値までの中央値

例えばデータが5個あり、それらがx₁=10、x₂=11、x₃=12、x₄=13、x₅=14だったとします。この時のパーセンタイル値と四分位点を上記の公式によって計算すると次のようになります。

○パーセンタイル値
i = int(0.25×5) = int(1.25) = 1 　　x_0.25 = x₁ + (x₂ - x₁)(1.25 - 1) = 10 + (11 - 10)×0.25 = 10.25
i = int(0.5×5) = int(2.5) = 2 　　x_0.5 = x₂ + (x₃ - x₂)(2.5 - 2) = 11 + (12 - 11)×0.5 = 11.5
i = int(0.75×5) = int(3.75) = 3 　　x_0.75 = x₃ + (x₄ - x₃)(3.75 - 3) = 12 + (13 - 12)×0.75 = 12.75
○第1の公式

　　Q₁ = x₂ + (x₃ - x₂)×(2 - 2) = 11 + (12 - 11)×0 = 11

　　Q₂ = x₃ + (x₄ - x₃)×(3 - 3)=12 + (13 - 12)×0 = 12

　　Q₃ = x₄ + (x₅ - x₄)×(4 - 4)=13 + (14 - 13)×0 = 13
○第2の公式

　　Q₁ = x₁ + (x₂ - x₁)×(1.5 - 1)=10 + (11 - 10)×0.5 = 10.5

　　Q₂ = x₃ + (x₄ - x₃)×(3 - 3)=12 + (13 - 12)×0 = 12

　　Q₃ = x₄ + (x₅ - x₄)×(4.5 - 4)=13 + (14 - 13)×0.5 = 13.5
○第3の公式：Q₁ = x₂ = 11 　　Q₂ = x₃ = 12 　　Q₃ = x₄ = 13

図2.2.14を見ると、それぞれの値の特徴がわかると思います。パーセンタイル値は累積度数が0である点を仮想的にx₀=-∞と考え、x₀〜x₅までの累積度数分布を折れ線で近似して、その近似曲線について25％タイル、50％タイル、75％タイルを計算した値になります。そのためそれぞれの値は四分位点とは一致しません。

第1の公式で計算した四分位点はx₁〜x₅の範囲を4分割して四分位点を計算した値になります。第2の公式で計算した四分位点はx₀=-∞とx₆=+∞という値を仮想的に考え、x₀〜x₆の範囲を4分割して四分位点を計算した値になります。第3の公式で計算した四分位点は、まずx₁〜x₅の中央値を計算してQ₂とし、その後でx₁〜Q₂とQ₂〜x₅の中央値を計算した値になります。

3つの公式で計算した四分位点はQ₂だけは中央値と一致しますが、それ以外の値は一致するとは限りません。この例では第1の公式と第3の公式で計算した値はたまたま一致していますが、必ず一致するとは限りません。個人的には第1の公式で計算した値が最も妥当だと思います。

(注4)　対数正規分布はデータxを対数変換したy=ln(x)が正規分布するもので、yの平均をμ_y、分散をσ_y²とすると、その確率密度関数f(x)は次のようになります。

確率密度関数：

(-∞ ＜ y=ln(x) ＜ ∞、0 ＜ x ＜ ∞)

xの平均をμ_x、中央値をμ_x'、幾何平均をμ_x^*、分散をσ_x²、変動係数をCV_xとすると、これらのパラメターとyのパラメターの間には次のような関係があります。

σ_y² = ln(CV_x² + 1) 　　

(定義) 　　

ここでe^xの級数展開による近似式より、CV_x≪1の時は次のように近似できます。

→ |x| ≪ 1の時 e^x ≒ 1+x
CV_x² = exp(σ_y²) - 1 ≒ (1 + σ_y²) - 1 = σ_y²
∴σ_y ≒ CV_x

y''=log(x)と常用対数を用いた時は次のようになるので注意が必要です。

y = ln(10)y'' ≒ 2.3026y'' 　　μ_y = ln(10)μ_y'' ≒ 2.3026μ_y''
σ_y² = {ln(10)σy''}² 　　σ_y = ln(10)σ_y'' ≒ 2.3026σ_y''

原理的には変動係数が一定のデータすなわち比例尺度のデータは対数正規分布をし、標準偏差が一定のデータすなわち間隔尺度のデータは通常の正規分布をします。 (→2.5 標準誤差・標準偏差・変動係数・偏り、付録1　各種の確率分布)

(注5)　第1章で説明したように、ここでは平均値のように複数のデータを四則演算によって要約した統計量を要約値と呼び、そのような要約をしない中央値のようにポイント的な統計量を代表値と呼ぶことにします。そして要約値は中心極限定理によって近似的に正規分布するのに対して、代表値は中心極限定理が成り立つとは限らず、正規分布するとは限りません。 (→1.3 データの要約方法 (注7))

そのため多くの統計手法は要約値について検定や推定を行い、代表値について検定や推定を行うことはほとんどありません。例えば本文中で説明したように中央値そのものを検定したり推定したりする普遍的な手法はありません。

また十分統計量の厳密な定義は次のとおりです。確率変数x₁、…、x_nの同時確率密度関数をf(x₁,…,x_n)とし、母数をθ、統計量をT=T(x₁,…,x_n)とすると、次のようにf(x₁,…,x_n)をθおよびTに関係した部分と無関係な部分に分解できる時、Tはθの十分統計量になります。

f(x₁,…,x_n) = g(T(x₁,…,x_n);θ)h(x₁,…,x_n)

例えばx₁、…、x_nが正規分布N(μ,σ²)に従う時、f(x₁,…,x_n)を次のように分解できます。

この式からx_iの合計T=∑x_iは母平均値μの十分統計量になることがわかります。したがって標本平均値m_x=T/nも母平均値μの十分統計量になります。また上式の1行目の式はσ²と∑x_i²に関係しています。そこでこの式をg(∑x_i²;σ²)と考え、h(x₁,…,x_n)=exp(0)=1とすると、平方合計∑x_i²は母分散σ²の十分統計量になります。したがって平方和∑(x_i-m_x)²と不偏分散∑(x_i-m_x)²/(n-1)も母分散σ²の十分統計量になります。

ちなみに評価指標は分野によって様々なものが用いられます。例えば陸上や水泳などの競技では複数回の試技記録の中の最大値を評価指標にします。また体操などの採点競技では、5名の審判の採点のうち最低値と最大値を除外して残りの3名の採点の平均値を評価指標にすることが多いようです。

そしてマスコミは、ある選手の最高記録または最高順位によってその選手の実力を評価するのが常です。しかし選手の実力の評価指標としては平均値の方が適しているので、マスコミの評価と選手の実力が食い違うことがよくあります。またマスコミでは選手の容姿も重要な評価指標になるので、マスコミ人気と実力が一致しないことが多々あったりします。

(注6)　対数正規分布のような非対称分布はしばしば分散が平均値によって変化する、つまり分散が平均値の関数になりがちです。そうすると統計処理をする時に何かと不便です。そこで分散が平均値と無関係になるような変数変換が色々と工夫されています。一般に変数xの分散σ²が平均値μの関数g(μ)で表される時、次のような関係が成り立ちます。

と置くと σ_z² ≒ {φ'(μ)}²g(μ)

この式を利用して次のような変数変換が工夫されています。

○割合の分布：一定の割合で出現する現象 … フィッシャー(Fisher)の逆正弦変換

　(0 ≦ x ≦ 1) 　　r：出現例数　　n：全例数

　(ラジアン単位) 　　

特に二項分布は次のようになる。
σ²_x = g(x) = nx(1 - x) 　　

○ポアソン分布
σ²_x = g(x) = x 　　

または

○相関係数の分布 … フィッシャーのz変換(z-transformation)

また正のデータを正規分布に近似させるための変数変換としてボックス・コックス(Box-Cox)変換という変換法があります。この変換法はベキ数λと平均値μと分散σ²を利用するのでLMS法と呼ばれることもあります。

※λは最尤法によって求める。 (→10.3 ロジスティック回帰分析の計算方法 (注2))
対数尤度関数：

として、次の対数尤度関数を最大化する時のλが最尤解

ボックス(George Box、フィッシャーの娘婿)とコックス(David Cox)はどちらもイギリスの統計学者であり、彼等の統計学に対する考え方は少し異なっていました。しかしイギリスでは「ボックスとコックス」は「1つの役割を2人の役者が交代で演じる」という意味の演劇用語だったので、2人はそれにちなんで一緒に論文を書くことにしました。その結果、1964年に王立統計学会誌に発表された論文がこのボックス・コックス変換に関する論文でした。

これは、理論物理学分野で有名な「アルファ・ベータ・ガンマ理論」のエピソード――ジョージ・ガモフが、指導していたラルフ・アルファーの博士学位論文に、シャレのために友人のハンス・ベーテの名前を強引に加えた――を連想させるダジャレの効いたエピソードです。

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

2.2 データの分布と統計手法

(1) 度数分布図と累積度数分布図