玄関雑学の部屋雑学コーナー統計学入門

2.3 パラメトリック手法とノンパラメトリック手法

(1) ノンパラメトリック手法

データが特定の分布——例えば正規分布——をしていることを前提にせず、データがどんな分布をしていても値があまり変化しない要約値に関する統計手法をノンパラメトリック手法(nonparametric procedure)または分布によらない手法(distribution-free method)といいます。 それに対してデータが特定の分布をしていることを前提にし、データの分布状態によって値が変化する要約値に関する統計手法をパラメトリック手法(parametric procedure)といいます。 パラメトリックとは母数(パラメーター)に依存しているという意味であり、パラメトリック手法とはデータの分布状態を決定する母数に依存している統計手法ということになります。 (注1)

ノンパラメトリック手法、略してノンパラ手法は次のような特徴を持っています。

  1. データの分布についての要求が緩く、どんな分布をしていても結果があまり左右されない頑健性(robustness)の大きい手法である。
  2. 精度は若干悪いが計算が速くて簡単な簡便法(quick and dirty method)である。

コンピュータを手軽に利用できる現在では計算の簡便性はそれほど重要ではなく、ノンパラ手法の利点は主に頑健性にあるといって良いでしょう。 実際、コンピュータを用いるとノンパラ手法よりもパラメトリック手法の方がむしろ簡単に計算できます。

通常、計量尺度のデータは要約値として平均値を用いるのでパラメトリック手法を適用します。 ところが順序尺度のデータは第1節で説明したように四則演算が行えず、平均値が計算できません。 そのため普通は要約値として順位平均値を用い、ノンパラ手法を適用します。

また名義尺度のデータは平均値が計算できないだけでなく、順位平均値も求められません。 そこで普通は要約値として出現率を用います。 出現率はデータの分布状態によって値があまり変化しない要約値です。 しかし出現率を用いた統計手法の中にはデータが特定の分布をしていることを前提にしたもの――例えば二項分布を前提にした二項検定――があります。 そのため全てが厳密な意味でノンパラ手法というわけではありませんが、たいていはノンパラ手法に相当すると考えて良いでしょう。

(2) ノンパラメトリック手法の特徴

ノンパラ手法はデータがどんな分布をしていても結果があまり変わらないことが特徴です。 しかしそれは結果の精度が高いからではなく、もともと精度の低いラフな手法なのでデータがどんな分布をしていてもそれが結果にあまり反映されない、つまりデータの分布状態を検出できないほどラフで精度が低い手法であるということです。

それに対してパラメトリック手法は精度の高い手法なのでデータの分布状態を敏感に検出し、それを結果に反映します。 したがってデータの分布が正規分布からどの程度ずれているかがわかればパラメトリック手法の結果に含まれている誤差の大きさを評価することができ、うまくいけば正しい結果に修正することができます。 しかしノンパラ手法の結果に含まれている誤差の大きさを評価することは難しく、正しい結果を求めることはほとんど不可能です。 (→5.3 計数値の相関 図5.3.1)

またノンパラ手法は正規性を利用していないと思われていますが、実際にはほとんどの手法が正規性を利用しています。 ノンパラ手法は平均値の代わりに順位平均値や出現率を利用して検定します。 その際、平均値の検定と同じようにそれらの要約値が中心極限定理によって近似的に正規分布する性質を利用しています。

平均値も順位平均値も出現率も、母集団のデータが正規分布していると正確に正規分布します。 しかし順位平均値の母集団は順位データであり、一様分布ですから正規分布しません。 そのため平均値が正確に正規分布することはあっても、順位平均値が正確に正規分布することは原理的に有り得ません

しかしノンパラ手法はラフな手法なので、平均値のように母集団のデータが正規分布するかどうかをチェックせず、例数が多かろうが少なかろうが、強引に順位平均値が正規分布すると仮定して検定をしています。 つまりどうせいい加減でラフな手法なのだから、データがどんな分布をしていようと、例数が少なかろうと、委細構わず強引に正規分布すると考えてしまおうというわけです。 (→3.2 1標本の計数値3.4 2標本の計数値)

(3) パラメトリック手法とノンパラメトリック手法の使い分け

統計学の解説書などによく次のようなことが書かれていて、これをそのまま盲信している人がいると思います。

「たとえ計量尺度のデータでも正規分布しない時とかデータ数が少ない時はt検定などのパラメトリック手法は適用できないので、順位和検定などのノンパラ手法を適用しなければならない!」

でもこれは統計手法と要約値の科学的な意義を無視した乱暴な主張ですから、こんな主張を鵜呑みにしてはいけません。 データがどんな分布をしていても中心極限定理によって標本平均値などの要約値は漸近的に正規分布をします。 そのためデータが正規分布しない時はパラメトリック手法が使えないわけではなく、ちゃんと使えます。 しかし検定の検出力が低くなったり信頼区間の幅が広くなったりする――つまり推定や検定の効率が悪くなることがあり、時にはノンパラ手法よりも悪くなったりするのです。 (→1.3 データの要約方法 (注7))

データが正規分布する時、通常はパラメトリック手法が最も効率的であり、ノンパラ手法はそれよりも効率が落ちます。 ところがデータが正規分布からずれるとデータのバラツキが大きくなることがあります。 パラメトリック手法はそれをきちんと反映するので効率が落ちます。 それに対してノンパラ手法はそれを反映しないので効率はほとんど悪くなりません。 そのため正規分布からのズレが極端に大きいと、時にはパラメリック手法の方がノンパラ手法よりも効率が悪くなったりします。 (注2)

そこで最初に書いたような極論が統計学の解説書に書かれたりするわけですが、本当は「パラメトリック手法の効率がノンパラ手法の効率よりも悪くなる時はノンパラ手法を使った方が効率的である」と書くのが正確です。 しかしこれは「天体望遠鏡よりも顕微鏡の方が倍率が高いので顕微鏡を使って天体観測をする」ようなものであり、的外れかつ科学的に非合理です。

パラメトリック手法とノンパラ手法は要約値が異なり、目的も異なる手法です。 例えば平均値と順位平均値と出現率は、それぞれ科学的な意義が異なる要約値です。 そのため平均値の推定・検定と、順位平均値の推定・検定と、出現率の推定・検定はそれぞれ目的が異なります。 そしてこれらの要約値の科学的意義と手法の目的がデータの分布状態によって変わることはありません。 さらに第2節で説明したように、評価指標として最適な要約値はあくまでも要約値の科学的な意義で選ぶべきです。 したがってデータの分布状態で評価指標を変える、つまりパラメトリック手法とノンパラ手法を使い分けるのは科学的に非合理です。

またデータ数が少ない時は中心極限定理による要約値の漸近的な正規近似が悪くなります。 そのため元のデータが正規分布からずれていると、要約値の分布と正規分布とのずれが比較的大きくなります。 そのため「データ数が少ない時は要約値が正規分布しないからノンパラ手法を適用すべきである」と短絡的に考えてしまいがちなのでしょう。 しかしノンパラ手法もたいていは順位平均値や出現率が中心極限定理によって近似的に正規分布する性質を利用しているので、データ数が少ない時はこれらの要約値の分布と正規分布のズレも比較的大きくなります。

そしてデータ数が多い時は評価指標として平均値が科学的に意義があるものの、データ数が少ない時は順位平均値の方が科学的に意義があるということは普通は考えられません。 たとえそのように考えられたとしても、評価指標を切り替えるデータ数を科学的かつ合理的に決定することは不可能でしょう。 したがってデータ数の多い少ないで評価指標を変える、つまりパラメトリック手法とノンパラ手法を使い分けるのも科学的に非合理です。

(4) 平均値と順位平均値

代表的なノンパラ手法であるウィルコクソンの2標本検定は、データに順位を付けて、2群の平均値の差の代わりに2群の順位平均値の差を検定する手法です。 そのため平均値の差の検定つまり2標本t検定の代わりにウィルコクソンの2標本検定を適用したということは、平均値の代わりに順位平均値を評価指標にしたことに他なりません。

これは例えばマラソンレースで、実際のタイムではなく順位で競技者の成績を評価するようなものです。 つまり1位と2位の差が1秒でも1時間でも成績は変わらないわけです。 マスコミのスポーツ報道ならこれでもいいでしょうが、競技者の実力を評価したい時はやはり順位よりもタイムで評価すべきでしょう。

また医学論文などで「データが正規分布しないのでウィルコクソンの2標本検定を用いた」と書いておきながら、平均値のグラフを描いたり、中央値とIQR(interquartile range)を表に記載することが多々あります。 これは完全な間違いです。 この間違いはウィルコクソンの2標本検定が平均値の検定または中央値の検定と誤解されていることに起因します。

平均値のグラフを描いたのなら、それは平均値を評価指標にしたということであり、平均値の推定と検定を行わなければ整合性が取れません。 また中央値を表に記載したのなら、それは中央値を評価指標にしたということであり、中央値の推定と検定を行わなければ整合性が取れません。 しかし中央値は中心極限定理によって近似的に正規分布するものの、分散がデータの分布状態に依存するという厄介な性質があります。 そのため中央値そのものを推定したり検定したりする普遍的な手法はありません。 ただし元のデータが正規分布する時は中央値の分散を近似的に求めることができるので、中央値の推定と検定を行うことができます。 しかし中央値を用いるのは元のデータが正規分布しないからこそなので、この推定と検定は無意味でしょう。 (→付録2 中心極限定理のシミュレーション−平均値と中央値)

また平均値と順位平均値は別々の情報を要約した値なので結果が矛盾する時があります。 例えば薬剤Aと薬剤Pの安全性をASTによって比較した試験で、図2.3.1のように薬剤投与後に薬剤P投与群は値が全く変わらず、変化量平均値は0だったとします。 それに対して薬剤A投与群はほぼ全例がわずかに低下したものの、1例だけが副作用で異常上昇し、変化量平均値が正の値になったとします。 この時、変化量に順位を付けて順位平均値を求めると、P群の順位平均値が4であるのに対してA群の順位平均値は3になり、P群よりも小さくなります。

その結果、変化量平均値を評価指標にして2標本t検定を適用した時はA群はP群よりも上昇したと評価されるのに対して、変化量の順位平均値を評価指標にしてウィルコクソンの2標本検定を適用するとA群はP群よりも低下したと評価され、結果が矛盾してしまいます。 つまりウィルコクソンの2標本検定ではASTが異常上昇した副作用が見逃されてしまうのです! そうなれば製薬会社は大喜びするでしょうが、これは科学的にも倫理的にも大いに問題です。 (→2.6 尺度合わせと外れ値 図2.6.3参照、→3.4 2標本の計数値 図3.4.2参照)

図2.3.1 平均値と順位平均が矛盾する例

この場合、P群は平均値=中央値=順位平均値になるものの、A群は平均値>順位平均値>中央値になり、順位平均値と中央値は一致せず、どちらも異常上昇例を反映しません。 このことから中央値と順位平均値は異常上昇例を反映しない――これがまさにノンパラ手法の特徴!――ので、副作用を評価するための評価指標には適していないことがわかると思います。

そしてウィルコクソンの2標本検定はデータの実測値には科学的な意義がなく、データの順位だけが科学的な意義を持つ時に適用すべき手法だということもわかると思います。 データの実測値ではなく順位だけが科学的な意義を持つようなデータは、最初から順位として定義されたデータつまり順序尺度のデータ以外には普通は有り得ないでしょう。

また医学分野では、たいていは疾患に罹患した被験者を研究対象にします。 そして疾患に罹患した状態はヒトにとって異常な状態なので臨床検査値などで異常値が発生します。 そのような疾患による異常値と薬剤の副作用による異常値は医学分野では必然的に発生するものであり、それらを無視してデータを解析するのは非科学的です。 そのため医学分野では異常値(外れ値)を反映しない要約値は評価指標として不適切といって良いと思います。

それから複数の症状の重症度を「0:症状なし 1:軽症 2:中等症 3:重症」の4段階で評価し、それらの項目の合計点を求めて総合重症度のように扱うことがあります。 この時、元のデータが順序尺度だからという理由で、またはデータが正規分布しないという理由で、またはデータが連続ではないという理由で、順序尺度扱いしてノンパラ手法を適用すべきであると主張する人がいます。

しかし合計点を求めるということは、例えば3つの項目が全て「1:軽症」の時の合計点3点と、1つの項目が「3:重症」で他の2つが「0:症状なし」の時の合計点3点が医学的に同じ意味であると解釈したことです。 これはどの項目のデータも数字と数字の間隔が等しい計量尺度扱いしたことに他なりません。 第1節で説明したように計量尺度と順序尺度の本質的な違いは数字と数字の間隔が等間隔で四則演算が行えるかどうかという点であり、連続データか離散データかという点ではありません。

したがってこのような合計点データを順序尺度扱いするのは論理的に首尾一貫しておらず、あまり意味のあることではありません。 これは複数の症状を「0:無 1:有」で評価し、症状有の項目数を総合重症度のように扱う場合でも全く同じです。

繰り返しになりますが、データがどんな分布をしていても中心極限定理によって標本平均値は近似的に正規分布をします。 平均値の検定(t検定)はその標本平均値の分布を利用する頑健性の高い手法ですから、データが正規分布から極端にズレていない限り安心して適用できます。 また場合によっては、順序尺度のデータをそのまま計量尺度として扱った方が科学的に妥当な時もあります。 (→3.4 2標本の計数値 (1)順序尺度 表3.4.8と表3.4.9)

(5) データの正規性

そもそもデータの正規性というのは比較したい群ごとのデータが正規分布していること——これを残差の正規性または検定誤差の正規性といいます——であり、比較したい群を一緒にした全体のデータが正規分布していることではありません。 つまり第2節の図2.2.12のように正常群、軽症群、中症群、重症群の各群のデータが正規分布していることがデータの正規性であり、4群を一緒にした全体のデータが正規分布していることではないのです。 もし4群のデータが図2.2.12のように分布していれば、4群を一緒にした全体のデータが正規分布するはずはありません。

図2.2.12 投与前の血圧分布

しかし「データが正規分布していない時はノンパラ手法!」という主張を鵜呑みにした人は、往々にして群ごとのデータではなく全体のデータの分布をチェックし、それが正規分布からずれている時はノンパラ手法を適用しなければならないと誤解しています。

また実際の研究では同じ項目を男女で比較したり、疾患の有無で比較したり、治療法の種類で比較したりします。 その場合、厳密にいえば比較する群ごとにデータが正規分布する必要があります。 つまり同じデータを男性と女性で2群に分けた時も、疾患有と疾患無で2群に分けた時も、治療法の種類で数種類の群に分けた時も、どの群のデータも正規分布している必要があるのです。 これは理論的にも現実的にもほとんど不可能でしょう。

したがってデータの正規性というものはあくまでも近似的なものであり、あまり厳密に正規性を求めるとパラメトリック手法を適用できるデータなど有り得なくなってしまうことがわかると思います。 しかも近似的に正規分布しているかどうかを厳密に検討するためには、分布状態を表す指標――例えば分布の対称性を表す歪度(ワイド、skewness、asymmetry)と分布の尖り具合を表す尖度(センド、kurtosis)――の区間推定を行ない、信頼区間が許容範囲内に収まっているかどうかを検討する必要があります。 ところが「データが正規分布しない時はノンパラ手法!」と書かれた統計学の解説書で、こういった指標の許容範囲を明示しているものは残念ながら見たことがありません。 (注3)

正規分布はちょうど物理化学分野における理想気体のようなものです。 理想気体のような気体は現実には存在しません。 しかし大部分の気体は近似的に理想気体とみなすことができるので、状態方程式などを当てはめて色々な計算を簡単に行うことができます。 そして現実の気体が理想気体からどの程度ずれているかを考慮して、理想気体で計算した結果を現実の気体に適用します。

理想気体のような気体は現実には存在しない

大部分の気体は近似的に理想気体とみなすことが可能――理想気体によるモデル化

理想気体の状態方程式を当てはめて結果を求める

現実の気体が理想気体からどの程度ずれているかを考慮して結果を解釈

理想気体で計算した結果を現実の気体に適用

理想気体と同様に正規分布も理想分布ですから、現実のデータで厳密に正規分布するものはありません。 しかし近似的に正規分布するとみなしてパラメトリック手法を適用することにより、母集団の様子を確率的に推測することができます。 そして現実のデータの分布が正規分布からどの程度ずれているかを考慮した上でパラメトリック手法の結果を現実のデータに適用すれば、データが厳密に正規分布していなくても実用上は問題ありません。 つまり正規分布によってモデル化した理想的な結果を、現実のデータに合わせて補正しながら解釈するわけです。 (注4)

正規分布するデータは現実には存在しない

大部分のデータは近似的に正規分布とみなすことが可能――正規分布によるモデル化

正規分布を当てはめて結果を求める

現実のデータが正規分布からどの程度ずれているかを考慮して結果を解釈

正規分布で計算した結果を現実のデータに適用

統計学で用いられる理論分布――例えば二項検定で用いられる二項分布やχ2検定で用いられるχ2分布等――は全て数学的に導かれた理想分布です。 そのため現実のデータは正規分布だけでなく、どの理論分布にも厳密には従いません。 しかし中心極限定理によって、ほとんどの要約値は近似的に正規分布します。 そしてパラメトリック手法もノンパラメトリック手法も要約値が近似的に正規分布する性質を利用して推定と検定を行います。 そのため中心極限定理が統計学の最も重要な基本定理といわれ、正規分布が多用されているのです。 (→1.3 データの要約方法)

いずれにせよ検定手法を決定するのは要約値の種類であり、どの要約値が評価指標として最適かを決定する最も重要な要因はデータの分布状態に関する数学的な判断ではなく科学的な判断です。 したがってデータの分布状態だけで機械的に統計手法を選択するのではなく、科学的な判断によって評価指標として最適な要約値を決定し、それに応じて統計手法を選択するべきです。


(注1) 数理統計学的な定義では母数と局外母数(nuisance parameter、確率分布に関する母数以外の母数)によって確率分布が完全に定められているモデルをパラメトリックモデル(parametric model)といい、そうでないモデルをノンパラメトリックモデル(nonparametric model)またはセミパラメトリックモデル(semi-parametric model)といいます。 そしてパラメトリックモデルを用いる統計手法がパラメトリック手法であり、ノンパラメトリックモデルを用いる統計手法がノンパラメトリック手法ということになります。

(注2) 標本平均値は中心極限定理が成り立つので、データが正規分布しない時でも母平均値の推定誤差と検定における有意確率p値の誤差は非常に小さく、事実上、無視できる程度です。 データが正規分布する時、平均値の検定は一様最強力検定(UMP:Uniformly Most Powerful test)つまりどんな対立仮説についても検出力が最も高い検定になります。 しかしデータが正規分布からずれていると一様最強力検定になるとは限りません。 ただし正規分布からのズレが極端に大きくなければ、検出力はあまり悪くはなりません。 (→1.6 統計的仮説検定の考え方 (注4))

データが正規分布から大きくずれると検出力がどの程度悪くなるのか、医学分野でたまに問題になる対数正規分布を利用して検討してみましょう。 第2節で説明したようにデータxを対数変換したy=ln(x)が正規分布する時、xは対数正規分布します。 そしてxの統計量とyの統計量の間には次のような関係があります。

yの平均値:
yの分散:σy2 = ln(CVx2 + 1)
xの平均値:
xの分散:
xの幾何平均値:μx*  xの中央値:μx'   
xの変動係数:   

ここで計算を簡単にするために、まずyの母分散σy2=1としましょう。 そしてyの母平均値μyが基準値μy0=0と等しいかどうかを、100例の標本集団のデータを用いて有意水準5%で検定する時の検出力を80%としてみましょう。 第1章の図1.6.2から、この時のμyは次のような値になります。

図1.6.2 統計的仮説検定の模式図
α = 0.05  2β = 2×(1-0.8) = 0.4  n - 1 = 99
t(99,0.05) = 1.98422  t(99,0.4) = 0.845267   
δy* = {t(n-1,α) + t(n-1,2β)}SEy = (1.98422+0.845267)×0.1 = 0.2829487
∴μy = μy0 + δy* = 0.2829487

ここで基準値μ0とμyの関係を元のデータxに戻すと次のようになります。 この場合、データyが正規分布するので100例の標本集団から求めた標本平均myはt分布します。 そしてデータxは対数正規分布しますが、100例の標本集団から求めた標本平均値mxは中心極限定理によって近似的にt分布します。 図1.6.2の3つの分布は、それらの標本平均値の分布を表すので注意してください。

○μy = μy0 = 0の時 → μx = μx0の時:帰無仮説が正しい時

σx02 = μx02{exp(σy2)-1} = 1.6487212×{exp(1)-1} ≒ 4.670774   
mxU = μx0 + t(n-1,α)・SEx0 = 1.648721 + 1.98422×0.2161197 = 1.648721 + 0.4288291 = 2.07755
○μy = 0.2829487の時 → μx > μx0の時:対立仮説が正しい時

σx2 = μx2{exp(σy2)-1} = 2.1879142×{exp(1)-1} ≒ 8.225362   
t(n-1,2β')・SEx = μx - mxU = 2.187914 - 2.07755 = 0.1103639
  t(99,2β') = 0.3848128 の時の 2β' = 0.701202
∴検出力(1-β') = 1 - 0.350601 = 0.649399 (65%)
※w = exp(σy2) = exp(1) = 2.718282 と置くと
xの分布の歪度:
xの分布の尖度:β3 - 3 = w4 + 2w3 + 3w2 - 3 ≒ 113.9364
尖度と歪度については(注3)参照

以上のように正規分布するyを用いて検定した時の検出力が80%であるのに対して、対数正規分布する元のデータxを用いて検定した時の検出力は約65%になり、15%ほど悪くなります。 この平均値の検定に対して、順位平均値を検定する場合はyを用いて検定してもxを用いて検定しても検出力は変わりません。 そしてyを用いた時の平均値の検定に対する順位平均値の検定の漸近相対効率は約95%であり、標本集団が100例の時の検出力は約79%になります。 したがってxを用いた時は平均値の検定よりも順位平均値の検定の方が検出力が高くなります

ただし正規分布では平均値=中央値=順位平均値になるので、平均値の検定と順位平均値の検定は実質的に同じ帰無仮説になります。 しかし対数正規分布では平均値と中央値と順位平均値が一致しないので平均値の検定の帰無仮説と順位平均値の帰無仮説は別のものになり、検定の目的も科学的意義も異なります。 そのため「平均値の検定よりも順位和検定の方が検出力が高いので順位和検定を用いる」というのは「天体望遠鏡よりも顕微鏡の方が倍率が高いので顕微鏡を使って天体観測をする」ようなものであり、科学的に非合理です。

(注3) データが正規分布するかどうかを調べる手法には色々なものがあり、それらの手法はたいてい正規性の指標を検定することによって行います。 しかし正規分布は理想分布であり、厳密に正規分布するデータは現実には存在しません。 そのため正規性の検定は例数が多くなれば必ず有意になります。

したがってデータの正規性を検討するためは正規性の指標の許容範囲つまり「正規性の指標がこの範囲に収まっていれば実用上は正規分布と見なすことができる範囲」を設定し、試験の必要例数を求めて区間推定と同等性検定を行う必要があります。 そして正規性の指標の信頼区間が許容範囲内にすっぽりと収まっていれば、近似的に正規分布とみなすことができます。 (→1.7 ハンディキャップ方式の検定)

ここでは正規性の指標として、計算が比較的簡単で区間推定も容易な歪度尖度を用いた手法を紹介しましょう。 歪度と尖度の計算には積率(モーメント、moment)という値を利用します。 (→1.4 推定 (注4))

(0) 原点まわりのr次積率(moment of order r about zero)
母数:μ'r = E(xr)   推定値:
(1) 平均まわりのr次積率(moment of order r about mean)
母数:μr = E(x-μ)r   推定値:
便利な計算法


(2) 母集団の場合
歪度:   尖度:
(3) 標本集団の場合(こちらが一般的)
歪度:   尖度:

ただしk2、k3、k4フィッシャーのk統計量(累積率)であり、次のようにして求めます。

:平均値   :不偏分散
  

これらの値には図2.3.2〜図2.3.7のような性質があります。

図2.3.2 右傾 図2.3.2 対称 図2.3.2 左傾
図2.3.5 鈍峰 図2.3.6 正規 図2.3.7 鋭峰

これらの値を利用した歪度と尖度の推定と検定、つまり√β1=0、β2=3の推定と検定は次のようにして行います。

  
  
歪度の推定:√β1の100(1-α)%信頼区間 = g1 ± t(∞,α)SE(g1)
歪度の検定:≧ t(∞, α)の時、有意水準αで有意
尖度の推定:(β2-3)の100(1-α)%信頼区間 = g2 ± t(∞,α)SE(g2)
尖度の検定:≧ t(∞,α)の時、有意水準αで有意
t(∞,α):正規分布における100α%点の値

歪度と尖度を別々に検定せず、一緒に検定するジャック・ベラ検定(Jarque-Bera test)という手法もあります。 「分布が歪んでいるか?」ということと「正規分布と比べると分布が尖っている(またはなだらか)か?」ということをそれぞれ独立して検定したい時は、上記の検定手法が適しています。 しかし「分布の歪み具合と尖り具合から考えてデータは正規分布していないか?」ということを検定したい時はこの手法の方が適しています。 ただしこの手法は歪度と尖度を独立して区間推定することはできないので、歪度と尖度の区間推定は上記の手法を用います

検定統計量:≧ χ2(2,α)の時、有意水準αで有意

正規性の検定には尖度と歪度のような正規性の指標を用いない手法もあります。 例えばデータの相対累積度数分布と累積正規分布が一致しているかどうかを検定するコルモゴロフ−スミルノフ検定(Kolmogorov-Smirnov test)や、データの順位を標準正規分布における累積出現率に対応する正規偏位に変換し、その正規偏位と実際のデータの相関係数の平方つまり寄与率を用いて正規分布しているかどうかを検定するシャピロ・ウィルク検定(Shapiro-Wilk test)がそうです。

これらの手法は正規性の指標を用いていないので、たとえ分布の歪度と尖度が正規分布と同じでも、分布が凸凹していれば「正規分布ではない」という結果になります。 ところがパラメトリック手法の結果に大きく影響する分布の要素は歪度と尖度であり、分布の凸凹などはあまり影響しません。 そのためパラメトリック手法とノンパラ手法を使い分ける目的でこれらの手法を用いるのはあまり適切ではありません。 (→3.4 2標本の計数値 (注3))

医学分野では近似的に対数正規分布するデータがたまにあります。 そして対数正規分布の歪度と尖度は理論的に次のようになります。 (→2.2 データの分布と統計手法 (注4))

対数変換後のデータ y = ln(x) の分散を σy2 として、w = exp(σy2) と置くと
歪度:   尖度:β3 - 3 = w4 + 2w3 + 3w2 - 3

対数変換後の平均値μyを指数変換すると元のデータxの幾何平均値μx*になり、これは中央値μx'と一致します。 そこで統計的仮説検定の検出差を10%未満とする、つまり平均値の差が10%未満なら科学的に同等として元のデータの平均値μxと中央値μx'の差が10%になる時の条件を求めてみましょう。

 より  σy2 = 2×ln(1.1) = 0.1906203 w = exp(σy2) = 1.21
CVx2 = exp(σy2) - 1 = w - 1 = 0.21 → CVx = 0.4582575
√β1 = (1.21 + 2)×√0.21 = 1.4710068   β3 - 3 = 1.214 + 2×1.213 + 3×1.212 - 3 = 7.079011

この計算結果から、平均値の差の科学的同等範囲つまり許容範囲を10%未満にした場合、データが近似的に対数正規分布する時は変動係数CVが約46%未満(対数正規分布は変動係数が一定という性質を持つ)なら、近似的に正規分布として扱っても科学的に意義があるほど平均値に影響を与えないことがわかります。 そしてその時の歪度は約1.5で尖度は約7です。 平均値の差の許容範囲が10%よりも大きいと歪度と尖度の許容範囲はもっと大きくなり、例えば20%の時は1.5倍ほどになります。 このことから歪度と尖度の許容範囲は次のような値を一応の目安にし、データの科学的な意義を考え合わせてこれを少し調整すれば良いと思います。

歪度と尖度の許容範囲(母集団):|√β1| < 1〜3   |β2-3|<5〜10
歪度と尖度の許容範囲(標本集団):|g1| < 1〜3   |g2| < 5〜10

しかし科学雑誌の査読者がしばしば要求する正規性はこのように厳密なものではなく、ほとんどは単なる慣習的なものにすぎません。 そのような時は上記の検定を行って有意にならなかったと回答するか、あるいはg1とg2の値が上記の条件を満足しているから近似的に正規性があると回答すれば良いと思います。

また独立性の検定であるχ2検定は、度数が近似的に正規分布する時、実現度数と理論度数の差の平方が近似的にχ2分布することを利用した統計手法です。 そのためt検定を適用したデータに正規性を要求するのなら、χ2検定を適用したデータについても正規性を要求しなければ整合性が取れません。 しかし正規性の要求は単なる慣習的なものにすぎないので、このような要求をする査読者はまずいないと思います。 (→3.4 2標本の計数値 (2)名義尺度 (注3)付録1 各種の確率分布 (2)χ2分布)

それからもっと根本的な問題は、正規性の推定と検定にはクレタ人のパラドックと同じような矛盾がある点です。 平均値の推定と検定と同様に、正規性の推定と検定はデータが正規分布していることを前提にしたパラメトリック手法です。 そして一般的な統計手法と同様に、データが正規分布していない時は中心極限定理――母集団のデータがどんな分布をしていても標本集団の統計量は漸近的に正規分布する――によって正規性の評価指標が近似的に正規分布する性質を利用しています。 そのためデータが少数例(10〜20例未満)かつ正規分布していない時は推定結果と検定結果の信頼性が低くなります。 (→1.3 データの要約方法付録2 中心極限定理のシミュレーション−平均値と中央値)

したがって正規性の検定結果が有意になった時は「データが正規分布していないのでパラメトリック手法の検定結果は信用できない!」と解釈するのなら、必然的に「データが正規分布していないので正規性の検定結果は信用できない!」と解釈しなければなりません。 そして正規性の検定結果が信用できないのなら「データが正規分布しているかどうかは不明」ということになり、正規性の検定を行う意味がなくなります。

つまりどんな時でも正規性の推定結果と検定結果を信用するのなら、他のパラメトリック手法の推定結果と検定結果もどんな時でも信用しなければ整合性が取れません。 そしてデータが正規分布していない時はパラメトリック手法の推定結果と検定結果を信用しないのなら、正規性の推定結果と検定結果も信用できないことにしないと整合性が取れないのです。 したがって正規性の推定結果と検定結果によってパラメトリック手法とノンパラ手法を使い分けるのは自己矛盾です。

(注4) 研究現場で用いられる統計手法の大半は線形モデル(linear model)に基づいています。 そしてこの線形モデルは線形性(linearity)を最も重要な前提にしています。 この線形性は説明変数と目的変数の関係が直線関係であるという線形性ではなく、パラメータ間に線形性が成り立つというものです。 例えば2次関数「y=b0+b1x+b2x2」ではxとyの関係は曲線関係つまり非線形ですが、xに関する3つの項を足すとyになるのでパラメータb0、b1、b2に関しては線形です。 (→14.1 コンパートメントモデル (注2))

この線形性は現実のデータでは近似的にしか成り立たないので、この前提で求められたパラメータには必ず誤差があります。 したがって結果を解釈する時は線形性の誤差を考慮に入れる必要があります。 例えば前述の2次関数「y=b0+b1x+b2x2」では3つのパラメーターb0、b1、b2に線形性に起因する誤差が入りこんでいるわけです。

そして線形モデルのパラメータについて推定と検定を行う時は誤差分散の正規性と独立性、そしてたいていは等分散性を前提にします。 これらも現実のデータでは近似的にしか成り立たないので、この前提で求められた推定結果と検定結果には必ず誤差があります。

ただしこれらの前提が成り立たないと推定と検定が行えないわけではなく、効率が悪くなったり、結果に誤差が入り込んだりするだけです。 そのため(注2)で説明したように、これらの前提に起因する誤差が推定結果と検定結果に及ぼす影響を定量的に検討し、それが許容範囲内である、または何らかの方法で誤差を補正できるのなら安心して推定と検定を行うことができます。 (→3.2 2標本の計量値 (注2))

またこれらの前提は線形性とは無関係なのでパラメーターを求めること自体には影響しません。 つまり線形性を前提にして求められたパラメータには線形性に起因する誤差が入り込むだけなので、推定と検定を行わないのなら――つまり記述統計学的な手法では――これらの前提は不必要です。 ところが現在はこれらの前提のうち最も重要な線形性は問題にされず、誤差分散の独立性と等分散性もほとんど問題にされず、何故か正規性だけが強調されています。 しかも誤差分散の正規性ではなくデータそのものの正規性と誤解されたり、正規性が成り立たないと線形モデルそのものが成り立たないと誤解されたりしています。

線形モデルに限らず、統計手法で用いられるモデルは全て数学的に理想化されたモデルです。 そのため全ての統計手法は、理想化されたモデルを現実のデータに近似的に当てはめることができるという前提で利用します。 不正確な現実のデータに理想的な数学モデルを当てはめるのですから、どんなモデルを用いようと所詮は近似にすぎません。 どうせ近似なら科学的に解釈しやすく目的に合ったモデルを用いるべきです。

それからモデルを選択する時に大切なことは、現実のデータによく当てはまるモデルではなく科学的に妥当なモデルを選択することです。 一般にモデルを複雑にすればするほど現実のデータによく当てはまります。 例えば2つの項目の関係をモデル化する時、1次式よりも2次式の方がよく当てはまり、(データ数−1)次式にすれば完全に当てはまります。 しかしいくら当てはまりが良いからといって、(データ数−1)次式が科学的に妥当とは思えません。 できるだけ単純かつ科学的に妥当なモデルを用いるべきです。