前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2-1 | 2-2 | 3 | 4-1 | 4-2 |
データが計数値で標本の数が1つの時は、主にノンパラメトリック手法を用います。 ただしデータが順序尺度の時と名義尺度の時では扱いが異なります。
第2章で説明したように順序尺度のデータは数値と数値の間隔が同じではないので通常の四則演算は行えないものの、データに順序を付けることはできます。 そのため重症度や改善度のようにデータが具体的な計量値ではなくても、科学的に順序が付けられる時は順序尺度のデータとして扱います。 このデータは平均値や標準偏差を求めることができないので、データそのものではなくデータを小さい順に並べかえた時の順位(rank)を用いて色々な統計計算を行います。
例として第1節の表3.1.1のデータを順序尺度として扱い、要約値を求めてみましょう。 (注1)
No. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
TC | 219 | 221 | 221 | 222 | 222 | 224 | 225 | 227 | 231 | 238 |
なにぶん例数が少ないのではっきりとはいえないものの、図3.1.1の度数分布と図3.1.2の累積度数分布を見ると、データの分布が少し左に偏っていて——これを左傾といいます——正規分布から少しずれているようです。 そのため平均値225は中央値223よりもやや大きく、7番目のデータと同じ値になっています。 しかし計量尺度として扱った時も順序尺度として扱った時も要約値は大して変わらず、この程度のズレなら正規分布と考えてしまってかまわないことがわかります。
ちなみにデータが対数正規分布すると仮定し、対数変換して計量値として扱うと次のようになります。
ご覧のように、このデータの場合、データ数が少ないこともあって対数変換しても元の結果とほとんど変わりません。 医学・薬学で扱うデータは対数正規分布風の分布をするものが多く、分布の形だけで判断して対数変換して処理したり、ノンパラ手法を適用したりすることがよくあります。 しかし第2章で説明したように、統計手法はデータの分布状態ではなく医学・薬学的に見てどの要約値が一番意義があるか、つまり医学・薬学的にどの要約値が評価指標としてふさわしいかという観点から決めるべきです。 (→2.2 データの分布と統計手法)
このデータの場合も平均値を評価指標として用いるのが医学的に妥当なら、分布の形によらず計量尺度扱いした結果を採用すべきです。 そうではなく実測値よりも順序の方が医学的に重要であり、順位平均値を評価指標として用いるのが妥当なら分布の形によらず順序尺度扱いした結果を採用すべきです。 また10→1という変化と100→10という変化が医学的に同等であり、幾何平均値を評価指標として用いるのが妥当なら対数変換して計量尺度扱いした結果を採用すべきです。
例えばマラソンレースの場合、競技者の実力はタイムに反映されるので競技者の実力を客観的に評価したい時は計量尺度であるタイムを評価指標にします。 しかしレースの結果を重視し、競技者の相対的な成績を評価したい時は順序尺度である順位を評価指標にします。 つまりコーチのように競技者の実力を評価したい時はタイムを評価指標にし、マスコミのスポーツ報道のようにレースの結果だけを評価したい時は順位を評価指標にするわけです。 ただし順位を評価指標にした時は、それを競技者の実力と勘違いしないように注意が必要です。 例えば1位と2位のタイム差が1時間でも1秒でも順位差は同じ「1」ですが、競技者の実力差は全く違うからです。
順序尺度では、母集団を特定の基準値で2分した時、基準値よりも大きい群のデータの順位と基準値よりも小さい群のデータの順位が同じように分布しているかどうかを検定する手法があります。 これはウィルコクソン(Wilcoxon)の1標本検定またはウィルコクソンの符号付き順位検定(signed rank test)と呼ばれる手法であり、順序尺度における1標本t検定に相当します。
第1節と同様に170mg/dLをTCの正常値と考えて、これを基準値μ0にします。 そして母集団である脂質異常症患者をTCがμ0よりも大きい群と小さい群に2分します。 そこで表3.1.1のデータから170を引いた差dをあらためてデータにし、差が0のデータを除いて正・負に分けて整理します。 このデータの場合、差dは全て正です。 次に差の絶対値|d|に順位を付けます。 この時、51や52のように同じ値が2つ以上ある時は、それらを同位の値(tied value)と呼んで全てに次のような平均順位を付けます。
さらにこうして付けた順位を正群・負群別に合計して順位和を求めます。 そして正群の順位和から負群の順位和を引いた符号付き順位和を求め、それを例数で割って符号付き順位平均値を求めます。
No. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
TC | 219 | 221 | 221 | 222 | 222 | 224 | 225 | 227 | 231 | 238 |
d | +49 | +51 | +51 | +52 | +52 | +54 | +55 | +57 | +61 | +68 |
差の絶対値|d| | 49 | 51 | 52 | 54 | 55 | 57 | 61 | 68 | 順位和 |
---|---|---|---|---|---|---|---|---|---|
正の例数 | 1 | 2 | 2 | 1 | 1 | 1 | 1 | 1 | 55 |
負の例数 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
順位 | 1 | 2.5 | 4.5 | 6 | 7 | 8 | 9 | 10 | 55 |
差dの順位にdと同じ符号を付け、その度数分布を描くと図3.2.3のようになります。 符号付き順位平均値はこの符号付き順位分布の中心位置を表します。 もし母集団のデータが基準値を中心にしてその上下で同じように分布していれば、差dは0を中心にした分布になります。 そして差の符号付き順位分布の中心も0になり、符号付き順位平均値は0になるはずです。 そのためこの検定の帰無仮説を次のように表すことができます。
ここで注意しなければならないことはこの帰無仮説は「母中央値は基準値と等しい」という帰無仮説とは異なるということです。 母中央値が基準値と等しく、しかも基準値よりも大きい値と基準値よりも小さい値が同じように分布していれば符号付き順位平均値は0になります。 差dの分布が近似的に正規分布(厳密には対称分布)していて、しかも母中央値が基準値と一致している時はそのような状態になります。
しかしたとえ母中央値が基準値と一致していても、中央値よりも大きいデータは中央値から離れて分布していて、中央値よりも小さいデータは中央値付近にかたまって分布していると符号付き順位平均値は0になりません。 逆に母中央値が基準値と一致していなくても、基準値よりも大きいデータの分布の中心位置と基準値よりも小さいデータの分布の中心位置が基準値から同じ距離にあれば符号付き順位平均値は0になります。
例えば表3.2.1の代わりに次のようなデータがあったとします。 このデータについて基準値を170とすると中央値と基準値は一致しますが、符号付き順位平均値は0にはなりません。
No. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
TC | 160 | 160 | 160 | 160 | 160 | 180 | 200 | 200 | 200 | 200 |
d | -10 | -10 | -10 | -10 | -10 | +10 | +30 | +30 | +30 | +30 |
差の絶対値|d| | 10 | 30 | 順位和 |
---|---|---|---|
正の例数 | 1 | 4 | 37.5 |
負の例数 | 5 | 0 | 17.5 |
順位 | 3.5 | 8.5 | 55 |
つまりこの手法はあくまでも符号付き順位平均値に関する検定であり中央値に関する検定ではないということです。 そこでこの検定の対立仮説を設定するには「符号付き順位平均値が0からこの程度ずれていてもTCが基準値よりも異常に高いまたは低いわけではない」という符号付き順位平均値に関する医学的な許容範囲を決める必要があります。
ただしこの許容範囲は符号付き順位平均値単位では不都合です。 この検定における母集団はn例の符号付き順位分布であり、例えば表3.2.3では10例の順位分布です。 そのため符号付き順位平均値が2とすると符号付き順位分布の中心位置は原点0から2例分だけ正の方向にずれている、つまり分布全体の20%分だけ正の方向にずれていることになります。 それに対して全例数が100例の時に符号付き順位平均値が2とすると、符号付き順位分布の中心位置は原点0から分布全体の2%分だけ正の方向にずれていることになり意義が大きく異なります。 したがって一般化するために許容範囲は例数に対する符号付き順位平均値の割合を用いて決める必要があります。
差dが全て正(または負)の時、符号付き順位は図3.2.3のように全体が正(または負)の領域に分布します。 そしてその分布の中心つまり符号付き順位平均値は(n+1)/2になり、原点0から分布全体の約50%分ずれます。 つまり符号付き順位平均値は最大で原点0から分布全体の約50%分ずれるわけです。 ただし符号付き順位平均値の最大値は(n+1)/2なので、分布全体に対する正確な割合は{(n+1)/(2n)}×100%です。 そのため表3.2.3のデータでは、n=10より(11/20)×100=55%になります。
このズレの最大値を考慮して、例えば符号付き順位平均値の医学的な正常範囲を±10%未満とすると対立仮説を次のように表すことができます。
標本平均値と同じように、標本符号付き順位平均値は中心極限定理によって近似的に正規分布します。 そこで符号付き順位平均値とその標準誤差を利用して推定と検定を行うことができます。 そしてこの場合は正規分布を利用して検定を行うので正規検定になり、検定統計量をz値またはu値と呼ぶ習慣があります。 このz値はt検定におけるt値に相当する値であり、t値と同じように実験結果のzo値から有意確率p値を計算し、それを有意水準αと比較することによって検定することができます。 またp値を計算する代りに正規分布つまり自由度無限大のt分布における100α%点t(∞,α)の値と比較して、次のように検定することもできます。
表3.2.2のデータについて有意水準5%、信頼係数95%として検定と推定を行うと次のようになります。 (注2)
符号付き順位分平均値の95%信頼区間の上限は、正規分布に基づいて単純計算すると9.34です。 しかし符号付き順位平均値の理論的な最大値が5.5なので、上限はこの最大値になります。 これらの結果から次のような統計学的結論を採用することができます。
これは単なる統計学的結論ですから、これに基づいて医学的な結論を検討する必要があります。 このデータの場合、符号付き順位平均値の医学的な正常範囲を±10%未満にしたので、最低でも16.6%、最大で55%というズレは医学的に正常範囲外のズレといえます。 そこで次のような医学的結論を採用することができます。
この結果を論文化する時は統計学的結論だけでなく医学的結論まで記載し、さらに必要に応じて考察を加えなければならないことはt検定と同様です。
なおこの場合、本来なら試験を行う前に有意水準と検出力を決め、医学的な許容範囲に基いて試験の必要例数を計算し、試験終了後に実際のデータに基づいて検出力分析を行う必要があります。 しかし説明を簡潔にするためにそれらの煩雑な手順は省略します。 興味のある方は第1章第8節の(注1)を参考にして計算してみてください。 (→1.8 科学的研究の種類 (注1) 6.順序尺度・1標本の場合)
また検定の有意確率p値が0.0050なので有意水準を1%にしても有意になります。 そのためこのような時、論文などには「有意水準1%で有意」と記載することが多いと思います。 しかしこの場合、本来は事前に有意水準を5%として試験の必要例数を求めているはずです。 そのためいくらp値が0.0050でも、有意水準を1%にするための条件を満足していなければ「有意水準1%で有意」ということに意味はあまりありません。 そしてもし有意水準を1%にするのなら推定結果も「99%信頼区間」を記載する必要があります。
検定は資格試験のようなものであり、有意水準はその合格基準に相当します。 そのため合格基準を満足していればトップ合格でも基準すれすれの合格でも資格が得られる、つまり統計学的結論を採用できることに変わりはないのです。 したがっていくらp値が0.0050でも検定結果は「有意水準5%で有意」と記載し、推定結果は「95%信頼区間」を記載しておくのが合理的です。
中央値は母集団のデータの分布状態によって標準誤差が変わってしまうので信頼区間を直接求めることはできません。 そこでrを利用して間接的に求めます。 中央値の100(1-α)%信頼区間は正規分布の100α%点の値t(∞,α)を用いて次のようになります。 (→1.3 データの要約方法 (注7))
表3.1.1のデータについて実際に計算してみましょう。
上記の統計量は同位の値つまり順位が同じデータはないという前提で計算したものです。 データの中に同位の値がある時は同位の値を次のような方法で扱います。
これらの中で最も一般的なものは6番の平均順位を与える方法です。 その場合、第k番目から始まるg個の同位について次のような平均順位をg個全てに与えます。
この時、順位和は同位の無い時と変わらないものの2乗和が多少小さくなり、その結果、分散も多少小さくなります。 同位がない時の2乗和をq、分散をV(i)、同位がある時の2乗和をq*、分散をV*(i)とすると、同位がある時は次のようになります。
Kのことを同位の補正といい、順位を利用した手法ではこの補正を行います。
ここで「符号付き順位平均値は0である=正群の母順位和と負群の母順位和は等しい」という帰無仮説が正しいとすると、各種統計量は次のようになります。
平均順位和Tn/2は正群の順位和T+と負群の順位和T-の平均であり、2群の順位和が等しければどちらもこの平均順位和に一致します。 また正群の順位和と平均順位和の差は正群の順位和と負群の順位和の差つまり符号付き順位和Tsの半分になります。 そのため符号付き順位和の分散V(Ts)はV(T+)の4倍になり、正群の順位和と平均順位和の差の検定は符号付き順位和の検定と同じものになります。
検定統計量zは中心極限定理によって近似的に正規分布します。 そのため近似正規分布を利用して検定と推定を行うことができます。 ただしzの分布は離散分布なので、連続分布である正規分布で近似する時は連続修正またはイェーツ(Yates)の補正と呼ばれる補正を施します。 連続修正の原理は(2)名義尺度の(注2)で説明します。 (→(2) 名義尺度(分類データ) (注2))
ここで全てのデータが正で、値も全て同じとすると次のようになります。
この場合、順位データの変動は全て正群と負群の順位平均値の違いで説明できます。 そのため符号付き順位検定の寄与率を次式で求めることができます。
また順位和から有意確率p値を直接計算する方法もあります。 同位が無いとして例数が1、2、3、…、(n-1)、nの時を考えると、順位の組み合わせとその順位和Tは次のようになります。
以上のようにn例の時の順位和Tは最小値が0、最大値がTn=n(n+1)/2です。 そして順位の組み合わせは全部で2n通りあり、それぞれ等確率(1/2n)で生じます。 そしてn>2の時は順位の組み合わせが違っても同じ順位和になるものが生じます。 そのため特定の順位和を得る確率は、その順位和になる順位の組み合わせ数を全組み合わせ数2nで割った値になります。
この確率を直接求めるのはかなり大変です。 そこでnが増えると順位和の組み合わせがどのように増えるか考えてみましょう。 まず1例の時と2例の時を比べると、2例の時は1例の時の順位の組み合わせ{なし}と{1}を全て含んだ上で、さらにこれらに順位「2」が追加された{なし,2}={2}と{1,2}——上の例で太字で表記したもの——が増え、順位の組み合わせの数が2倍になることがわかります。
これを一般化すると、n例の時は(n-1)例の時の順位の組み合わせを全て含んだ上で、さらにこれらに順位「n」が追加された順位の組み合わせが増え、順位の組み合わせの数が2倍になります。 このことからn例の時に順位和がTになる順位の組み合わせ数つまりTの頻度を頻度関数f'(n,T)で表すと、これは例数が(n-1)の時に順位和がTになる頻度f'(n-1,T)に順位和が(T-n)になる頻度f'(n-1,T-n)を足した数になることがわかります。
またn>0の時はT=0になる順位の組み合わせは{なし}だけであり、T=1になる順位の組み合わせは{1}だけです。 そしてT=Tn=n(n+1)/2になる順位の組み合わせは{1,…,n}だけであり、T=Tn-1={n(n+1)/2-1}になる順位の組み合わせは{2,…,n}だけです。 またT<0またはT>Tn=n(n+1)/2になる順位の組み合わせは存在しません。 さらにf'(n,T)は平均順位和Tn/2を中心にして左右対称になります。 これらのことからf'(n,T)を次のような漸化式で表すことができます。
この頻度関数f'(n,T)を全頻度つまり順位の組み合わせ総数2nで割ると確率密度関数f(n,T)になります。
これらと同様にして、頻度分布関数F'(n,T)と確率分布関数F(n,T)を次のような漸化式で表すことができます。 (ちなみにコンピュータでこれらの漸化式を計算する時は、再帰法というプログラム技法を利用して実にエレガントなプログラムを組むことができます)
この確率分布関数F(n,T)を利用して有意確率p値を計算することができます。
この方法で求めたp値は同意がない時の値であり、同位がある時のp値はこれよりも多少小さくなります。 また例数が多くなるとこの方法は非常に膨大な計算量になってしまい、実用的ではなくなります。 そのため普通は正規近似法を用います。
表3.2.2のデータについて実際に両方の方法で計算してみましょう。
図3.2.5と図3.2.6を見ると順位和分布の正規分布による近似はかなり正確なことがわかります。 そしてp値がだいたい0.05以下(|zo|にして2以上)では連続修正を施さない方が近似が良くなることもわかると思います。 また順位平均値の分布は図3.2.5と図3.2.6の横軸をT/nにしただけであり、本質的に順位和の分布と変わりません。
データが正規分布する時、t検定に対する順位和検定の漸近相対効率(=平均値の分散/順位平均値の分散)は3/πになる、つまり約95%になることが証明されています。 そしてデータが正規分布からずれると順位和検定の漸近相対効率が1よりも大きくなる、つまり順位和検定の方が検出力が高くなることがあります。 そのため統計学の解説書などに「データが正規分布しない時はt検定は使えないので、順位和検定を使わなければならない!」と書かれていることがあり、これを盲信している人もいると思います。 しかしデータが正規分布しない時はt検定が使えないわけではなく、単に順位和検定の方が検出力が高くなることがあるだけです。
正規分布では平均値と中央値と順位平均値が一致し、順位和検定の検定の帰無仮説がt検定の帰無仮説「母平均値と基準値は等しい」と実質的に同じものになります。 そのため順位和検定とt検定の検出力を比べることに、ある程度は意味があります。 しかしデータが正規分布からずれている時は平均値と中央値と順位平均値が一致するとは限りません。 そのため2つの手法の帰無仮説は異なるものになり、検定の目的も異なるものになるので2つの手法の検出力を比べることに意味はありません。
したがって「2つの手法の検出力を比べて検出力の高い方を使うべきだ!」という主張は「天体望遠鏡よりも顕微鏡の方が倍率が高いので顕微鏡を使って天体観測をするべきだ!」と主張するようなものであり、要約値の科学的な意義を無視した非合理な主張です。
検定手法はデータの分布状態や検定効率で使い分けるのではなく、あくまでも要約値の種類によって使い分けるべきです。 そして研究目的に最も適した科学的に有意義な要約値を評価指標にすべきです。