玄関雑学の部屋雑学コー ナー統計学入門

3.4 2標本の計数値

データが計数値で標本の数が2つの時は主にノンパラ手法を用います。 ただしデータが順序尺度の時と名義尺度の時では適用する手法が異なり、データに対応があるかないかでも扱いが異なります。

(1) 順序尺度(順位データ)

第2節で説明したように、データが順序尺度か順序分類尺度の時は順位(rank)を用いた手法を適用します。 そして順位を利用した手法にも対応のある手法と対応のない手法があります。

1) データに対応がある場合

○変化量を順序尺度扱いする場合

例として表3.3.1のデータについて第3節と同じ問題について考えてみましょう。

問題:慢性肝炎患者に薬剤Aを投与することによってAST(GOT)が低下するか?

第3節と違い、ここではASTが低下するかどうかを評価するには順位平均値を評価指標にすることが医学的に妥当だとします。 そして表3.3.1の変化量を順序尺度扱いし、第2節で説明したウィルコクソンの符号付き順位検定を適用します。 これは投与前の値を基準値にした時に投与後の値の順位が変化したかどうかを検定することになり、順序尺度における対応のあるt検定に相当します。

表3.3.1 投与前後のAST
No.12345678910
投与前56604947654635554146
投与後47453732554438314229
変化量-9-15-12-15-10-2+3-24+1-17
表3.4.1 変化量の例数と順位
変化量の絶対値12391012151724順位和
正の例数1010000004
負の例数01011121151
順位1234567.591055
図3.4.1 変化量の符号付き順位分布

この場合、第2節と同様に変化量の符号付き順位平均値の医学的な許容範囲を±10%未満とすると、検定の帰無仮説と対立仮説を次のように表すことができます。

H0:変化量の母符号付き順位平均値は0である。
H1:変化量の母符号付き順位平均値は原点0から-10%または+10%ずれている。

これらの仮説に基いて有意水準5%、信頼係数95%として、表3.4.1にウィルコクソンの符号付き順位検定と推定を適用すると次のようになります。 (注1)

|zo| = 2.397(p = 0.0165) > t(∞,0.05) = 1.96 … 有意水準5%で有意
符号付き順位平均値の95%信頼区間 = -4.7(-47%) ± 3.84 → 下限 = -8.54(-85.4%)→-5.5(-55%) 上限 = -0.86(-8.6%)

符号付き順位平均値の95%信頼区間の下限は正規分布に基づいて単純計算すると-8.54です。 しかし符号付き順位平均値の理論的な最小値が-5.5なので、下限はこの最小値になります。 これらの結果から次のような統計学的結論を採用することができます。

統計学的結論:薬剤A投与後の慢性肝炎群のAST変化量の符号付き順位平均値は低い方にずれている。
 そのズレは4.7例分(47%)であり、幅をもたせれば5.5例分(55%)〜0.86例分(8.6%)の間である。

対応のあるt検定と同様に、この場合も次のような点について検討する必要があります。

  1. -47%という符号付き順位平均値のズレは医学的に意義があるか(低下したといえるか)?
  2. -47%という符号付き順位平均値のズレは純粋に薬剤Aの効果によるものなのか?
  3. この結果をそのまま慢性肝炎患者全体に当てはめて良いか?

もし-47%という符号付き順位平均値のズレが医学的に意義があり、自然変動も無視できる程度であり、10例の症例が慢性肝炎患者全体から正しい手順で無作為に抽出された患者だとすると、次のような医学的結論を採用することができます。 ただしこの医学的結論は、あくまでもASTが低下するかどうかを評価するには符号付き順位平均値を評価指標にすることが医学的に妥当な時だけ採用するものです。

医学的結論:慢性肝炎患者のASTは薬剤Aの投与後に低下する。 それは薬剤Aの効果であると考えられる。

例えば表3.4.2のようなデータがあったとします。 この場合、3例はASTがわずかに低下しているものの、4例目は副作用で異常上昇しています。 このような時は変化量の分布が正規分布からずれます。 そのため統計学の解説書などによく書かれている「データが正規分布しない時は対応のあるt検定は適用できないので順位和検定などのノンパラ手法を適用しなければならない」という説明を盲信し、t検定の代わりにウィルコクソンの符号付き順位検定を適用する人が多いと思います。

でもこれは統計手法と要約値の科学的な意義を無視した乱暴な説明ですから、こんな説明を鵜呑みにしてはいけません。 データがどんな分布をしていても中心極限定理によって標本平均値は漸近的に正規分布をします。 そのためデータが正規分布しない時はt検定が適用できないわけではなく、ちゃんと適用できます。 しかし検定の検出力が低くなったり、信頼区間の幅が広くなったりする――つまり検定や推定の効率が悪くなることがあり、時にはノンパラ手法よりも悪くなったりするだけなのです。 (→2.3 パラメトリック手法とノンパラメトリック手法)

表3.4.2 投与前後のAST
No.1234平均値
投与前3030303030
投与後29292913355
変化量-1-1-1+103+25
表3.4.3 変化量の例数と順位
変化量の絶対値 1 103順位和
正の例数014
負の例数306
順位2410
符号付き順位平均値 = (4 - 6)/4 = -0.5(-12.5%)
図3.4.02 変化量平均値と符号付き順位平均値

表3.4.2のデータの場合、図3.4.2のように投与前後の変化量平均値は正の値であり、投与後にAST平均値は上昇しています。 それにもかかわらず変化量を順序尺度扱いすると符号付き順位平均値は0よりも小さく、符号付き順位分布は負の方に偏っています。 そのため平均値を評価指標にするとASTは投与後に上昇するという結果になるのに対して、符号付き順位平均値を評価指標にするとASTは投与後に低下するという結果になり、副作用である異常上昇例を見逃してしまいます。

したがってこのような時は、符号付き順位平均値を評価指標にしてウィルコクソンの符号付き順位検定を適用するのは医学的に不適切です。 このような時は、やはり平均値を評価指標にして対応のあるt検定を適用すべきです。

このように対応のあるt検定とウィルコクソンの符号付き順位検定は目的が異なり、要約値の科学的意義も異なります。 そのため、

「データが正規分布しない時はt検定は適用できないので、ノンパラ手法を適用しなければならない!」
本当は
「データが正規分布しない時はパラメトリック手法よりもノンパラン手法の方が効率が高くなるので、ノンパラ手法を使うべきである!」

という説明は「天体望遠鏡よりも顕微鏡の方が倍率が高いので顕微鏡を使って天体観測をするべきである!」という説明のようなものであり、的外れかつ科学的に非合理です。

○順序分類尺度の場合

実際の医学分野では順序尺度のデータよりも重症度のような順序分類尺度の方が多く、それに対してウィルコクソンの符号付き順位検定を適用することが多いと思います。 そこで表3.3.1のデータを10刻みでグレード付けし、肝機能重症度のような順序分類尺度にしてみましょう。

表3.4.4 投与前後のASTグレード
No.12345678910
投与前5644643544
投与後4433543342
グレード変化量-1-2-1-1-100-20-2
表3.4.5 グレード変化量の例数と順位
グレード変化量の絶対値12順位和
正の例数000
負の例数4328
順位2.5628
図3.4.3 グレード変化量の符号付き順位分布

この場合、元のデータが計量値なので、本来は元のデータの変化量を10刻みでグレード付けして変化量のグレードを求めるべきです。 元のデータをグレード付けして順序分類尺度にしてしまうと、厳密にいえば四則演算が行えないのでグレードの変化量を求めることはできません。 例えば「重症・中等症・軽症・無症状」という4段階の重症度の場合、重症→中等症という1段階の変化と中等症→軽症という1段階の変化が同じである保証はないからです。

グレードの変化量を求めるということはグレードデータを近似的に計量尺度扱いしていることに他ならないので、それに対して順位検定を適用するのは矛盾しています。 しかし医学分野ではこういった順序分類尺度のデータに対してウィルコクソンの符号付き順位検定を適用することが多いので、便宜的にグレードの変化量を求めることにします。

表3.4.1と同じ帰無仮説と対立仮説に基いて有意水準5%、信頼係数95%として、表3.4.5にウィルコクソンの符号付き順位検定と推定を適用すると次のようになります。 (注2)

|zo| = 2.428(p = 0.0152) > t(∞,0.05) = 1.96 … 有意水準5%で有意
符号付き順位平均値の95%信頼区間 = -4(-57%) ± 3.23 → 下限 = -7.23(-103.3%)→-4(-57%) 上限 = -0.77(-11%)

符号付き順位平均値の95%信頼区間の下限が-4になるのは、この値の理論的な最小値が-4になるからです。 これらの結果から次のような統計学的結論を採用することができます。

統計学的結論:薬剤A投与後の慢性肝炎群のASTグレード変化量の符号付き順位平均値は低い方にずれている。
 そのズレは4例分(57%)であり、幅をもたせれば4例分(57%)〜0.77例分(11%)の間である。

そして表3.4.1と同じ疑問点について全て肯定的に答えられるとすると、次のような医学的結論を採用することができます。

医学的結論:慢性肝炎患者のASTグレードは薬剤Aの投与後に低下する。 それは薬剤Aの効果であると考えられる。

この方法は医学分野でよく用いられます。 しかし前述したように、厳密にいえばグレードの変化量は計算できないという問題点があります。 そこでこのような時にグレードの変化量を用いずに投与前後のグレード分布の中心を比較する手法が開発されています。 それがフリードマン(Friedman)の検定という手法です。 表3.4.4のデータにフリードマンの検定を適用すると次のようになります。

フリードマンの検定:χo2 = 7(p = 0.0082) > χ2(1,0.05) = 3.841 … 有意水準5%で有意

理論的な厳密さを気にしなければ、グレードの変化量を求めてウィルコクソンの符号付き順位検定を適用するよりも、むしろグレードの変化量平均値を評価指標にして対応のあるt検定を適用する方が実際的でしょう。 グレードの変化量を求めるということは、とりもなおさずグレードを計量尺度扱いしていることに他なりません。 そのためグレードの変化量平均値を評価指標にした方が合理的なのです。 しかしどうしても順位平均値を評価指標にしたい時はこのフリードマンの検定を用いると良いでしょう。 この手法については第4章で詳しく説明するのでそちらをご覧ください。 (→4.2 多標本の計数値 (1)順序尺度(順序データ) 2)データに対応がある場合)

2) データに対応がない場合

○順序分類尺度の場合

次は第3節の表3.3.3のデータを10刻みでグレード付けして、やはり肝機能重症度のような順序分類尺度にしてみましょう。 グレード付けせずに実測値をそのまま順序尺度扱いしても全く同様に扱うことができます。 しかし医学分野では重症度や改善度のような順序分類尺度のデータが多いので、ここではあえて順序分類尺度にしてみます。 そして2群のASTのグレードを比較するには順位平均値を評価指標にすることが医学的に妥当だとします。

表3.3.3 正常群と慢性肝炎群のAST
No.12345678910
正常群47453732554438314229
慢性肝炎群56604947654635554146
↓10刻みでグレード化
表3.4.6 正常群と慢性肝炎群のASTグレード
No.12345678910
正常群4433543342
 慢性肝炎群 5644643544

この場合は2群を込みにしてグレードに順位を付け、その順位と例数から群別に順位和順位平均値を求めます。 順位付けにおける同位の値の扱いは第2節と同じです。

表3.4.7 グレードの例数と順位
グレード23456順位和順位平均値
正常群の例数1441010787.8
慢性肝炎群の例数015221013213.2
順位14111719.52021010.5
図3.4.4 グレードの順位分布

もし2群のグレードの順位分布の中心つまり順位平均値が同じなら、2群のASTグレードは同じと評価できます。 このことを利用して2群の順位平均値が等しいかどうかを検定する手法がウィルコクソンの2標本検定またはウィルコクソンの順位和検定(rank sum test)あるいはマン・ホイットニィのU検定(Mann-Whitney's U-test)と呼ばれる手法です。 これは順序尺度における2標本t検定に相当します。 この検定の基準値を正常群の順位平均値とすると帰無仮説を次のように表すことができます。

H0:慢性肝炎群の順位平均値は正常群の順位平均値と等しい=2群の順位平均値は等しい。

ここで注意しなければならないことは、この帰無仮説は「2群の中央値は等しい」という帰無仮説とは異なるということです。 一般に順位平均値と中央値は一致するとは限りません。 例えば慢性肝炎群の中央値はグレード4ですが順位平均値は13.2であり、その順位に対応するグレードは4よりも少し大きくなります。 2群の中央値が等しいと2群の順位平均値は一致しますが、順位平均値が等しいからといって中央値が一致するとは限らないのです。 つまりこの手法はあくまでも順位平均値の検定であり、中央値の検定ではないのです。

この検定の対立仮説を設定するには「2群の順位平均値がこの程度ずれていてもASTグレードが異なっているとはいえない」という順位平均値に関する医学的な同等範囲を決める必要があります。 そしてウィルコクソンの符号付き順位検定と同様に順位平均値に関する医学的な同等範囲は2群を合わせた全例数に対する順位平均値の割合を用いて決める必要があります。 (→3.2 1標本の計数値)

もし2群のグレードが完全に異なっていたら、2群の順位分布は完全には分離します。 すると2群の順位平均値は2群を合わせた全例数の約50%分ずれることになります。 つまり2群の順位平均値は最大で全例数の約50%分ずれるわけです。 このズレの最大値を考慮して、例えば順位平均値に関する医学的な同等範囲を正常群の順位平均値±10%未満とすると、対立仮説を次のように表すことができます。

H1:慢性肝炎群の順位平均値と正常群の順位平均値は-10%または+10%ずれている。

標本順位平均値は中心極限定理によって近似的に正規分布するので、2群の順位平均値の差とその標準誤差を利用して検定と推定を行うことができます。 そしてその検定は、ウィルコクソンの1標本検定と同様に次のような正規検定になります。

|zo| ≧ t(∞,α)の時、有意水準100α%で有意

有意水準5%、信頼係数95%として、表3.4.7にウィルコクソンの2標本検定と推定を適用すると次のようになります。 (注3)

|zo| = 2.162(p = 0.0306) > t(∞,0.05) = 1.96 … 有意水準5%で有意
順位平均値の差の95%信頼区間 = 5.4(27%) ± 4.9 → 下限 = 0.5(2.5%) 上限 = 10.3(51.5%)→10(50%)

順位平均値の差の95%信頼区間の上限が10になるのは、この値の理論的な最大値が10だからです。 これらの結果から次のような統計学的結論を採用することができます。

統計学的結論:慢性肝炎群のASTグレードの順位平均値は正常群の順位平均値と比べて高い方にずれている。
 そのズレは5.4例分(27%)であり、幅をもたせれば0.5例分(2.5%)〜10.3例分(51.5%)の間である。

この検定結果をグラフ化する時は図3.4.4のような順位平均値のグラフを描くと便利です。 医学分野ではデータが正規分布しない時はウィルコクソンの2標本検定を適用し、その結果を第2章第2節で紹介した箱ヒゲプロットを描くという悪しき慣習があります。 これは完全な間違いです。 第2章第3節で説明したように、平均値の検定つまりt検定を適用するかウィルコクソンの2標本検定を適用するかは、データの正規性ではなく医学的に意義のある評価指標として平均値が妥当なのか、それとも順位平均値が妥当なのかで決めるべきです。

そしてウィルコクソンの2標本検定は順位平均値の検定であり、平均値の検定でも中央値の検定でもありません。 そのため順位平均値のプロットではない箱ヒゲプロットと対応させるのは非合理です。 また箱ヒゲプロットは記述統計学的なグラフであり、母集団に関する情報は得られません。 そのため順位平均値の検定結果だけでなく平均値の検定結果についても見当をつけることはできず、グラフを描く意味がありません。

マン・ホイットニィのU検定は2群のデータ同士で総当り戦を行い、データが大きい方を勝ちとするつまりデータの順位が大きい方を勝ちとした時に2群の勝率を比較する手法です。 そのため順位和の代わりに勝利数U(Upper)値を求め、それを全試合数(=2群の例数を掛けた値)で割って勝率を求めます。

一方の群の勝率はもう一方の群の敗率になるので2群の勝率の差はひとつの群の勝率と敗率の差になり、それはひとつの群の勝率から50%(0.5)を引いた値の2倍になります。 そのため2群の勝率を比較するということは、ひとつの群の勝率と50%を比較する、つまりひとつの群の勝率が50%よりも大きいか小さいかを検討することになります。 そしてひとつの群の勝率から50%を引いた値は、理論的に2群の順位平均値の差を全例数で割った値に一致します。 そのためマン・ホイットニィのU検定はウィルコクソンの2標本検定と本質的に同じ手法になります。

以上のことからこの手法の帰無仮説と対立仮説は次のようになります。

H0:正常群に対する慢性肝炎群の勝率は50%である=正常群と慢性肝炎群の勝率は等しい。
H1:正常群に対する慢性肝炎群の勝率は40%または60%である。

表3.4.6にマン・ホイットニィのU検定と推定を適用すると次のようになります。

|zo| = 2.162(p = 0.0306) > t(∞,0.05) = 1.96 … 有意水準5%で有意
慢性肝炎群のU値と勝率の95%信頼区間 = 77(77%) ± 24.5 → 下限 = 52.5(52.5%) 上限 = 101.5(101.5%)→100(100%)
図3.4.5 慢性肝炎群のU値の割合(勝率)

勝率の95%信頼区間の上限が100%になるのは勝率の理論的な最大値が100%だからです。 これらの結果から次のような統計学的結論を採用することができます。

統計学的結論:正常群に対する慢性肝炎群のASTグレードの勝率は50%より大きい。 その勝率は77%であり、幅をもたせれば52.5%〜100%の間である。

順位平均値の差とその全例数に対する割合よりも勝率の方が馴染みがあり、しかも勝率は最低が0%で最高が100%です。 そのためこの結論の方が解釈しやすいと思います。 そこで医学的結論を導くために、対応のないt検定と同様の疑問点について検討する時は勝率に基いて行うことにします。

  1. 77%という勝率は医学的に意義があるか?
  2. 77%という勝率は慢性肝炎という疾患によるものなのか?
  3. この結果をそのまま慢性肝炎患者全体と正常人全体に当てはめて良いか?

これらの疑問点に対して全て肯定的に答えられるとすると次のような医学的結論を採用することができます。

医学的結論:慢性肝炎患者のASTグレードは正常人よりも高い。

繰り返しになりますが、順位を利用した検定で注意しなければならない点は、データに対応がある場合でもない場合でも、これらの手法はあくまでも順位平均値の検定であって中央値や平均値の検定ではないという点です。 例えば次のような2種類のデータがあったとします。

表3.4.8 薬剤の効果判定-1
効果判定著効有効無効悪化著明悪化
薬剤1投与群040400080
薬剤2投与群400040080
404040400160
ウィルコクソンの2標本検定:|zo| = 0(p = 1) < t(∞,0.05) = 1.96 … 有意水準5%で有意ではない
表3.4.9 薬剤の効果判定-2
効果判定著効有効無効悪化著明悪化
薬剤1投与群040400080
薬剤2投与群400004080
404040040160
ウィルコクソンの2標本検定:|zo| = 0(p = 1) < t(∞,0.05) = 1.96 … 有意水準5%で有意ではない

2つの表を見比べれば、たいていの人が表3.4.8では薬剤1と薬剤2の効果は同じだが表3.4.9では薬剤2の方が効果が悪いと判断するでしょう。 しかしこれらのデータにウィルコクソンの2標本検定を適用した結果はどちらも全く同じです。 表3.4.9は悪化例がないので著明悪化は無効の次の順位になり、順位平均値は薬剤1投与群も薬剤2投与群も同じになります。 そのためウィルコクソンの2標本検定の結果は、表3.4.8と同じように薬剤1と薬剤2の効果は全く同じであるということになってしまうのです。

そもそも順位を利用したノンパラメトリック手法は、データの値そのものではなく順位を利用することによって飛び離れた値を飛び離れない値として処理するために開発され手法です。 そのため表3.4.8と表3.4.9が同じ検定結果になってしまうのは当然のことです。 しかし悪化と著明悪化を全く同じに扱うというのは医学的にはどう考えても非合理です。

このような時は著効を1、有効を2、無効を3、悪化を4、著明悪化を5と数量化し、平均値を評価指標にしてt検定を適用する方が合理的です。 実際、主にアンケート調査が中心になる心理学分野では上表と同じようなグレードデータであるアンケートの回答を数量化し、計量尺度扱いしてパラメトリック手法を適用するのが普通です。 その際、アンケートの回答としてグレードデータを数量化しやすいように工夫したリッカート尺度(Likert scale)という形式を用います。 (→17.3 因子分析と尺度開発 (2) 心理尺度の例)

上の2種類のデータを数量化してt検定を適用すると次のようになります。 この場合は表3.4.8では2群の平均値は全く同じであるのに対して、表3.4.9では2群の平均値は少し差があることになり医学的に納得できる結果になります。

○表3.4.8の場合
薬剤1投与群:例数 = 80  平均値 = 2.5  標準偏差 = 0.50637  標準誤差 = 0.0562544
薬剤2投与群:例数 = 80  平均値 = 2.5  標準偏差 = 1.50946  標準誤差 = 0.168763
等分散性のF検定:Fo = 9(p < 0.0001) > F(79,79,0.025) = 1.559
不等分散t検定(Aspin-Welchの検定):|to| = 0(p = 1) < t(96,0.05) = 1.985 … 有意水準5%で有意ではない
○表3.4.9の場合
薬剤1投与群:例数 = 80  平均値 = 2.5  標準偏差 = 0.50637  標準誤差 = 0.0562544
薬剤2投与群:例数 = 80  平均値 = 3  標準偏差 = 2.01262  標準誤差 = 0.225018
等分散性のF検定:Fo = 16(p < 0.0001) > F(79,79,0.025) = 1.559
不等分散t検定(Aspin-Welchの検定):|to| = 2.156(p = 0.0338) > t(88,0.05) = 1.987 … 有意水準5%で有意

t検定はデータが正規分布しなければ適用できないと誤解されていますが、正規性のないデータに適用しても誤差はほとんどなく、ちゃんと適用できます。 単に検定効率が少し悪くなるだけです。 しかも検定で必要な正規性は誤差の正規性つまり群ごとの平均値に対する残差の正規性であり、データそのものの正規性ではありません。 また正規分布は数学的な理論分布であり、厳密に正規分布するデータは現実にはありません。

そのためt検定は実際にはデータの誤差が近似的に正規分布し、その結果、標本平均値が近似的にt分布するという性質を利用した検定手法ということになります。 それに対して順位和検定は、ここで説明したように標本順位平均値が近似的に正規分布するという性質を利用した検定手法です。

このようにt検定に限らずほとんどの統計手法は数学的に理想化されたモデルに基づいて組み立てられていて、そのモデルを現実のデータに近似的に当てはめることができるという前提で利用します。 不正確な現実データに理想的な数学モデルを当てはめるのですから、どんな手法を用いようとも所詮は近似にすぎません。 どうせ近似なら科学的に解釈しやすく目的に合った手法を用いるべきです。

○中央値検定

医学論文などで「データが正規分布しないのでウィルコクソンの2標本検定を用いた」と書いておきながら、中央値とIQR(interquartile range)を表に記載してしていることが多々あります。 これは完全な間違いです。 この間違いはウィルコクソンの2標本検定が中央値の検定と誤解されていることが原因でしょう。

中央値を表に記載したら、それは中央値を評価指標にしたということであり、中央値の検定と推定を行わなければ整合性が取れません。 しかし標本中央値は中心極限定理によって近似的に正規分布するものの、分散がデータの分布状態に依存するという厄介な性質があります。 そのため中央値そのものを検定したり推定したりする普遍的な手法はありません。 ただしデータが正規分布する時は中央値の分散を近似的に求めることができるので、中央値の検定と推定を行うことができます。 でも中央値を用いるのはデータが正規分布しない時なので、この検定と推定は無意味でしょう。 (→付録2 中心極限定理のシミュレーション−平均値と中央値)

また中央値は平均値と違って十分統計量ではないので評価指標としてはあまり有用ではありません。 そのため中央値そのものに関する統計手法は少ないのですが、中央値を境界値として利用する中央値検定(median test)という手法があるので紹介しておきましょう。 (→2.2 データの分布と統計手法 (注5))

この手法は2群または多群のデータについて全体の中央値を求め、群ごとに全体中央値以上になる例数と全体中央値未満になる例数を数えて群数×2分割表にまとめます。 例えば第3節の表3.3.3の全体の中央値を求めると45.5になります。 そこで群ごとに45.5以上の例数と45.5未満の例数を数えて、それを2×2分割表にまとめると表3.4.10ようになります。 この表について2群の全体中央値以上の出現率が等しいかどうかを検定するのが中央値検定です。

表3.3.3 正常群と慢性肝炎群のAST
No.12345678910
正常群47453732554438314229
慢性肝炎群56604947654635554146
↓全体中央値(45.5)以上/未満で2分類にする
表3.4.10 正常群と慢性肝炎群のAST分類
分類全体中央値未満全体中央値以上
正常群8210
慢性肝炎群2810
101020
H0:2群の全体中央値以上の出現率は等しい
正常群の全体中央値以上の出現率:0.2(20%)
慢性肝炎群の全体中央値以上の出現率:0.8(80%)
出現率の差 = 0.6(60%)
出現率の差の95%信頼区間:0.6±0.45 → 下限 = 0.15(15%) 上限 = 1(100%)
出現率の差の検定=χ2検定(連続修正有):χo2 = 5(p = 0.0253) > χ2(1,0.05) = 3.841 … 有意水準5%で有意

ここでは出現率の差の検定としてχ2検定を用いましたが、統計ソフトによっては他の手法を用いるものもあります。 出現率の差の検定と推定については第4節を参照してください。

ここで注意しなければならないのは、この手法は2群の中央値が等しいかどうかの検定ではなく、あくまでも中央値以上の出現率が等しいかどうかの検定であるということです。 例えば表3.4.11のようなデータの場合、2群の全体中央値(4.5)以上の出現率は全く同じですが、2群の中央値は大きく異なります。 そしてA群の中央値と順位平均値はたまたま一致しますが、B群の中央値と順位平均値は異なります。 また2群の平均値は大きく異なり、それは中央値とも順位平均値とも異なります。

表3.4.11 2群の元データ
No.1234平均値中央値順位平均値
A群345854.54.5
B群1210820980554.5
全体42.54.54.5
↓全体中央値(4.5)以上/未満で2分類にする
表3.4.12 2群の分類データ
分類全体中央値未満全体中央値以上
A群224
B群224
448

このデータの場合、2群の全体中央値以上の出現率が等しいので中央値検定の結果は全く有意ではなく、「2群の全体中央値以上の出現率は同じ」という結論になります。 そして2群の順位平均値も等しいのでウィルコクソンの2標本検定の結果も全く有意ではなく、「2群の順位平均値は同じ」という結論になります。 つまりどちらの手法もB群の2つの異常値を反映しないのです。 そして中央値は108という異常値を少し反映しますが、209という異常値は反映しません。 それに対して平均値は2つの異常値を反映し、t検定の結果もそれを反映します。

医学分野では疾患による異常値や薬剤の副作用による異常値が必然的に発生します。 そのためそれらの異常値を反映しない手法は不適切です。 中央値も中央値検定もウィルコクソンの2標本検定も異常値を反映しないので、実は医学分野には向いていないのです。 (→2.3 パラメトリック手法とノンパラメトリック手法)


(注1) 表3.4.1のデータにウィルコクソンの1標本検定と推定を適用した結果は次のとおりです。

Tn = 55  T+ = 4  T- = 51  Ts = 4 - 51 = -47
  

|zo| > 2より、連続修正を省いて

符号付き順位和の95%信頼区間 = -47 ± 1.96×19.609 = -47 ± 38.4 → 下限:TsL = -85.4→-55 上限:TsU = -8.6
符号付き順位平均値の95%信頼区間 = -4.7 ± 3.84 → 下限:rsL = -8.54→-5.5  上限:rsU = -0.86
※符号付き順位平均値の理論的な最小値が-5.5のため下限は-5.5になる
寄与率:

(注2) 表3.4.5のデータにウィルコクソンの1標本検定と推定を適用した結果は次のとおりです。

Tn = 28  T+ = 0  T- = 28  Ts = 0-28 = -28
  

|zo| > 2より、連続修正を省いて

符号付き順位和の95%信頼区間 = -28 ± 1.96×11.533 = -28 ± 22.6 → 下限:TsL = -50.6→-28 上限:TsU = -5.4
符号付き順位平均値の95%信頼区間= -4 ± 3.23 → 下限:rsL = -7.23→-4  上限:rsU = -0.77
※符号付き順位平均値の理論的な最小値が-4のため下限は-4になる
寄与率:

(注3) 対応のない2群をA群、B群、それぞれの例数をn、mとして、ウィルコクソンの2標本検定の計算式を導いてみましょう。 「2群の順位平均値が等しい」という帰無仮説が正しいとすると、B群の順位和Tmの期待値と分散は次のようになります。



同位がある時は同位の補正Kを用いる。
  

これらを基にして順位和Tmを標準化したものが検定統計量zであり、これは中心極限定理によって近似的に正規分布をします。

として
|zo| > 2の時は連続修正を省き
順位和の検定:|zo| > t(∞,α)の時、有意水準100α%で有意
順位和の(1-α)%信頼区間:
→ 下限:  上限:
順位平均値の差の検定:



順位平均値の差の100(1-α)%信頼区間:
→ 下限:  上限:

以上のように、順位和の検定は順位平均値の差の検定と同じものになります。 そのため本当はこの手法を「順位和検定」ではなく「順位平均値の差の検定」と呼び、区間推定は順位平均値の差の信頼区間を求める方が実用的です。

ここでA群のデータが全て同じ順位で、B群のデータは全てその次の同じ順位とすると次のようになります。

  



この場合、順位データの変動は全てA群とB群の順位平均値の違いで説明できます。 そのため順位和検定の寄与率と順位相関比を次式で求めることができます。 順位相関比については第5章で詳しく説明します。 (→5.3 計数値の相関分析と回帰分析)

寄与率:   順位相関比:

この手法は外れ値の処理に困っていた化学者のウィルコクソン(Frank Wilcoxon)が1945年に開発しました。 そして彼とは独立に、やはり外れ値の処理に困っていた経済学者のマン(Henry B. Mann)と統計学部の大学院生だったホイットニィ(D. Ransom Whitney)が、U(Upper)という統計量を利用して理論的に同じ内容の手法を1947年に開発しました。 そのためマン・ホイットニィのU検定と呼ばれることもあります。

U検定ではB群のm個のデータそれぞれがA群のn個のデータのうちの何個より大きいかを考えます。 その個数をUmとすると、これはB群のm個のデータとA群のn個のデータが総当たり戦を行った時のB群の勝利数を表す値になり、次のようにして求めることができます。

Si,j= ┌1…B群のデータxi > A群のデータxj (勝ち)
├0.5 …B群のデータxi = A群のデータxj (引き分け)
└0 …B群のデータxi < A群のデータxj (負け)
  Umの最小値 = 0 (全敗)  Umの最大値 = mn (全勝)

このことから、Umを総当り戦の試合数(m×n)で割って100を掛けると勝率を表す値になることがわかります。 そのため検定結果を実質科学的に解釈する時は、Umよりも勝率={Um/(m×n)}×100にした方が便利です。 またUmとTmの間には次のような関係があります。

  Tmの最小値:   Tmの最大値:

つまりTmの分布を最小値が0になるように移動したものがUmの分布になります。 したがって「2群の順位平均値が等しい」という帰無仮説が正しいとするとUmの期待値と分散は次のようになり、検定統計量zはウィルコクソンの2標本検定と全く同じになります。 そのため検定はウィルコクソンの2標本検定と同一になり、推定はTmの代わりにUmを用いたものになります。

  
として
検定:|zo| > t(∞,α)の時、有意水準100α%で有意
Umの100(1-α)%信頼区間:
→ 下限:  上限:

ウィルコクソンの1標本検定と同じように、ウィルコクソンの2標本検定も同位のない時の有意確率を順位和から直接計算することができます。 考え方は全く同様ですが、TmよりもUmの方が扱いやすいのでUmに関する漸化式で表します。

順位の全組み合わせ数:   
○頻度関数f'(m,n,U)と確率密度関数f(m,n,U)
f'(m≦0,n,U) = f'(m,n≦0,U) = f'(m,n,U<0) = f'(m,n,U>mn) = 0
f'(m>0,n>0,0) = f'(m>0,n>0,1) = f'(m>0,n>0,mn) = f'(m>0,n>0,mn-1) = 1
f'(m,n,U) = f'(m,n-1,U) + f'(m-1,n,U-n)   f'(m,n,U) = f'(n,m,U) = f'(m,n,mn-U)

○分布関数F'(m,n,U)と確率分布関数F(m,n,U)
F'(m<0,n,U) = F'(m,n<0,U) = F'(m,n,U<0) = 0
F'(0,n≧0,U≧0) = F'(m≧0,0,U≧0) = F'(m≧0,n≧0,0) = 1
F'(m>0,n>0,1) = 2

F'(m,n,U) = F'(m,n-1,U) + F'(m-1,n,U-n)


○有意確率p値
Tm、Tnのうち小さい方をTとし、その例数をNとして
片側確率:   両側確率:p = 2×F(m,n,U) (F(m,n,U) > 0.5の時はp = 1にする)

表3.4.7のデータについて実際に両方の方法で計算してみましょう。

○直接計算
Tn = 78  Tm = 132
Tn < Tmより、T = Tn = 78として  
  F'(10,10,23) = 3996

○正規近似計算
  


|zo| > 2より、連続修正を省いて
… 有意水準5%で有意
順位平均値の差の95%信頼区間:
  
rdLU = 5.4 ± 1.96×√6.237 ≒ 5.4 ± 4.9 → 下限:rdL = 0.5  上限:rdU = 10.3→10
U値と勝率の95%信頼区間:ULU = (132-55) ± 1.96×√155.92 ≒ 77(77%) ± 24.5
→ 下限:UL = 52.5(52.5%)  上限:UU = 101.5(101.5%)→100(100%)
※勝率の理論的な最大値は100%のため上限は100%になる
寄与率:   順位相関比:
図3.4.6 順位和の確率密度関数f(10,10,T) 図3.4.7 直接計算と近似計算の両側p値

直接計算で求めたp値は同位がない時のものであり、表3.4.7のデータは同位が多いので本来はもう少し小さな値になります。 図3.4.6と図3.4.7を見ると、ウィルコクソンの1標本検定と同様に、p値がだいたい0.05以下(|zo|値にして2以上)では連続修正を省いた方が近似が良いことがわかると思います。

ちなみに2群の勝率の差のことをCliffのdeltaと呼び、効果量(effect size)のように扱うことがあります。 しかし一方の群の勝率はもう一方の群の敗率になるので2群の勝率の差は1つの群の勝率と敗率の差になり、結局のところ1つの群の勝率から0.5(50%)を引いた値の2倍になります。 そして勝率から0.5を引いた値は2群の順位平均値の差の割合に一致しますし、勝率といえば普通は50%よりも多いか少ないかを評価基準にすると思います。 そのためCliffのdeltaつまり2群の勝率の差よりも勝率から0.5を引いた値もしくは勝率そのものの方が有意義で実用的だと思います。

また順位rを標準正規分布における100×{r/(n+1)}%点の値、つまり(n+1)を分母とした時のrの累積出現率に対応する正規偏位に変換し、2群の正規偏位平均値の差を検定するファン・デル・ヴェルデン検定というノンパラメトリック手法があります。

順位rに対応させる正規偏位:
  :標準正規分布
z = Φ-1(p):Φ(z)の逆関数で、Φ(z)の関数値がpになる時の正規偏位z

これはデータの順位を利用してデータを強引に正規分布として取り扱う手法です。 この手法はデータが正規分布していれば2群の平均値の差の検定つまり2標本t検定の正規検定版に相当するので、ウィルコクソンの2標本検定よりも好ましいとされています。

しかし順位を利用したノンパラメトリック手法はデータが正規分布していない時はパラメトリック手法よりも検出力が高くなるという特徴を持っているので、データが正規分布していない時にこそ使い道があります。 データが正規分布している時は素直にパラメトリック手法を用いた方が効率的かつ合理的です。 そのためファン・デル・ヴェルデン検定は計算が面倒な割に使い道はあまりありません。