前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1-1 | 1-2 | 2-1 | 2-2 | 3 | 4 |
データが計数値で標本の数が多数の時は、2標本と同じように主にノンパラメトリック手法を用います。 そしてデータが順序尺度の時と名義尺度の時では、やはり扱いが異なります。
データが順序尺度か順序分類尺度の時は順位を利用した分散分析相当の手法を適用します。 話の都合上、ここでもデータに対応がない場合から説明しましょう。
表4.1.1のデータを10刻みでグレード付けして重症度のような順序分類尺度にし、2標本の時と同様にして順序付けしてみましょう。 そして収縮期血圧のグレードを比較するには順位平均値を評価指標にすることが医学的に妥当だとします。 (→3.4 2標本の計数値 (1) 順序尺度(順位データ) 2) データに対応がない場合)
群内No. | A剤投与群 | B剤投与群 | C剤投与群 |
---|---|---|---|
1 | 11 | 10 | 10 |
2 | 12 | 10 | 10 |
3 | 12 | 10 | 10 |
4 | 13 | 11 | 11 |
5 | 14 | 11 | 11 |
グレード | 10 | 11 | 12 | 13 | 14 | 計 | 順位和 | 順位平均値 |
---|---|---|---|---|---|---|---|---|
A剤投与群の例数 | 0 | 1 | 2 | 1 | 1 | 5 | 63 | 12.6 |
B剤投与群の例数 | 3 | 2 | 0 | 0 | 0 | 5 | 28.5 | 5.7 |
C剤投与群の例数 | 3 | 2 | 0 | 0 | 0 | 5 | 28.5 | 5.7 |
計 | 6 | 5 | 2 | 1 | 1 | 15 | 120 | 8 |
順位 | 3.5 | 9 | 12.5 | 14 | 15 | - | - | - |
ご覧のようにA剤投与群の順位平均値は12.6で、B剤投与群とC剤投与群の順位平均値はどちらも5.7です。 2群の場合と同様にこれら3群の順位平均値が等しいかどうか、言い換えれば薬剤という要因によって順位平均値が変動するかどうかを検討するのがクリスカル・ウォーリス(Kruskal-Wallis)の検定またはH検定と呼ばれる手法です。 これはウィルコクソンの順位和検定を多群に拡張したものであり、順序尺度における一元配置分散分析に相当します。 そのためこの手法は統計的仮説検定ではなく有意性検定を行うのが普通であり、帰無仮説と対立仮説は次のようになります。
計算原理は一元配置分散分析と同様であり、実測値の代わりに順位をデータにし、平均値の代わりに順位平均値を用います。 ただしこの手法では計算結果を分散分析表にはまとめず、要因Aつまり群の検定結果だけを記載します。 有意水準5%として、表4.2.1のデータについて実際に計算すると次のようになります。 (注1)
統計量Hは順位平均値の分散に相当する値であり、これは近似的に自由度(群数-1)のχ2分布をします。 そのため検定統計量としてF値ではなくχ2値を用います。 要因Aの寄与率は全体の順位の変動に対する要因Aによる変動の割合を表し、一元配置分散分析の寄与率と同じように解釈できます。
この場合、2群の順位平均値の差の全例数に対する割合はウィルコクソンの順位和検定と違って±50%以上になることがあり、最大で±100%になることも有り得ます。 そのためB剤およびC剤投与群の順位平均値とA剤投与群の順位平均値が-46%ずれているということは、ウィルコクソンの順位和検定の時ほど大きなズレではないものの、かなりずれていると解釈できます。 これらの結果から次のような統計学的結論を採用することができます。
この統計学的結論から医学的結論を導くためには、一元配置分散分析と同様に次のような点について検討する必要があります。
これらの疑問点について全て肯定的に答えられるとしたら、次のような医学的結論を採用することができます。
一元配置分散分析と同様に、この場合も多重比較を行うことができます。 この場合の多重比較は平均値の代わりに順位平均値を用いるだけで、原理は一元配置分散分析の多重比較と同じです。 そしてウィルコクソンの順位和検定と同様に順位平均値の差の医学的な同等範囲を±10%未満とすると、多重比較の対立仮説は次のようになります。
有意水準5%、信頼係数95%として、テューキー型多重比較とそれに対応する区間推定を行うと次のようになります。 (注2)
以上の結果より、ファミリーとしての統計学的結論は次のようになります。
これについてもクリスカル・ウォーリスの検定と同様の疑問点について検討し、全て肯定的に答えられるとしたら次のような医学的結論を採用することができます。
また一元配置分散分析と同様にクリスカル・ウォーリスの検定と多重比較において群の数が2つの時はウィルコクソンの2標本検定に相当し、χ2値の平方根がz値に対応します。 (注3) (→3.4 2標本の計数値 (1) 順序尺度(順位データ) 2) データに対応がない場合)
さらに一元配置分散分析と同様に要因Aの寄与率の平方根は相関係数の一種になるので、名義尺度のデータと順序尺度のデータの間の関連性の指標として用いることができます。 そこでその値をηrと書き、順位相関比(rank correlation ratio)と呼ぶことにしましょう。 (→4.1 多標本の計量値 (1)データに対応がない場合、5.3 計数値の相関 (4)名義尺度と計量尺度または順序尺度の回帰)
表4.2.1が、ある時点における使用薬剤の種類と収縮期血圧のグレードを観測するという横断的研究から得られたデータをまとめたものとすると、次のようなことが問題になります。
この場合、順位相関比を関連性の評価指標にすることが医学的に妥当だとすると、帰無仮説と対立仮説を次のように設定して統計的仮説検定を行うことができます。
δηrは医学的に意義のある順位相関比の値です。 例えば順位相関比が0.1以上あれば医学的に有意義な関連性があるとするとδηr=0.1にします。 クリスカル・ウォーリスの検定は要因Aによる順位平均値のバラツキ具合の検定であると同時に、順位相関比の検定でもあります。 そのため上記の帰無仮説と対立仮説をクリスカル・ウォーリスの検定によって検定することができます。 表4.2.1についての結果は次のようになります。 (注1)
本来、クリスカル・ウォーリスの検定は前向き研究から得られたデータを分析するための統計手法です。 しかし医学分野では、このように横断的研究から得られたデータにこの手法を適用することがあります。 その場合、評価指標が順位平均値のバラツキ具合ではなく順位相関比になるので注意が必要です。 この場合の統計学的結論と医学的結論は次のようになります。
ただしこの場合は横断的研究から得られたデータを用いているので投与薬剤の種類と収縮期血圧グレードの関係を特定することはできません。 つまり投与した薬剤の効果によって収縮期血圧のグレードが変動したのか、それとも収縮期血圧のグレードを見て主治医が投与薬剤の種類を決定したのかわかりません。 そのため「投与薬剤の種類と収縮期血圧グレードの間には関連性がある」ということしかいえないのです。 このあたりのことは一元配置分散分析と同様です。
今度は表4.1.6のデータを10刻みでグレード付けし、対応のある順序分類尺度にしてみましょう。
被験者No. | 投与前 | 投与1週後 | 投与2週後 |
---|---|---|---|
1 | 11 | 10 | 10 |
2 | 12 | 10 | 10 |
3 | 12 | 10 | 10 |
4 | 13 | 11 | 11 |
5 | 14 | 11 | 11 |
このデータではグレードを変動させる要因は個人差と時期の2つであり、個人差を要因A、時期を要因Bとした二元配置分散分析と同じデータ構造をしています。 したがって個人差を誤差として時期を要因Aとすれば、クリスカル・ウォーリスの検定を適用できます。 しかし被験者をブロック因子として個人差を誤差から取り除いた方が効率が良くなるので、その方法を考えてみましょう。
まず被験者ごとに3時期のデータを順序付けし、表4.2.4のようにまとめます。 同位の値の扱いは今までと同じです。 この場合の順位は被験者ごとに付けているので、被験者ごとの順位和は全て6で順位平均値は全て2です。 そして各時点の順位和と順位平均値は個人差を取り除いたものになります。
被験者No. | 投与前 | 投与1週後 | 投与2週後 | 順位和 | 順位平均値 |
---|---|---|---|---|---|
1 | 3 | 1.5 | 1.5 | 6 | 2 |
2 | 3 | 1.5 | 1.5 | 6 | 2 |
3 | 3 | 1.5 | 1.5 | 6 | 2 |
4 | 3 | 1.5 | 1.5 | 6 | 2 |
5 | 3 | 1.5 | 1.5 | 6 | 2 |
順位和 | 15 | 7.5 | 7.5 | 30 | - |
順位平均値 | 3 | 1.5 | 1.5 | - | 2 |
この場合、もし時期という要因がデータを変動させなければ、各時点の順位和と順位平均値は一致するはずです。 このことを利用して、各時点の個人差を取り除いた順位平均値がばらついているかどうかを検定するのがフリードマン(Friedman)の検定と呼ばれる手法です。 この手法は順序尺度における繰り返しのない二元配置分散分析に相当します。 そしてこの手法も有意性検定を行うのが普通であり、帰無仮説と対立仮説は次のようになります。
計算原理は二元配置分散分析と同様であり、実測値の代わりに順位をデータにし、平均値の代わりに順位平均値を用います。 ただしこの手法では順位を付ける時に個人差が取り除かれているので個人差つまり要因Aの検定は行えません。 そのため計算結果を分散分析表にはまとめず、要因Bつまり時期の検定結果だけを記載します。 有意水準5%として、表4.2.3のデータについて実際に計算すると次のようになります。 (注4)
この場合の順位は被験者ごとに3つの時点のデータについて付けたものなので、順位平均値の差の割合は時期数3に対する割合になります。 そのため最大で(2/3)×100%になります。 そして要因Bの寄与率は被験者ごとの3時点の順位のバラツキの中で時期変動によって説明できる割合になります。 表4.2.3の場合、5例全てが同じ順位変動をしているので寄与率は100%になります。 この結果から次のような統計学的結論を採用することができます。
この統計学的結論から医学的結論を導くためには、二元配置分散分析と同様に次のような点について検討する必要があります。
これらの疑問点について全て肯定的に答えられるとしたら、次のような医学的結論を採用することができます。
二元配置分散分析と同様に、この場合も多重比較を行うことができます。 この場合の多重比較は平均値の代わりに順位平均値を用いるだけで、原理は二元配置分散分析の多重比較と同じです。 そして順位平均値の差の医学的な同等範囲を±10%未満とすると、多重比較の対立仮説は次のようになります。
有意水準5%、信頼係数95%として、ダネット型多重比較とそれに対応する区間推定を行うと次のようになります。 (注4)
以上の結果より、ファミリーとしての統計学的結論は次のようになります。
これについてもフリードマンの検定と同様の疑問点について検討し、全て肯定的に答えられるとしたら次のような医学的結論を採用することができます。
またフリードマンの検定と多重比較において時期数が2つの時は順位が2つだけの時のウィルコクソンの1標本検定つまりマクネマーの検定に相当し、χ2値の平方根がz値に対応します。 (注5)
これらを基にして順位和Tiを標準化すると次のようになります。
ziは中心極限定理によって近似的に標準正規分布するので、それらを平方して合計した値は近似的に自由度aのχ2分布をすると考えられます。 しかし要因Aの自由度が(a-1)である関係から、実際には次のように自由度の修正をした統計量Hが近似的に自由度(a-1)のχ2分布をします。 (→付録1 各種の確率分布 (2)χ2分布)
ただし順位和の分布は離散分布のため、より正確にはそれぞれのziについて連続修正を施す必要があります。 しかしそうすると非常に煩雑な式になるので普通は連続修正を施しません。 もし同位の値があれば、2標本の場合と同様に同位の補正Kを用いて次のように計算します。
各群の例数が不揃いの時は次のようになります。
全体の変動は各群が1例で、しかもその値がそれぞれ異なっている時の要因Aの変動に等しくなるので、次のように全体の自由度と等しくなります。 その結果、要因Aの寄与率RA2はχ2値を自由度で割った値になります。
各群の母順位和が全て同じではない時、χo2は非心度λの非心χ2分布に従います。 λは全体の母順位和と各群の母順位和の差を平方して合計した値であり、χo2によって推定することができます。 そして非心χ2分布の(α/2)点の値χ2(φA,λ,α/2)と(1-α/2)点の値χ2(φA,λ,1-α/2)を利用してχo2の区間推定を行うことができます。 さらにこれらの値を利用して寄与率と順位相関比の区間推定も行うことができます。 (→付録1 各種の確率分布)
表4.2.1のデータについて実際に計算してみましょう。
この方法は全群を合わせて順位付けを行うので全順位法と呼ばれます。 それに対して比較する2群ごとに順位を付け、ウィルコクソンの2標本検定と同じ計算式を用いてダネット型多重比較を行うこともできます。 その順位付け方法を個別順位付け法と呼び、それを利用したダネット型多重比較をスティール(Steel)の方法といいます。 全順位法と個別順位付け法の結果は一致するとは限りませんが、通常はよく似た結果になります。
テューキー型にも全順位法と個別順位付け法があり、個別順位付け法を用いた手法をスティール・ドゥワス(Steel-Dwass)の方法といいます。 やはり両者の結果は一致するとは限りませんが、通常はよく似た結果になります。
ボンフェローニ型の全順位法ではフィッシャー型の多重比較の有意確率に検定の回数をかけた値を有意確率にします。 その手法をダンの多重比較といいます。 個別順位法はウィルコクソンの2標本検定を行い、その有意確率に検定の回数をかけた値を有意確率にします。 区間推定は信頼係数を(1 - α/検定回数)にして行います。
表4.2.1のデータについて有意水準5%、信頼係数95%として、テューキー型多重比較を用いて実際に計算してみましょう。
帰無仮説より、要因Bの各時期ごとの順位和Tj(j = 1,…,b)の期待値と分散は次のようになります。
これらを基にして順位和Tjを標準化すると次のようになります。
クリスカル・ウォーリスの検定と同様に、zjの平方を合計して自由度の修正をした値は近似的に自由度(b-1)のχ2分布をします。 この場合も普通は連続修正を施しません。
b個のデータが全て同位の値であるブロックについては、そのブロックを省いて計算しても同じ結果になります。 例えばb個のデータが全て同位の値であるブロックがC個ある時、これらを省いた時のブロック数をa' = a - c、全体の順位和をT'、同位の補正をK'とすると、次のようにχo2値は変わりません。
全体の変動はブロックごとの順位が全て一致し、しかも同位の値がない時の要因Bの変動と等しくなります。 これは要因Aの変動を取り除いた時の全変動であり、同時にその自由度でもあります。 その結果、要因Bの寄与率RB2はχ2値をこの自由度で割った値になります。
RB2は見方を変えればブロックごとの順位付けがどの程度一致しているかを表す値と解釈することもできます。 そのためケンドール(Kendall)の一致係数(coefficient of concordance)Wとも呼ばれます。 (→5.4 級内相関係数と一致係数 (3)ケンドールの一致係数W)
表4.2.3のデータについて実際に計算してみましょう。
要因Bに関する多重比較はクリスカル・ウォーリスの検定と同様ですが、順位平均値の差の分散が少し変わります。
全順位法であるダンの多重比較ではフィッシャー型の多重比較の有意確率に検定の回数をかけた値を有意確率にします。 個別順位法ではウィルコクソンの2標本検定を行い、その有意確率に検定の回数をかけた値を有意確率にします。 区間推定は信頼係数を(1 - α/検定回数)にして行います。
表4.2.3のデータについて有意水準5%、信頼係数95%として、ダネット型多重比較を用いて実際に計算してみましょう。
そこでB1時期における順位1の個数をx、順位2の個数をyとすると、次のようにフリードマンの検定の式はマクネマーの検定における連続修正を施さない式に一致します。 したがってこの式はウィルコクソンの1標本検定において順位が2つだけの時の連続修正を施さない式にも一致します。 (→3.2 1標本の計数値 (2)名義尺度 (注3))