玄関雑学の部屋雑学コー ナー統計学入門

(2) 名義尺度(分類データ)

データが名義尺度の時は主に度数を利用した手法を適用します。 そして度数を利用した手法にも、やはり対応のある手法と対応のない手法があります。

1) データに対応がある場合

順序尺度の場合と同様に、この場合も次のような問題について考えてみましょう。

問題:慢性肝炎患者に薬剤Aを投与することによってAST(GOT)が低下するか?

そして今度はASTが低下するかどうかを評価するには出現率を評価指標にすることが医学的に妥当だとします。 そこで表3.3.1の変化量を薬剤A投与前後で値が低下したものと上昇したものに分類し、名義尺度のデータにしてみましょう。

表3.4.13 投与前後のASTの変化
ASTの変化低下上昇 計 
例数8210
図3.4.8 AST変化のバーチャート

投与前後でASTが変化しないとしたら低下も上昇も同じ確率で起こり、両者の例数はほぼ一致するはずです。 したがって投与前後でASTが変化したかどうかを検討するには理論的低下確率π0=0.5の二項検定すなわち符号検定を適用することができます。 そして第2節と同様に出現率に関する医学的な許容範囲を±10%未満とすると検定の帰無仮説と対立仮説を次のように表すことができます。

H0:π = π0 = 0.5
H1:π = π0 ± 0.1 (π = 0.4 または π = 0.6)

これらの仮説に基いて有意水準5%、信頼係数95%として、表3.4.13に符号検定と推定を適用すると次のようになります。 (注1)

AST低下の理論度数:x* = 10×0.5 = 5   AST低下の実現度数:x = 8  出現率 = 0.8(80%)
検定:p = 0.1094 > 0.05 … 有意水準5%で有意ではない
出現率の95%信頼区間:下限 = 0.44(度数にすると4) 上限 = 0.97(度数にすると10)

この場合、検定結果は有意ではなく、πの信頼区間に0.5を含んでいて、しかも信頼区間幅が0.53もあります。 これは±10%という出現率の差を検出するには例数が足らないことを表しています。 事実、基準値π0を0.5、πを0.6にし、有意水準5%、検出力80%という条件で必要例数を計算すると194例になります。 このような時はとりあえず次のような統計学的結論を採用し、医学的結論は保留します。 そしてできれば例数を増やして再試験を行うのが賢明です。

統計学的結論:薬剤A投与後の慢性肝炎群のAST低下率は80%であり、幅をもたせれば44%〜97%の間である。
 したがってAST低下率は50%ではない可能性が高いが、信頼性が低いので結論は保留する。

例えば低下確率80%のまま例数を30例に増やすと次のような結果になります。

表3.4.14 投与前後のASTの変化(30例の場合)
ASTの変化 低下  上昇   計  
例数24630
AST低下の理論度数:x* = 30×0.5 = 15   AST低下の実現度数:x = 24  出現率 = 0.8(80%)
検定:p = 0.014 < 0.05 … 有意水準5%で有意
出現率の95%信頼区間:下限 = 0.61(度数にすると6) 上限 = 0.92(度数にすると9)

この場合は次のような統計学的結論と医学的結論を採用することができます。

統計学的結論:薬剤A投与後の慢性肝炎群のAST低下率は50%よりも大きい。 その低下率は80%であり、幅をもたせれば61%〜92%の間である。

そしてウィルコクソンの符号付き順位検定と同様の疑問点について全て肯定的に答えられるとすると、次のような医学的結論を採用することができます。

医学的結論:慢性肝炎患者のASTは薬剤Aの投与後に低下する。 それは薬剤Aの効果であると考えられる。

表3.4.13は変化量を「低下」と「上昇」に分類したものです。 しかし変化量ではなく実測値を「正常」と「異常」に分類し、その変化を検討したい時もあります。 例えば表3.3.1の実測値について40未満を「正常」、40以上を「異常」と判定して投与前後の変化を表にすると表3.4.15のようになります。 ASTの判定ではなくても、例えば尿蛋白の定性検査のように最初から「正常」と「異常」の2分類で測定されているものでも全く同じように扱うことができます。

表3.4.15 投与前後のAST判定の変化
投与前\投与後正常異常 計 
正常101
異常459
5510

この場合、「異常→正常」と変化した4例が低下例に相当し、「正常→異常」と変化した0例が上昇例に相当します。 そのためこれらだけを表3.4.13のようにまとめれば投与前後でAST判定が変化したかどうかを符号検定によって検定することができます。 マクネマー(McNemar)の検定は、本来はこのようなデータについて「異常→正常」と「正常→異常」の出現率が等しいかどうかを検定するために符号検定を正規近似した簡略な手法として工夫されたものです。

表3.4.15の「正常→正常」の1例と「異常→異常」の5例は不変例になり、これらを検定から除外してしまうのは何となくもったいない気がします。 表3.4.13でも前後で値が変化しないものがあれば、それは不変例になります。 そこで表3.4.16のように対応のない2標本扱いすると、不変例も解析対象にすることができます。 不変例が非常に多い場合はこの方が効率が良い時があります。

表3.4.16 投与前後のAST判定
時期\判定正常異常 計 
投与前1910
投与後5510
61420

ただしこのように対応のない2標本扱いすると、投与前の「正常」または「異常」の症例が投与後にどのように変化したかはわかりません。 そのため投与前後の変化の様子を分析したい時は対応のある2標本扱いする必要があります。

また対応のない2標本は独立であり関連性がありません。 そのためこの後で説明する2標本の出現率を比較する手法は、2標本のデータが独立であるという前提で計算式を組み立てています。 したがって対応のある2標本のデータに2標本の出現率を比較する手法を適用する時は2標本の関連性を考慮した計算式に修正する必要があります。 (→1.8 科学的研究の種類 (注1))

それから対応のない2標本扱いするのではなく上昇を1、不変を0、低下を-1と数量化して、その平均値が0かどうかを1標本t検定で検定するという方法も考えられます。 これは勝ち・引き分け・負けの勝ち点を決めて、勝ち点合計を指標にするサッカーのWカップ方式のようなものです。 それに対して引き分けを除外して勝ち負けの出現率を符号検定する方法は、引き分けを除外して勝率を指標にするプロ野球のペナントレース方式に相当します。 引き分けが多い時は、当然、ペナントレース方式よりもWカップ方式の方が合理的です。

表3.4.13は計量値を計数化したデータですから、この方法よりも元のデータをそのまま計量値として扱う方が合理的です。 しかし表3.4.15のようなデータで不変例が多い時はこのような数量化法も一考に値します。

また不変例が多いということは投与前後のデータがあまり変化しておらず、よく似ていることを表します。 そこで投与前後の変化を検討するのではなく、逆に投与前後のデータの一致度を検討するという方法が考えられます。 このような対応のあるデータの一致度を検討するには一致係数κ(カッパ)を用います。 これについては第5章第4節を参照してください。 (→5.4 級内相関係数と一致係数)

2) データに対応がない場合

a) 2×2分割表の場合
○出現率の差(リスク差)

第3節の表3.3.3のデータを40未満を「正常」、40以上を「異常」と判定して、対応のない名義尺度のデータにすると表3.4.17のようになります。 このように2群のデータを2種類に分類したものを2×2分割表または四分表と呼びます。 これは統計学ではよく利用される表であり、縦と横の分類は群や正常・異常だけではなくどんなものでもかまいません。

表3.4.17 慢性肝炎群と正常群のAST判定
AST判定 正常  異常  計 
正常群5510
慢性肝炎群1910
61420
図3.4.9 AST判定のバーチャート

この場合は次のような問題について考えてみましょう。 この問題は出現率を評価指標にすることが医学的に妥当であるという前提に基づいています。

問題:慢性肝炎患者と正常人のAST異常率に違いがあるか?

慢性肝炎群と正常群のAST異常率をそれぞれπH、πNとし、出現率に関する医学的な同等範囲をπN±0.1(10%)未満とすると、検定の帰無仮説と対立仮説を次のように表すことができます。

H0:πH = πN
H1:πH = πN ± δ = πN ± 0.1 (πH = πN - 0.1 または πH = πN + 0.1)

この帰無仮説と対立仮説に基づいて、2群の母集団における正常/異常の割合が等しいかどうかを検定する手法がフィッシャーの正確検定(Fisher's exact test、フィッシャーの直接確率計算法による検定)です。

2群の母集団における異常率が等しい時、表3.4.17のような結果を得る確率は、6個の白玉(AST正常例)と14個の赤玉(AST異常例)が入った袋(赤玉率70%)から無作為に10個の玉(慢性肝炎群)を取り出した時、その中の1個が白玉で9個が赤玉になり、袋の中には白玉が5個と赤玉が5個残る(正常群)確率として求めることができます。 そして取り出した赤玉の個数は二項分布とよく似た超幾何分布(hypergeometric distribution)と呼ばれる分布になります。 この分布を利用して、二項検定と同じようにt値のような検定統計量を用いずに有意確率を直接計算して検定する手法がフィッシャーの正確検定です。

有意水準5%として、表3.4.17にフィッシャーの正確検定を適用すると次のようになります。 (注2)

正常群の異常率:
慢性肝炎群の異常率:
異常率の差 = 0.9 - 0.5 = 0.4(40%)
検定:p = 0.1409 > 0.05 … 有意水準5%で有意ではない

フィッシャーの正確検定は二項検定と似ていますが、大きく異なる点があります。 二項検定は例数が無限大で「有」の出現率がπの母集団からn例の標本集団を無作為抽出した時に、n例中の「有」の例数が二項分布する性質を利用した手法です。 そのため二項検定の結果は母集団の例数が何例の時でも近似的に適用できて、検定結果に普遍性があります

それに対してフィッシャーの正確検定は例数がm例で「有」の出現率がπの母集団からn例を無作為抽出して残りが(m-n)例になった時、つまりm例の母集団をn例と(m-n)例に2分した時にn例中の「有」の例数が超幾何分布する性質を利用した手法です。 そのため厳密にいうとフィッシャーの正確検定の結果は母集団がm例の時しか適用できず、検定結果に普遍性がありません

そこで出現率の差が近似的に正規分布するという性質を利用して、二項検定を正規近似した手法と同様の出現率の差の正規近似検定が開発されました。 この手法は出現率の差を正規分布で近似しますが、それは超幾何分布を正規分布で近似して普遍性をもたせていることにもなります。 そのためこの手法はフィッシャーの正確検定を正規近似して普遍化した手法に相当し、検定統計量z値を利用して検定と推定を行います。

またこの手法は後で説明する独立性の検定と原理的に同じものになるので、z値を平方したχ2値を検定統計量として利用することもできます。 そしてその場合は独立性の検定と同様に慣習的に2×2のχ2検定と呼ばれることが多いようです。 ただし出現率の差の正規近似検定は離散分布である超幾何分布を連続分布である正規分布で近似するので、二項分布の正規近似検定と同様に連続修正(イェーツの補正)を施します。 そのため検定統計量としてχ2値を利用する時は、正確には2×2のχ2検定(連続修正有り)と呼ぶ必要があります。

それに対して独立性の検定は連続修正を施さないのが普通なので、同じ2×2のχ2検定でも独立性の検定結果と出現率の差の検定結果は連続修正の分だけ異なります。 これについては後の独立性の検定のところで詳しく説明します。 なおχ2値はz値を平方した値なので、χ2検定の仮説は次のように2群の出現率の差の平方を指標にしています。 そのためこれは片側検定になります。

H0:δ2 = (πH - πN)2 = 0
H1:δ2 = (πH - πN)2 = 0.12 = 0.01

有意水準5%、信頼係数95%として、表3.4.17について計算すると次のようになります。 (注3)

χo2 = 2.143(p = 0.1432) < χ2(1,0.05) = 3.841 … 有意水準5%で有意ではない
異常率の差の95%信頼区間 = 0.4(40%) ± 0.46 → 下限 = -0.06(6%) 上限= 0 .86(86%)

上記のようにχ2検定のp値(片側確率)とフィッシャーの正確検定のp値(両側確率)はよく似ていて、かなり正確な近似法であることがわかります。 そしてフィッシャーの正確検定は母集団が特定の例数の時のものなので、この原理を用いて普遍性のある推定をするのは困難です。 それに対して出現率の差の検定は母集団が無限大の時のものなので、この原理を用いると普遍性のある推定をすることができます。

昔の統計学の解説書などに、

「理論度数が5未満のものがあればフィッシャーの正確検定を適用し、全て5以上ならχ2検定を適用せよ」

と書かれていることがあります。 これはコンピュータが利用できず、理論度数が5以上になるとフィッシャーの正確検定を手計算するのが難しかった時代の歴史的遺物ですから無視してかまいません。 コンピュータが手軽に利用できる現在は、計算方法の煩雑さではなく手法の特徴に合わせて両者を使い分けるべきです。

フィッシャーの正確検定に用いる超幾何分布は帰無仮説――2群の異常率が等しいという仮説――に基づいた分布は想定できるものの、具体的な対立仮設――2群の異常率が10%異なるという仮説――に基づいた分布は想定できません。 そのため有意性検定に用いることはできますが、統計的仮説検定に用いるのは困難です。

統計的仮説検定に用いられないということは検定の検出力を求めらず、事前に試験の必要例数を求めることはできないということです。 そもそもフィッシャーの正確検定に用いる超幾何分布は表3.4.17のような標本データを母集団そのものと考えた時の分布ですから、事前に試験の必要例数を求めるのが不可能なのは当然です。 したがって統計的仮説検定を行いたい時は理論度数とは無関係にフィッシャーの正確検定ではなく出現率の差の正規近似検定つまりχ2検定を用いるべきです。

さらに前述のように、フィッシャーの正確検定は普遍性のある推定を行うことが困難です。 そのため出現率の差の検定と推定にはフィッシャーの正確検定よりも出現率の差の正規近似手法を用いる方が合理的です。

表3.4.17の場合はどちらの手法を用いても検定結果は有意ではなく、出現率の差の信頼区間に0を含んでいて、しかも信頼区間幅が0.92もあります。 これは表3.4.13の結果と同じく±10%という出現率の差を検出するには例数が足らないことを表しています。 そのためこの場合もとりあえず次のような統計学的結論を採用し、医学的結論は保留します。

統計学的結論:慢性肝炎群正常群のAST異常率の差は40%であり、幅をもたせれば-6%〜86%の間である。
 したがってAST異常率は正常群の異常率より高い可能性が高いが、信頼性が低いので結論は保留する。

前節の符号検定と同様に、例数を増やして再試験を行い、出現率の差が40%のままで検定結果が有意になり、出現率の差の信頼区間の下限が10%以上で、しかもウィルコクソンの順位和検定と同様の疑問点に全て肯定的に答えられるとすると、次のような医学的結論を採用することができます。

医学的結論:慢性肝炎患者のAST異常率は正常人よりも高い。
○リスク比

医学分野では特定の疾患に対するリスク因子の影響の大きさを検討することがよくあります。 その場合、表3.4.17の群がリスク因子の有無に、AST判定が疾患の有無になります。 そして出現率がリスク(Risk)に、その差がリスク差(RD:Risk Difference)になり、フィッシャーの正確検定または出現率の差の正規近似検定がリスク差の検定になります。

そして疾患の発症率が小さい時は、リスク差ではなく出現率の比つまりリスク比(RR:Risk Ratio)または相対危険度(RR:Relative Risk)を評価指標にすることがあります。 一般的な疾患は発症率が小さいので出現率の差が小さいのに対して出現率の比は大きな値になることがあります。 そのため小さな発症率の差を顕微鏡で拡大して観察するような感覚でリスク比を検討し、リスクファクターが疾患の発症に与える影響を詳細に検討することができます。

また出現率が小さい時、出現率は指数関数的に変化することが多くなります。 そのような時は出現率を対数変換し、リスク因子との関係を直線的にしてから分析すると数学的に好都合です。 そこでリスク差の代わりに対数リスク差を用いて統計計算し、対数リスク差を指数変換して元に戻したリスク比を評価指標にするわけです。 (→1.9 科学的研究のデザイン)

リスク比は2群の出現率が等しい時は1になり、等しくない時は1未満または1よりも大きな値になります。 この性質を利用してリスク比の検定と推定を行うことができます。 この検定の基準値は1であり、リスク比に関する医学的な同等範囲を0.5<RR<2とすると、検定の帰無仮説と対立仮説を次のように表すことができます。

H :RR = 0 π H π N = 1
H :RR = 1 π H π N = 0.5 または 2

有意水準5%、信頼係数95%として、表3.4.17について計算すると次のようになります。 (注5)

  ln(RR) = ln(9) - ln(10) - ln(5) + ln(10) ≒ 0.5878
χo2 = 3.109(p = 0.0778) < χ2(1,0.05) = 3.841 … 有意水準5%で有意ではない
対数リスク比の95%信頼区間:
リスク比の95%信頼区間:下限 = exp(ln(RR)L) = e-0.066 = 0.937
 上限 = exp(ln(RR)U) = e1.241 = 3.459 (出現率の差にすると 下限 = 0.47 上限 = 1.7→1)

上記のようにリクス比の検定と推定は、実際にはリスク比を対数変換した対数リスク比つまり対数出現率の差に基づいて計算します。 そしてこの検定結果と推定結果はリスク差の検定と推定つまりフィッシャーの正確検定と出現率の差の正規近似推定と少し違っています。 しかしこの手法はリスク差の検定ではなくリスク比の検定なので、それは当然です。 そのためこの手法はリスク比を評価指標にすることが医学的に妥当な時に用います。

○連関係数

表3.4.17は正常群と慢性肝炎群の例数を研究者が指定し、それらの群のAST判定の正常/異常を観測するという前向き研究から得られたデータをまとめたものです。 しかし全体の例数だけを研究者が指定し、ある時点における慢性肝炎の有無とAST判定の正常/異常を観測するという横断的研究でも表3.4.17と同じ形式の2×2分割表が得られます。 そこで表3.4.17がそのような横断的研究から得られたデータをまとめたものとすると、その場合は次のようなことが問題になります。

問題:慢性肝炎の有無とAST判定の正常/異常の間に関連性があるか?

もし慢性肝炎の有無とAST判定の間に関連性がない、つまりお互いに独立だとすると、慢性肝炎群の正常/異常の割合と正常群の正常/異常の割合は同じになり、理論的正常率と理論的異常率は次のようになるはずです。

正常率 = 6 20 = 0.3 異常率 = 14 20 = 0.7

このことから表3.4.17は理論的には表3.4.18のようになるはずであり、これを理論度数といいます。 そしてもし慢性肝炎の有無とAST判定の間に関連性があると、実際の結果つまり実現度数は表3.4.17のようになって理論度数とくい違うはずです。

表3.4.18 AST判定の理論度数
AST判定正常異常 計 
正常群3710
慢性肝炎群3710
61420

理論度数と実現度数のくい違いは計量値でいえば個々のデータと平均値との差つまり偏差に相当します。 そしてそのくい違いを平方して理論度数で割って1理論度数当りの平方くい違い量にし、さらにその値を各度数ごとに計算して合計したものをχ2(カイジジョウ)値といい、これは平方和に相当します。 このχ2値を全体の度数で割ってその平方根を取ると1度数あたりの平均的な食い違い量を表す値になります。

この値は、実現度数と理論度数のくい違いがないつまり慢性肝炎の有無とAST判定が独立なら0になり、両者の間に関連があれば0よりも大きくなり、完全に関連していれば1になります。 そのためこの値は2種類の分類データの相関係数に相当し、クラメール(H. Cramer)の連関係数(coefficient of contingency)と呼ばれてV(またはθ)で表されます。 この連関係数を関連性の評価指標にすることが医学的に妥当だとすると、「慢性肝炎の有無とAST判定の正常/異常の間に関連があるか?」という問題を検定する時の帰無仮説と対立仮説を次のように表すことができます。 (→1.9 科学的研究のデザイン)

H0:V = 0
H1:V = δV>0

δVは医学的に意義のある連関係数の値です。 例えば1度数あたり0.1程度の食い違いがあるつまり10%程度の関連性があれば医学的に有意義とすればδV=0.1にします。 これらの仮説を検定するには連関係数の計算に用いるχ2値を検定統計量として利用します。 その手法のことを独立性の検定または関連性の検定または適合度の検定といいます。 また検定統計量としてχ2値を用いるのでχ2検定と呼ばれることもあり、医学分野では慣習的にこの名称で呼ばれることが多いと思います。 なお連関係数もχ2値も負にならず、関連性が強いほど大きな値になるのでこれは片側検定になります

表3.4.17のような分割表における縦と横の合計度数のことを周辺度数といい、周辺度数を変化させないで自由に値を変えられる度数の個数を分割表の自由度といいます。 例えば表3.4.17では10、10、6、14が周辺度数であり、1、9、5、5の度数のうちどれか1つを変化させると周辺度数を変えないためには他の3つの値を変えなければなりません。 つまり1つの度数は自由に値を変えられますが、他の3つの値は自動的に決まってしまいます。 したがって2×2分割表における自由度は1になります。

χ2検定はt検定と同様に実験結果のχ2値から有意確率p値を求めて有意水準と比べたり、p値が有意水準と等しくなる時のχ2値と実験結果のχ2値を比べるなどして検定します。 そして基準のt値が自由度によって値が異なるように基準のχ2値も自由度によって値が異なります。 自由度がφの時の基準のχ2値のことを自由度φのχ2分布における100α%点といい、χ2(φ,α)と書きます。 この値は統計の教科書などに載っていて、次のような値がよく使われます。 なおχ2検定は通常は片側検定なので、これらの値は片側確率(上側確率)が0.05や0.01になる時のχ2です。

χ2(1,0.05) = 3.841  χ2(1,0.01) = 6.635   χ2(2,0.05) = 5.991  χ2(2,0.01) = 9.210

またt値とχ2値の間には次のような関係があります。

χ2(1,α) = {t(∞,α)}2

2×2のχ2検定に用いられるのは自由度が1の時のもので、実験結果から求められたχ2値をχo2と書くと次のようにして検定します。

χo2 ≧ χ2(1,α)の時、有意水準100α%で有意

有意水準5%、信頼係数95%として、表3.4.17について計算すると次のようになります。 (注3)

クラメールの連関係数:V = 0.436  寄与率:r2 = V2 = 0.190
χo2 = 3.810(p = 0.0510) < χ2(1,0.05) = 3.841 … 有意水準5%で有意ではない
連関係数の95%信頼区間:下限 = 0.046 上限 = 0.875

連関係数を平方したV2は1度数あたりのχ2値になり、分類データの寄与率に相当します。 連関係数を平方すると寄与率になるのは相関係数を平方すると寄与率になることと同様です。 つまり計量値のバラツキを平方和または積和で表し、それに基づいて寄与率を求めるのと同様に、分類データのバラツキをχ2値で表し、それに基づいて寄与率を求めるわけです。 この寄与率は一方の分類データのバラツキのうち他方の分類との関連性によって説明できる割合を表します。

またこの検定は片側検定ですから、本来なら推定も片側信頼区間を用いるべです。 しかしVは負にならないので片側信頼区間の下限は負になりません。 そのためt検定のように「信頼区間に基準値(この場合はV=0)が入っていなければ有意」という関係が成り立たず、検定結果と推定結果が矛盾することがあります。 そこで上記のように連関係数は片側信頼区間ではなく両側信頼区間を求めるのが普通です。

「慢性肝炎の有無とAST判定の間に関連性がある」ということについて別の見方をすると、「慢性肝炎群と正常群の異常率に違いがある」という意味にも解釈できます。 事実、表3.4.17のような2×2分割表における独立性の検定つまり2×2のχ2検定は、原理的に出現率の差の正規近似検定と同じものになります。 ただしこの手法を出現率の差の検定に用いる時は、フィッシャーの正確検定との近似を良くするために出現率の差の正規近似検定と同様に連続修正を施す必要があります。

有意水準5%、信頼係数95%として、表3.4.17について計算すると次のように出現率の差の正規近似検定と同じ結果になります。 そしてこの結果は連続修正を施しているので、前述の連関係数の検定結果とは微妙に異なることがわかると思います。 (注3)

χo2 = 2.143(p = 0.1432) < χ2(1,0.05) = 3.841 … 有意水準5%で有意ではない

以上のことから連続修正を施した2×2のχ2検定は出現率の差の正規近似検定として用い、連続修正を施さないχ2検定は独立性の検定に用いると使い分けると合理的です。 (→4.2 多標本の計数値 (2)名義尺度5.3 計数値の相関分析)

○四分点相関係数

χ2検定と同じように独立性の検定であるものの、正規分布に対する近似法が少し異なるものとしてマンテル・ヘンツェル(Mantel-Haenszel)の検定という手法があります。 この手法は連関係数ではなく四分点相関係数(four-fold point correration coefficient)の検定に相当します。 四分点相関係数はφ(ファイ)係数とも呼ばれ、表3.4.17の縦と横の分類を順位として扱った時の順位相関係数に相当します。

この手法はχ2検定よりわずかに小さいχ2値が得られ、わずかに有意になりにくい手法です。 しかしχ2検定よりも一般性があるので生命表解析など様々な場面で利用されます。 (→5.3 計数値の相関分析11.2 生存率の比較方法)

有意水準5%として、表3.4.17について四分点相関係数を計算すると次のようになります。 なおこの検定はχ2値を用いているので片側検定ですが、このχ2値は正規分布のz値を平方した値なのでz値を用いた両側検定にすることも可能です。 そのため推定は両側信頼区間を用います。 (注4)

四分点相関係数:φ = 0.436 = θ   寄与率:r2 = φ2 = 0.190 = θ2
χmo2 = 3.619(p = 0.0571) < χ2(1,0.05) = 3.841 … 有意水準5%で有意ではない
四分点相関係数の95%信頼区間:下限 = -0.008 上限 = 0.737

この結果から四分点相関係数は連関係数と一致することと、マンテル・ヘンツェルのχ2値は連関係数のχ2値よりもわずかに小さいことがわかります。 ただし四分点相関係数と連関係数が一致するのは2×2分割表の時だけであり、分類数が3個以上になると四分点相関係数は順位相関係数になって連関係数とは一致しません。 また連関係数は負にならないので連関係数と四分点相関係数の推定結果は一致するとは限りません。

○オッズ比

群とASTの正常/異常の分類の関連性を表す値としてオッズ比(見込み比、odds ratio)または交差積比(cross-product)と呼ばれる値があります。 オッズ(odds)とは異常率と正常率の比であり、オッズ比は2群のオッズの比です。 この値を表3.4.17について計算すると次のようになり、結局のところ2×2分割表の対角線上のデータをかけてそれを比にした値つまり交差積比になります。

オッズ比は群とASTの正常/異常の分類の間に関連性が全くない時、つま2群の異常率が等しい時は1になり、関連性がある時つまり2群の異常率が異なっている時は1未満の値または1よりも大きな値になります。 そしてオッズ比を対数変換すると対数交差積の差{log(9×5)-log(5×1)}になり、対数スケールにおける四分点相関係数の分子相当の値になります。 (→1.9 科学的研究のデザイン)

この性質を利用してオッズ比を関連性の指標として用い、独立性の検定と推定を行うことができます。 この検定の基準値は1であり、オッズ比に関する医学的な同等範囲を0.5<OR<2とすると検定の帰無仮説と対立仮説を次のように表すことができます。

H :OR = 0 π /(1 - π ) H H π /(1 - π ) N N = 1
H :OR = 0 π /(1 - π ) H H π /(1 - π ) N N = 0.5 または 2

有意水準5%、信頼係数95%として、表3.4.17について計算すると次のようになります。 (注5)

オッズ比:OR = 9
χo2 = 3.195(p = 0.0739) < χ2(1,0.05) = 3.841 … 有意水準5%で有意ではない
オッズ比の95%信頼区間:下限 = 0.81 上限 = 100 (出現率の差にすると 下限 = 0.41 上限 = 50→1)

この検定結果と推定結果は連関係数や四分点相関係数の検定結果と少し違っていて、リスク差やリスク比の検定結果とも少し違います。 この手法はオッズ比の検定なので、それは当然です。 そのためこの手法はオッズ比を関連性の評価指標にすることが医学的に妥当な時に用います。

ちなみに出現率が小さい時(約10%未満)は出現率がオッズに近似するので、リスク比がオッズ比に近似します。 そのため有病率の小さい疾患とそのリスクファクターの関係を検討する時、リスク比の代わりにオッズ比を指標にすることがあります。 その代表例がロジスティック回帰分析です。 (→第10章 ロジスティック回帰分析)

b) 2×b分割表の場合

名義尺度のデータは分類数が3つ以上になることも有り得ます。 例えば脂質異常症治療薬AとBの効果を比較するために脂質異常症患者60名を無作為に2群に分け、それぞれ薬剤Aと薬剤Bを投与したとします。 この時、脂質異常症の3つのタイプが表3.4.19のようになっていたとします。

表3.4.19 2群の脂質異常症のタイプ
タイプ高LDL-C血症低HDL-C血症高TG血症 計 
薬剤A投与群1210830
薬剤B投与群8101230
20202060
図3.4.10 脂質異常症タイプのバーチャート

2種類の薬剤の効果を比較する時、3種類の脂質異常症タイプの出現率が2群で異なっていると公平な比較ができません。 そこでこの場合は3つのタイプの出現率パターンつまり3つのタイプの割合を評価指標にして次のような問題について検討する必要があります。

問題:2群の脂質異常症タイプの割合は等しいか?

この場合もフィッシャーの正確検定と同じ原理の検定手法を適用して、2群の脂質異常症タイプの割合が等しいかどうかを検討することができます。 しかし2×2分割表以外の正確検定は計算が非常に複雑になるので、普通は近似法としてχ2検定を用います。 そして群数が2つで分類数がbの時のχ2検定を2×bのχ2検定と呼び、さらに一般化して群数がaで分類数がbの時のχ2検定をa×bのχ2検定と呼びます。 (→4.2 多標本の計数値 (2)名義尺度 (1)データに対応がない場合)

この検定の帰無仮説は次のように表すことができます。

H0:2群の脂質異常症タイプの割合は等しい。

一方、対立仮説は少々複雑です。 分類数が2つの時は1つの分類の出現率の差が0かどうかを検定するので、出現率の差に関する医学的な同等範囲に基いて対立仮説を設定することができます。 ところが分類数が3つ以上になると2群の出現率の差を平方して合計した値が0かどうかを検定する必要があります。 出現率の差を平方するのは、出現率の差をそのまま合計すると0になってしまうからです。

しかし出現率の差を平方して合計した値は、たとえ値が同じでも各分類の出現率の差には色々な場合が有り得ます。 例えば1つの分類の出現率の差だけが非常に大きく、他の分類の出現率の差は全て小さい場合もあれば、全ての分類の出現率の差が同じ程度の大きさといった場合もあります。 例えば表3.4.19において各タイプの出現率に関する医学的な同等範囲を例えば±0.1未満とし、次のような対立仮説を設定したとします。

H1:2群の脂質異常症タイプの出現率の差を平方して合計した値は0.03である。

そして検定結果が有意にならなず、3タイプの出現率の差を平方して合計した値が0.03未満だったとします。 この時、どれか1つのタイプの出現率の差は0.1以上なのに、他の2つのタイプの出現率の差が0.1よりかなり小さいので差を平方して合計した値が0.03未満になったということが有り得ます。 そのため2×2の分割表以外は具体的な対立仮説を設定せず、統計的仮説検定ではなく有意性検定を行うことが多いと思います。 その時の対立仮説は帰無仮説を否定した次のようなものになります。

H1:2群の脂質異常症タイプの割合は等しくない。

また表3.4.19が横断的研究から得られた得られデータをまとめたものとすると、薬剤投与群ごとの脂質異常症タイプの割合の違いを「投与された薬剤の種類と脂質異常症タイプの間に関連性があるか?」という問題としてとらえることができます。 すると帰無仮説と対立仮説を次のように表すことができます。

問題:投与薬剤の種類と脂質異常症タイプの間に関連性があるか?
H0:投与薬剤の種類と脂質異常症タイプの間に関連性はない → 連関係数 V = 0
H1:V = δV > 0

この場合の対立仮説は「投与薬剤と脂質異常性タイプの間にδV(例えば10%)程度の関連性がある」という意味であり、「出現率の差を平方して合計した値が0.03である」という対立仮説よりは解釈しやすいと思います。 また2×nのχ2検定は計算式が複雑なので普通は連続修正を施しません。 そのため2群の出現率が等しいかどうかの検定と連関係数の検定は同じものになります。 したがって2×2の分割表以外は前向き研究から得られたデータにも横断的研究から得られたデータにも連関係数の検定を適用し、結果を解釈する時に研究デザインと評価指標を考慮するのが合理的です。

有意水準5%として、表3.4.19に2×3のχ2検定を適用すると次のようになります。 (注6)

クラメールの連関係数:V = 0.163  寄与率:r2 = V2 = 0.027
自由度:φ = (2-1)×(3-1) = 2
χo2 = 1.600(p = 0.4493) < χ2(2,0.05) = 5.991 … 有意水準5%で有意ではない
連関係数の95%信頼区間:下限 = 0.043 上限 = 0.447

この場合、検定結果は有意ではなく、連関係数の信頼区間幅がかなり大きくなっています。 これは表3.4.17と同様に例数が足らないことを表しています。 そのためとりあえず次のような統計学的結論を採用し、医学的結論は保留します。

統計学的結論:投与薬剤と脂質異常症タイプの間には16%程度の関連性があり、幅をもたせれば4〜45%の間である。
 したがって2群の脂質異常症タイプの割合は異なっている可能性が高いが、信頼性が低いので結論は保留する。
  または
 したがって投与薬剤と脂質異常症タイプの間に関連性がある可能性が高いが、信頼性が低いので結論は保留する。

この例のように背景因子の均一性を比較する場合、検定結果が有意ではない時は消極的ながら2群の脂質異常症タイプの割合はほぼ同等であると結論することが多いと思います。 しかし本来は2群の脂質異常症タイプの割合の違い——高LDL-C血症と高TG血症における4例の違い、つまり割合にすれば13%の違い——について医学的に考察する必要があります。 もし出現率に関する医学的な同等範囲を±10%にしたのなら次のような医学的結論を採用し、それなりの対応——例えばタイプの影響を補正した解析等——をするのが賢明でしょう。

医学的結論:2群の脂質異常症タイプの割合は異なっている可能性が高い。

また表3.4.19が横断的研究から得られたデータをまとめたものであり、投与薬剤と脂質異常症タイプの間に関連性があるかどうかを問題にしている時は連関係数0.163について医学的に考察する必要があります。 そして連関係数について医学的に意義のある値を0.1にしたのなら、次のような医学的結論を採用しても良いと思います。

医学的結論:投与薬剤と脂質異常症タイプの間に関連性がある可能性が高い。

(注1) 表3.4.13のデータに符号検定と推定を適用した結果は次のとおりです。

x = 8 > 10×0.5 = 5より分布の上側:
πの95%信頼区間
下限:φ1 = 2×3 = 6、φ2 = 2×8 = 16、F(6,16,0.025) = 3.34063 → (度数 = 4)
上限:φ1 = 2×2 = 4、φ2 = 2×9 = 18、F(4,18,0.975) = 0.116382 → (度数 = 10)

(注2) 表3.4.17のデータを一般化すると次のようになります。

表3.4.20 2×2分割表
群\分類B1B2
A1n11n12N1.
A2n21n22N2.
N.1N.2N

A1群とA2群においてB1に分類される確率つまりB1の出現率をそれぞれπ1、π2とし、出現率に関する実質科学的な許容範囲をδとすると、帰無仮説と対立仮説は次のようになります。

H0:π2 = π1 = π
H1:π2 = π1 ± δ (π2 = π1 - δ または π1 = π2 + δ)
:B2の両群共通確率

この帰無仮説の下で上表のような結果を得る確率pn22は、N.1個のB1とN.2個のB2に分類されたN個のものから、無作為にN2.個のA2を取り出した時、それがn21個のB1とn22個のB2に分類される確率になります。 そしてこの時、n12/N1.≒n22/N2.≒N.2/Nになる確率が最も高いことがわかると思います。

帰無仮説だけ見るとpn22はB2分類に関して理論確率をπ≒pB2にした二項分布になるように思えます。 しかしこの場合はN個の有限母集団からN2.個の標本を非復元抽出法によって無作為抽出するので理論確率πを定数扱いできず、二項分布とは別の超幾何分布(hypergeometric distribution)になります。 (→3.2 1標本の計数値 (注1))

超幾何分布:

n.2/N ≒ π、n.1/N ≒ (1 - π)より、N→∞とすると: … 二項分布

非復元抽出法とは一度取り出した標本を元に戻さずに次の標本を取り出す抽出法のことであり、この場合はN2.個の標本を取り出したので残りがN1.個になっているということです。 それに対して一度取り出した標本を母集団に戻してから次の標本を取り出す方法を復元抽出法といいます。 復元抽出法の場合はN2.個の標本を取り出した後、それを元に戻してから次のN2.個を取り出すので残りの個数という概念はなくなります。 そのため母集団の例数はN個のままであり、理論確率πは定数になるのでpn22は二項分布になります。

B2に分類される確率がA1群とA2群で等しいという帰無仮説のもとでn22を変化させる、つまり周辺度数を固定して表内度数を変化させた時、表の種類は(最小の周辺度数+1)個になります。 したがって仮にN.2が最小の周辺度数だとすると、度数n22確率密度関数f(n22)確率分布関数F(n22)は次のようになります。 (→付録1 各種の確率分布)


これが超幾何分布の確率密度関数と確率分布関数であり、二項分布よりもわずかに幅の狭い分布になります。 この超幾何分布を利用して前述の帰無仮説と対立仮説を検定する手法がフィッシャーの正確検定です。 二項検定と同様にこの検定も本来は片側検定用ですから、前述の2種類の対立仮説に対応して分布の両側に棄却域を設定します。 すなわち有意水準をαとすると、分布の両側にそれぞれ確率α/2を割り振って次のような条件を満足する度数n22L、n22Uまでを棄却域にします。

  

超幾何分布は2群の例数が異なると左右非対称の離散分布になります。 そのため棄却域の面積つまり合計確率がαに一致するとは限りませんし、両方の棄却域の合計確率が一致するとも限りません。 例えば下側棄却域の合計確率はほぼ0であるのに対して、上側棄却域の合計確率はほぼα/2であるということが起こり得ます。 そんな時は下側棄却域と上側棄却域の合計確率がαになるまで片方の棄却域を広げても良いという考え方があります。

しかし両側検定は分布の左右に合計確率がα/2を超えない棄却域を設定する検定ですから、この考え方は間違いです。 このことは第2節で説明した二項検定と同様であり、詳しい説明は第1章第6節の(注3)を参照してください。 (→1.6 統計的仮説検定の考え方 (注3)3.2 1標本の計数値 (注1))

度数n22の理論度数は(N2.×N.2/N)なので、実験結果の度数n22が分布のどちら側にあるかは次のようにして調べることができます。 そしてその結果を利用して片側検定の有意確率を求め、それを2倍した値を両側検定の有意確率にして検定を行います。


(n11n22 - n12n21) < 0 なら分布の下側: → p = 2pL (2pL > 1 なら p = 1にする)
(n11n22 - n12n21)>0 なら分布の上側: → p = 2pU (2pU>1 なら p=1にする)
p < αの時、有意水準100α%で有意
※片側検定の時はpLまたはpUをそのままpにして検定する。

表3.4.17のデータについて実際に計算してみましょう。

6 < 14、10よりN.2 = 6、n22 = 1になるように表3.4.17を置き直し、その表で(n11n22 - n12n21) = 5×1 - 5×9 = -40 < 0よりn22 = 1は分布の下側
図3.4.11 超幾何分布の確率密度関数 図3.4.12 直接計算と近似計算の両側p値

(注3) 表3.4.17のデータを一般化した表3.4.20を用いて2×2のχ2検定と出現率の差の正規近似検定の計算式を説明しましょう。 まず各実現度数と理論度数の差は次のようになります。

表3.4.20 2×2分割表
群\分類B1B2
A1n11n12N1.
A2n21n22N2.
N.1N.2N



これらからχ2値を求めると次のようになります。

このχ2値は近似的に自由度1のχ2分布をします。 自由度φのχ2分布は左右非対称な分布であり、その確率密度関数f(χ2)は次のようになります。

χ2値は実現度数と理論度数のズレを平方して理論度数で割り、それを度数ごとに合計したものであり、ズレが大きいほど大きな値になります。 しかしこの値は合計度数によって変化するので評価指標としては不便です。 そこでχ2値を合計度数で割って平方根にした値がクラメールの連関係数です。 連関係数は1度数あたりのズレの大きさを表し、最小が0つまり「ズレがない」で、最大が1つまり「完全にズレている」になり、2種類の分類データの関連性を表す値になります。

クラメールの連関係数を評価指標にすると、帰無仮説と対立仮設を次のように表すことができます。 δVは実質科学的に意義のある連関係数の値です。 例えば「1例あたりのズレが10%以上あれば実質科学的に意義がある」とすればδV=0.1になります。

H0:V = 0
H1:V = δV > 0
:クラメールの連関係数、ただしχo2は連続修正しない値

χ2値はズレを平方した値なので負にはならず、χ2分布には負の領域がありません。 そのためこの分布を利用するχ2検定は分布の片側だけに棄却域を設定する片側検定になります。 そこで統計学の解説書などには分布の上側だけで累積確率αになる時のχ2値が100α%点の値χ2(φ,α)として載っています。

検定はこのχ2(φ,α)と実験結果のχ2値を比較するか、それともχ2値を片側p値に変換し、それとαを比べることによって行います。

χo2 > χ2(1,α)の時、有意水準100α%で有意
または  の時、有意水準100α%で有意

この場合の理論度数、例えばn22の理論度数は、A分類がA2になる確率N2./NとB分類がB2になる確率N.2/Nが独立であるという仮定に基づいて(N2./N)×(N.2/N)×N=(N2.N.2/N)として求めています。 これは「N以外は全て確率変数である」つまり全体の例数Nだけを研究者が決めてn11、n12、n21、n22を観測した横断的研究から得られたデータを前提にしています。 それに対してフィッシャーの正確検定は「NとN1.とN2.以外は確率変数である」つまりA1群の例数N1.とA2群の例数N2.を研究者が決めてn11、n12、n21、n22を観測した前向きまたは後ろ向き研究から得られたデータを前提にしています。

そのため上記の帰無仮説と対立仮説はフィッシャーの正確検定の帰無仮説と対立仮設とは異なるものになり、検定結果も少し異なるものになります。 これは両者の評価指標が異なるので当然のことです。

表3.4.17のデータについて実際に計算してみましょう。 なお連関係数の推定方法については4.2節の(注1)をご覧ください。 (→4.2 多標本の計数値 (2) 名義尺度 (注1))

  V = 0.436
検定:
Vの95%信頼区間 下限:VL = 0.043 上限:VU = 0.447

一方、出現率の差の正規近似検定は次のような考え方から導くことができます。 表3.4.20を前向き研究から得られたデータをまとめたものとするとA1群の例数N1.とA2群の例数N2.は研究者が決めた定数であり、n11、n12、n21、n22が確率変数になります。 そして2群のB2の母出現率が等しくて、それをπとするとn12とn22はそれぞれ二項分布B(x|N1.,π)とB(x|N2.,π)に従います

母出現率πを2群を合わせた時のB2の出現率N.2/Nで推定し、二項分布を正規分布で近似すると、2群のB2の出現率の差を次のように正規近似することができます。 連続修正を施しているのは離散分布である二項分布を連続分布である正規分布で近似するからです。 連続修正(イェーツの補正)の原理については3.2節の(注2)をご覧ください。 (→3.2 1標本の計数値 (2)名義尺度 (注2))

A1群における出現率:   A2群における出現率:



|zo| > t(∞,α)の時、有意水準100α%で有意

出現率の差δの100(1-α)%信頼区間は2群の母出現率が異なるという前提で差の分散を群別に推定し、さらに連続修正を加えて次のようになります。


δの100(1-α)信頼区間:
→ 下限:  上限:

上記のように検定では2群の母出現率を同じと仮定し、それをπ=N.2/Nで推定して近似正規分布を求めます。 それに対して信頼区間を求める時は2群の母出現率をそれぞれp1=n12/N1.とp2=n22/N2.で推定して近似正規分布を求めます。 そのため検定と推定の近似正規分布の分散が一致するとは限らず、(1-α)の度数が含まれる範囲の幅が一致するとは限りません。 そのため検定では有意水準5%で有意にもかかわらず、推定ではδの95%信頼区間が0をまたぐ(δの推定範囲が負〜正になる)という矛盾した現象が起こり得ます。

そこで検定と推定の整合性を取るために、検定も推定も母出現率をπで推定して近似正規分布を求めるという方法があります。 この方法では検定で有意水準5%で有意になれば推定では必ず95%信頼区間は0をまたがないという結果になり、両者の結果が矛盾しません。 ただしこの方法で求めた信頼区間は2群の母出現率がp1とp2に近いと信頼区間の精度が悪くなってしまいます。 そのため普通は上記の式で推定を行います。 このように一般に検定結果と推定結果は一致するとは限りません。 (→1.5 有意性検定の考え方 (注1))

zoを平方すると、次のように2×2のχ2検定における連続修正を施したχo2値と一致します。 つまり出現率の差の正規近似検定はフィッシャーの正確検定を正規近似した手法に相当し、この手法の両側検定をχ2値を利用して片側検定にしたものが連続修正を施した2×2のχ2検定に相当するわけです。 そのため連続修正を施したχ2検定をフィッシャーの正確検定の近似法として利用することができます。

連続修正を施したχ2値:
 
zoを平方した値:
 

表3.4.17のデータについて実際に計算してみましょう。


検定:χo2 = 2.143(p = 0.1432) < χ2(1,0.05) = 3.841
  

出現率の差δの95%信頼区間:δLU = 0.4 ± 0.46 → 下限:δL = -0.06 上限:δU = 0.86

ここで第2節の(注2)と同様に、離散分布の検定と推定の関係について再度突っ込んで考えてみましょう。 第1章第3節で説明したように、要約値が連続分布する時は95%信頼区間には95%の要約値が含まれます。 そして信頼区間外の領域が5%棄却域になり、そこには5%の要約値が含まれます。 ところが出現率のように要約値が離散分布する時は95%信頼区間に95%の要約値が含まれるとは限らず、5%棄却域に5%の要約値が含まれるとは限りません。 (→1.3 推定)

例えば図3.4.11の超幾何分布では有意水準5%の時の下側棄却域は度数0で上側棄却域は度数6です。 そしてこの棄却域に含まれる標本度数の割合は0.0054+0.0054=0.0108であり、全体の1.08%しかありません。 さらにこの棄却域外の度数1〜5が95%信頼区間に相当し、そこに含まれる標本度数の割合は1-0.0108=0.9892であり、全体の98.92%もあります。

図3.4.11 超幾何分布の確率密度関数

このことから要約値が離散分布する時は95%信頼区間には95%以上の要約値が含まれ、5%棄却域には5%以下の要約値が含まれることがわかります。 したがって額面上は有意水準5%の検定でも実際の要約値が棄却域に入る確率は5%以下であり、額面上は信頼係数95%の信頼区間でも実際の要約値が信頼区間に入る確率は95%以上である、つまり離散分布を用いた検定の実質的なαエラーは5%以下になり、信頼区間の実質的な信頼係数は95%以上になるわけです。

そもそも図3.1.44の超幾何分布の両側棄却域は度数0と6(p=0.0108)、度数0〜1と5〜6(p=0.1409)、度数0〜2と4〜6(p=0.6285)の3種類だけです。 そのため実質的なαエラーも3種類だけであり、有意水準を0.01、0.05、0.1などと細かく分類して検定するのはほとんど無意味です。 何しろ各群の例数が10例なので出現率や確率の有効数字は小数点以下1桁だけですから、小数点以下2桁目についてあれこれ検討するのは無意味なのがわかると思います。

出現率の差の場合、検定は超幾何分布を利用するか、超幾何分布を正規分布で近似して行います。 これはB2の母出現率がπ=N.2/NであるN例の有限母集団からN.2例の標本を非復元抽出法によって無作為抽出した時の、2群の出現率の差の理論分布を用いた検定です。 ところが信頼区間は2群の標本出現率p1=n11/N1.とp2=n22/N2.の二項分布をそれぞれ正規近似し、それに基づいて出現率の差の分布を正規近似して求めます。 これらは標本集団のデータから求めた信頼区間なので検定結果と推定結果が一致するとは限らないのは当然です。

例えば図3.4.11の超幾何分布の場合、5%棄却域に入っているのは度数0と6であり、度数1〜5は95%信頼区間に入っています。 それに対してそれぞれの度数がn22の標本度数と仮定し、それに基づいて標本出現率の差の95%信頼区間を求めると、連続修正を施した正規近似法による信頼区間は度数1〜5の時は母出現率差0を含み、度数0と6の時は母出現率差0を含みません。 これは度数0と6は棄却域に入っていることを意味し、検定結果と矛盾しません。

しかし連続修正を施さない正規近似法による信頼区間は度数0、1、5、6の時に母出現率差0を含まず、度数1と5の時は検定結果と矛盾します。 これは母出現率がπ=N.2/Nの時の信頼区間に標本度数1と5が入っているにもかかわらず標本度数1と5の時の信頼区間には母出現率の差0が入っていない、つまり検定結果は有意ではないのに推定結果では有意になる現象であり、診断学でいう偽陽性に相当します。 これは度数1と5の時の連続修正を施さない正規近似法による信頼区間の幅が、母出現率がπの時の信頼区間の幅よりも狭いことが原因です。

この関係をクロス集計表で表すと次のようになります。

表3.4.22 検定結果と推定結果のクロス集計表
(各群の例数=10・連続修正有の正規近似法)
検定結果(母集団)\推定結果(標本集団)95%信頼区間5%棄却域
95%信頼区間0.9892←(e)00.9892←(a)
5%棄却域00.0108←(e)0.0108←(b)
0.9892←(c)0.0108←(d)1
(a)B2の母出現率=6/20=0.3の時の超幾何分布の95%信頼区間(度数1〜5)に標本度数が入る確率=1-(b)
(b)B2の母出現率=6/20=0.3の時の超幾何分布の5%棄却域(度数0・10)に標本度数が入る確率=実質的αエラー
(c)標本度数から求めた95%信頼区間(正規分布利用・標本度数によって異なる)に母出現率差=0が入る確率
(d)標本度数から求めた5%棄却域(95%両側信頼区間外)に母出現率差=0が入る確率=1-(c)
(e)検定結果と推定結果が一致する確率=0.9892+0.0108=1
表3.4.23 検定結果と推定結果のクロス集計表
(各群の例数=10・連続修正無の正規近似法)
検定結果(母集団)\推定結果(標本集団)95%信頼区間5%棄却域
95%信頼区間0.85910.13010.9892
5%棄却域00.01080.0108
0.85910.14091
検定結果と推定結果が一致する確率=0.8591+0.0108=0.8699

上表のように、連続修正を施した正規近似法による推定結果は正確検定の結果と全て一致するので一致率は100%です。 それに対して連続修正を施さない正規近似法による推定結果は偽陽性の確率が0.1301あるので一致率は86.99%になり、精度が少し悪くなります。

また正確検定の実質的αエラーは0.0108しかなく、連続修正を施した正規近似法の信頼区間の被覆確率(母数を含む信頼区間の割合)は0.9892もあります。 そのため一見すると正確検定は検出力が低く、連続修正を施した正規近似法の信頼区間は精度が悪いように思えるかもしれません。

しかし正確検定の実質的αエラーが小さな値になるのは超幾何分布の棄却域の割合が額面よりも小さくなることを反映しているのであり、実は正確な値です。 また連続修正を施した正規近似法の信頼区間の被覆確率が大きな値になるのは超幾何分布の信頼区間の割合が額面よりも大きくなることを反映しているのであり、決して精度が悪いわけではありません

連続修正を施さない正規近似法による信頼区間の被覆確率は偽陽性の確率が0.1301あるので0.8591になり、額面の0.95より小さな値です。 離散分布の信頼区間の割合は必ず0.95以上になるので、被覆確率が0.95未満の信頼区間はいくら額面の0.95に近くても精度が悪いと解釈する必要があります。 そして表3.4.22と表3.4.23を比べると、出現率差の信頼区間は連続修正を施した正規近似法の方が精度が良いことがわかると思います。

またコンピュータで疑似乱数を発生させて出現率差の検定と推定のシミレーションを行い、その結果を報告した論文がたまにあります。 しかしN例の有限母集団からN.2例の標本を非復元抽出法によって無作為抽出した時の2群のデータについて全ての組み合わせを理論的に求め、全組み合わせ数に対する特定の組み合わせの割合(出現確率)を計算したものが超幾何分布です。 そのためわざわざ偶然に任せた不正確なシミュレーションをしなくても、超幾何分布を用いて正確な実質的αエラーや被覆確率を計算して表3.4.22や表3.4.23のようなクロス集計表を作成することができます。

離散分布は例数が増えれば連続分布に近づくので、実質的αエラーも額面の値に近づきます。 例えば各群の例数が100例の時の正確検定の検定結果と推定結果のクロス集計表は次のようになります。

表3.4.24 検定結果と推定結果のクロス集計表
(各群の例数=100・正規近似法)
検定結果(母集団)\推定結果(標本集団)95%信頼区間5%棄却域
95%信頼区間0.955600.9556
5%棄却域00.04440.0444
0.95560.04441
検定結果と推定結果が一致する確率=0.9556+0.0444=1

上表のように、100例の時は正確検定の実質的αエラーが0.0444になり額面の0.05に近づきます。 そして正規分布による超幾何分布の近似も良くなるので、連続修正を施しても施さなくても正規近似法による推定結果は検定結果と100%一致します。 そして正規近似法による信頼区間の被覆確率も額面の0.95に近づきます。

検定結果と推定結果の関係は例数だけでなくB2の母出現率によっても変わります。 そこで例数が10例と100例の時について、母出現率を変化させた時の被覆確率と実質的αエラー、そして検定結果と推定結果の一致率の変化をグラフ化してみました。 グラフが階段状に不連続に変化しているのは、N2.は整数なので母出現率を連続的に変化させても値が不連続に変化し、N2.が同じ値の間は被覆確率などは変わらないからです。

図3.4.13 二項分布(10例)の被覆確率 図3.4.14 二項分布(10例)の実質的αエラー 図3.4.15 二項分布と区間推定の一致率(10例)
図3.4.16 二項分布(100例)の被覆確率 図3.4.17 二項分布(100例)の実質的αエラー 図3.4.18 二項分布と区間推定の一致率(100例)

これらのグラフの青い折れ線は正確検定から求めた超幾何分布の信頼区間の割合つまり実質的信頼係数と、棄却域の割合つまり実質的αエラーです。

そして青い折れ線とほとんど重なっている濃い灰色の折れ線は、母出現率としてπ=N.2/Nを用いた正規近似法(連続修正有)による検定と推定の被覆確率と実質的αエラーと、そして一致率です。 この方法は超幾何分布を正規近似して行うので、正確検定との一致率は高くなります。 特に各群10例の時は正確検定と完全に一致するので、被覆確率と実質的αエラーは同じ曲線になり、一致率のグラフは一致率1のところに横に引いた黒い直線になります。

緑の折れ線は連続修正を施した正規近似法による被覆確率と実質的αエラー、そして一致率です。 この方法は2群の母出現率をそれぞれの標本出現率で推定して求めた二項分布を正規近似して行う方法なので、正確検定との一致率は母出現率としてπを用いた正規近似法よりも少し低くなります。 しかし10例の時も100例の時も正確検定との一致率はかなり高く、実用上はほとんど問題がないことがわかると思います。

赤い折れ線は連続修正を施さない正規近似法による被覆確率と実質的αエラー、そして一致率です。 この方法は連続修正を施さないので正確検定との一致率は最も低くなります。 ところが100例の時の被覆確率は平均的には0.95に近く、一見すると連続修正を施した正規近似法よりも精度が良いように思えてしまいます。 しかしそれは偽陽性があるのでたまたま0.95に近いだけであり、決して精度が良いわけではないのは前述のとおりです。

また母出現率としてπを用いた正規近似法と標本出現率を用いた正規近似法を比較すると、母出現率としてπを用いた方が信頼区間の精度が高いことがわかります。 ということは本当の母出現率が標本出現率に近い時は標本出現率を用いた正規近似法の方が精度が高いということです。

これらのグラフを見ると、連続修正を施した正規近似法による信頼区間および棄却域はB2の母出現率の値によらず母出現率を用いた信頼区間および棄却域との一致率が高いので、検定の帰無仮説が正しい時でも対立仮説が正しい時でも精度が高いことがわかります。 このことから連続修正を施した正規近似法は精度がかなり高く、正確検定に対応する区間推定法としてはこの方法を用いるのが実用的であることがわかると思います。

ちなみに平均値の場合でも、母集団から求めた標本平均値の理論分布を用いて行った検定結果と、標本集団のデータから求めた標本平均値の理論分布を用いて行った検定結果は一致するとは限りません。 これは標本集団から求めた母分散の推定値である不偏分散に誤差があり、母分散を正確に推定できないことが原因です。 しかし平均値の場合は実際の検定も推定も標本集団のデータから求めた理論分布を用いて行うので、標本平均値が検定の棄却域に入れば信頼区間には入らず、検定結果と推定結果は必ず一致します。 (→付録2 中心極限定理のシミュレーション−平均値と中央値)

(注4) マンテル・ヘンツェルの検定では表3.4.20の度数n22の分布を正規分布で直接近似します。 この場合もN個の有限母集団からN2.個の標本を非復元抽出法によって取り出すので、n22の分布は二項分布よりも少し幅の狭い超幾何分布になります。 そこでn22の分散が二項分布よりも少し小さくなることを補正するために有限(母集団)修正(finite population correction)を施します。 この補正によってV(n22)は超幾何分布の分散の近似値になります。 (→1.8 科学的研究の種類 (注1))

表3.4.20 2×2分割表
群\分類B1B2
A1n11n12N1.
A2n21n22N2.
N.1N.2N

  :有限修正

χmo2 > {t(∞,α)}2 = χ2(1,α)の時、有意水準100α%で有意

χmo2値を独立性の検定における連続修正を施したχo2値と比較すると、次のようにわずかに小さな値になります。

同じ表3.4.20のデータにウィルコクソンの2標本検定を適用すると、順位は2つだけなので平均順位と全体の順位和は次のようになります。

平均順位:      全体の順位和:

この時、A2群の順位和T2はn21とn22の組み合わせだけで決まります。 その組み合わせ数を順位の全組み合せ数NCN2.で割るとT2を得る確率になります。

T2の組み合わせ数:
T2を得る確率:

これは超幾何分布そのものです。 したがってこの場合のウィルコクソンの2標本検定の直接確率計算法はフィッシャーの正確検定と一致します。 また正規近似計算は、次のようにχ2検定ではなくマンテル・ヘンツェルの検定と一致します。 そして順位が2つだけのウィルコクソンの2標本検定は、縦も横も順位が2つだけのスペアマンの順位相関係数つまり四分点相関係数に相当します。 そのためマンテル・ヘンツェルの検定は四分点相関係数の検定に相当します。

このことは度数n22の期待値として(N2.N.2/N)つまりn22の理論度数を用いていることからもわかります。 これはマンテル・ヘンツェルの検定がχ2検定と同様に「N以外は全て確率変数である」、つまり全体の例数Nだけを研究者が決めてn11、n12、n21、n22を観測した横断的研究から得られたデータを前提にしていることを表しています。

  




この場合のウィルコクソンの2標本検定に連続修正を加えると、次のようにマンテル・ヘンツェルの検定に連続修正を加えたものとは多少異なった値になります。 これは、連続修正を加えたウィルコクソンの2標本検定は順位平均値の差の検定という性格が強くなり、連続修正を加えたマンテル・ヘンツェルの検定は出現率の差の検定という性格が強くなることを反映しています。

以上のことから出現率の差の検定にはフィッシャーの正確検定を用い、クラメールの連関係数の検定には連続修正を加えないχ2検定を用い、四分点相関係数の検定には連続修正を加えないマンテル・ヘンツェルの検定を用いるという使い分けが合理的であることがわかります。 そして連続修正を加えたχ2検定と連続修正を加えたマンテル・ヘンツェルの検定は、フィッシャーの正確検定の正規近似検定として利用できます。

表3.4.17のデータについて実際に計算してみましょう。 なお四分点相関係数の推定方法については5.3節の(注2)をご覧ください。 (→5.3 計數値の相関分析と回帰分析 (注2))

出現率の差の正規近似検定:
四分点相関係数:   寄与率:φ2 = 0.190
検定:
φの95%信頼区間 下限:φL = -0.008 上限:φU = 0.737

(注5) 表3.3.15においてB1が正常でB2が疾患の時、A2群のB2の出現率とA1群のB2の出現率の比をリスク比(RR:Risk Ratio)または相対危険度(RR:Relative Risk)といいます。

表3.4.20 2×2分割表
群\分類B1B2
A1n11n12N1.
A2n21n22N2.
N.1N.2N

リスク比を対数変換した対数リスク比つまり対数リスクの差は近似的に正規分布するので、この性質を利用して検定と推定を行うことができます。 この検定は対数リスク差が0かどうか、つまりリスク比が1かどうかの検定であり、リスク差が0かどうか、つまり出現率の差の検定とは別の検定です。 しかしこの検定はあまり知られていないせいか、リスク比を計算しておきながら検定は普通のχ2検定を行うことがしばしばあります。 リスク比を計算した時はこのリスク比の検定を行わなければ整合性が取れません

  ln(RR) = ln(n22) - ln(N2.) - ln(n12) + ln(N1.)
 w:重み

検定:χo2 > χ2(1,α)の時、有意水準100α%で有意
ln(RR)の100(1-α)%信頼区間:
→ 下限:  上限:

ln(RR)の分散はデルタ法(delta method)によって近似的に求めたものです。 デルタ法は確率変数xの期待値と分散がわかっている時、xの関数f(x)の期待値と分散を近似的に求める手法です。 この手法はf(x)をテーラー展開して一次式で近似し、その期待値と分散を近似的に求めます。

E(x) = μ、V(x) = σ2 として、y = f(x)を1次の項までテーラー展開すると
y = f(x) ≒ f(μ) + (x-μ)f'(μ)
E(y) ≒ f(μ)   V(y) ≒ V(f(μ) + (x-μ)f'(μ)) = V((x-μ)f'(μ)) = V(x){f'(μ)}2 = σ2{f'(μ)}2
※期待値については2次の項までテーラー展開すると近似が良くなる。


○ln(RR)のデルタ法による近似分散
y = f(p) = ln(p)   とすると
  

      とすると

※ln(p1)とln(p2)は独立なので共分散 C(ln(p1),ln(p2)) = 0
○ln(OR)のデルタ法による近似分散
   とすると
  

      とすると

※ln{p1/(1-p1)}とln{p2/(1-p2)}は独立なので共分散 C(ln{p1/(1-p1)},ln{p2/(1-p2)}) = 0

表3.4.17のデータについて実際に計算してみましょう。 このデータではA2群が慢性肝炎群であり、B2分類が異常例なので、正常群の異常出現率に対する慢性肝炎群の異常出現率のリスク比を計算することにします。

  ln(RR) = ln(9) - ln(10) - ln(5) + ln(10) ≒ 0.588

検定:
ln(RR)とRRの95%信頼区間:
→ 下限:ln(RR)L = -0.066(RRL = e-0.066 = 0.937)  上限:ln(RR)U = 1.241(RRU = e1.241 = 3.459)

リスク比と似た指標としてオッズ比(OR:Odds Ratio)があります。 オッズ(見込み)とはある反応を生じる確率と生じない確率の比であり、ある反応を生じる確率をπとすると次のように表されます。

表3.4.20においてA1におけるB2のオッズをOA1、A2におけるB2のオッズをOA2とすると、これらのオッズとそのオッズ比は次のようになります。

     

このようにオッズ比は分類A2における分類B2のオッズOA2と、分類A1における分類B2のオッズOA1の比です。 そのためA2のオッズに対してA1のオッズが何倍あるかを表す値になります。 この値は分類Aと分類Bの関連性が全くない時は1になり、関連性があるほど1から離れます。 ただし相関係数のように上下限が決まっているわけではないので、関連性の程度を表す指標としては相関係数ほど便利ではありません。

しかしオッズ比は計算が簡単であり、データの集め方に対して不変性を持っています。 その上、後述するように出現率が小さい時はリスク比に近似するので医学研究ではよく用いられます。 (→1.9 科学的研究のデザイン)

「データの集め方に対して不変性を持っている」ということは、どのようにしてデータを集めても値が変わらないということです。 例えば上記の計算はA1の例数N1.とA2の例数N2.を指定してデータを集め、それらのデータのB分類を調べてn11、n12、n21、n22を得た時、つまり前向き研究から得られたデータに関する計算方法です。 それに対してB1の例数N.1とB2の例数N.2を指定してデータを集め、それらのデータのA分類を調べてn11、n12、n21、n22を得た時、つまり後ろ向き研究から得られたデータに関する計算方法は次のようになり、どちらも同じ式になります。

     

2×2分割表における(n11n22 - n12n21)は2つの分類の関連性の指標になり、この値を周辺度数の平方根で標準化したものが四分点相関係数に相当します。 そしてマンテル・ヘンツェルの検定は四分点相関係数の検定でもあり、四分点相関係数を総例数で調整した値が近似的に正規分布することを利用して検定と推定を行います。 (→5.3 計数値の相関分析と回帰分析 (注2))

オッズ比を対数変換した対数オッズ比つまり対数オッズ差{log(n11n22) - log(n12n21)}はn11n22とn12n21を対数変換した時の差に相当し、やはり関連性の指標になります。 そしてこの値も近似的に正規分布するので、この性質を利用して検定と推定を行うことができます。 この検定は対数オッズ差が0かどうか、つまりオッズ比が1かどうかの検定であり、A分類とB分類の関連性の検定になります。 しかしこの検定はあまり知られていないせいか、オッズ比を計算しておきながら検定は普通のχ2検定を行うことがよくあります。 オッズ比を計算した時はこのオッズ比の検定を行わなければ整合性が取れません

ln(OR) = ln(n11) + ln(n22) - ln(n12) - ln(n21)
デルタ法による近似分散   w:重み

検定:χo2 > χ2(1,α)の時、有意水準100α%で有意
推定:ln(OR)の100(1-α)%信頼区間:
→ 下限:  上限:

重みの計算式からわかるようにn11、n12、n21、n22の中に0のものがあるとオッズ比の検定と推定は計算不可能です。 そのためn11、n12、n21、n22の中に0のものがある時は、これらの値を次のように置きなおして計算します。 これをウールフ(Woolf)の修正といいます。

n11' = n11 + 0.5  n12' = n12 + 0.5   n21' = n21 + 0.5  n22' = n22 + 0.5

表3.4.17のデータについて実際に計算してみましょう。 このデータではA2群が慢性肝炎群であり、B2分類が異常例ですから、正常群の異常オッズに対する慢性肝炎群の異常オッズのオッズ比を計算することにします。

  ln(OR) = ln(5) + ln(9) - ln(1) - ln(5) ≒ 2.197

検定:
ln(OR)とORの95%信頼区間:
→ 下限:ln(OR) = -0.212(ORL = e-0.212 = 0.809)  上限:ln(OR) = 4.607(ORU = e4.607 = 100.1)

疾患の出現率が非常に小さい時、出現率はオッズに近似し、リスク比はオッズ比に近似します。 そのためオッズ比をリスク比の近似値として利用することがあります。 (→1.9 科学的研究のデザイン、→10.3 ロジスティック回帰分析の計算方法 (注1))

     
… n22 ≪ n21、n12 ≪ n11より

(注6) 表3.4.19を一般化して2×bのχ2検定について説明しましょう。

表3.4.21 2×b分割表
分類B1BjBb
A1n11n1jn1bN1.
A2n21n2jn2bN2.
N.1N.jN.bN

帰無仮説と対立仮説は次のようになります。

H0:A1群とA2群におけるBの分類割合は同一である。
H1:A1群とA2群におけるBの分類割合は同一ではない。
 または
H0:Aの分類とBの分類はお互いに独立である。
H1:Aの分類とBの分類はお互いに独立ではない。
 または
H0:V(クラメールの連関係数) = 0
H1:V = δV > 0

この仮説のもとで、各種の値は次のようになります。

Ai分類の出現率: (i = 1,2)
Bj分類の出現率: (j = 1,…,b)
nijの理論出現率: (i = 1,2   j = 1,…,b)
nijの理論度数

自由度:φ = (2-1)(b-1) = b - 1
検定:χo2 > χ2(φ,α)の時、有意水準100α%で有意

出現率の差の合計が0かどうかを検定したい時は、この検定を正確検定の近似法として利用します。 そのため本来は連続修正を加えるべきです。 しかし連続修正を加えると非常に繁雑な式になるので、普通は2×2の時だけ連続修正を加えます。 そのため2×bの場合、出現率の差の検定と独立性の検定は同じものになります。

表3.4.19のデータについて実際に計算してみましょう。

自由度:φ = 3 - 1 = 2
検定:
クラメールの連関係数:V = 0.163  寄与率:r2 = V2 = 0.027
連関係数の95%信頼区間 下限:VL = 0.043 上限:VU = 0.447