統計学入門−第4章

データが順序尺度の場合、繰り返しのある二元配置分散分析または共分散分析に相当する手法として、2群用の拡張マンテル検定(Mantel-extension test)と多群用の一般化拡張マンテル検定(generalized Mantel-extension test)という手法があります。これらはマンテル・ヘンツェル検定(Mantel-Haenszel test)を拡張した手法ですが、マンテル・ヘンツェル検定は名義尺度のデータの繰り返しのある二元配置分散分析または共分散分析に相当する手法なので後で説明します。

1) 2群の場合

繰り返しのある二元配置型の順序尺度のデータとしては、例えば次のようなものがあります。ある疾患に対する新薬と標準薬の効果を調べるために、薬剤投与後に疾患の改善度を「1：著明改善　2：中等度改善　3：軽度改善　4：不変　5：軽度悪化　6：中等度悪化　7：著明悪化」の7段階で評価したとします。ただしこの疾患には性差があるので男性と女性でそれぞれ新薬と標準薬を層別無作為割り付けし、薬剤投与後に改善度を判定した結果が表4.4.1のようになったとします。

表4.4.1 性別−薬剤別改善度
	要因B：性別
男	女
要因A：薬剤	標準薬	群1改善度	群2改善度
1	1
2	3
:	:
4	6
45例	51例
新薬	群3改善度	群4改善度
1	1
1	2
:	:
5	6
56例	53例

この表は第3節の表4.3.1と同じ形式であり、繰り返しのある二元配置デザインであることがわかると思います。ただしこの表では同一水準条件の例数が全て少し異なっています。もちろん全て同じ例数にするのが理想ですが、マウスを対象にした実験と違ってヒトを対象にした試験で例数を揃えるのは難しいのでこのようなデータになるのが普通です。この表のデータを男女別に薬剤と改善度でクロス集計したところ、次のようになったとします。

表4.4.2 薬剤と改善度の性別クロス集計表
性別	薬剤	著明改善	中等度改善	軽度改善	不変	軽度悪化	中等度悪化	著明悪化	計
男	標準薬	9	14	12	15	2	1	0	53
新薬	16	13	14	11	2	0	0	56
計	25	27	26	26	4	1	0	109

女	標準薬	7	12	17	12	2	1	0	51
新薬	9	14	11	12	0	0	0	46
計	16	26	28	24	2	1	0	97

このようなデータの場合、要因Aつまり薬剤の効果と要因Bつまり性の効果、そしてそれらの間の交互作用を検討することよりも、性の影響を補正して薬剤の効果を検討する方が多いと思います。そのため順序尺度のデータに繰り返しのある二元配置分散分析を適用するのではなく、共分散分析を適用すると考えた方が自然です。それが拡張マンテル検定です。ただし通常の共分散分析と違って、拡張マンテル検定の共変数にできるのは名義尺度のデータだけです。 (→8.5 共分散分析と二元配置分散分析)

表4.4.2に拡張マンテル検定を適用すると次のようになります。 _(注1)

共通性の検定は共分散分析における修正群差の検定――二元配置分散分析では要因A(薬剤投与群)の検定――に相当し、新薬と標準薬の改善度の順位平均値の差が男と女で同じと仮定し、その差つまり調整順位平均値(修正順位平均値)の差が0かどうかを検定します。

この場合、調整順位平均値の差は-14.7であり、新薬投与群の改善度分布の中心位置が標準薬投与群よりも14.7例分だけ改善側にずれていることがわかります。この14.7例分のズレを全体の例数206で割って100を掛けると7.1％になります。 2群の改善度分布の中心位置は-50％〜+50％の範囲でずれるので、7.1％のズレはあまり多くないと解釈できます。この調整順位平均値の差の解釈はウィルコクソンの2標本検定における順位平均値の差の解釈と同様です。 (→4.2 多標本の計数値　(1) 順序尺度(順序データ))

異質性の検定は共分散分析における非平行性の検定――二元配置分散分析では要因A(薬剤投与群)と要因B(性別)の交互作用の検定――に相当し、新薬と標準薬の改善度の順位平均値の差が男と女で同じかどうかを検定します。このデータではχ_eMr²の値が非常に小さく、交互作用はほとんどないことがわかります。事実、次に説明する男女別に拡張マンテル検定を適用した結果を見ると、男の順位平均値の差は-8.4、女の順位平均値の差は-6.3であり、あまり大きな違いはありません。

寄与率は順位の変動のうち薬剤の違いによって説明できる割合を表し、クリスカル・ウォーリスの検定における寄与率に相当します。このデータではその割合は約2％程度であり、非常に小さいことがわかります。またクリスカル・ウォーリスの検定と同様に、寄与率の平方根は順位相関比になります。 順位相関比は名義尺度のデータと順序尺度のデータの間の関連性の指標であり、表4.4.2が横断的研究から得られたデータの時の評価指標になります。

このデータの場合、共通性の検定も異質性の検定も有意ではありません。しかし異質性の検定結果が有意であり、男と女で順位平均値の差が大きく異なっている時は男女別に拡張マンテル検定を適用します。表4.4.3の男女別クロス集計表にそれぞれ拡張マンテル検定を適用すると次のようになり、男と女で順位平均値の差は大きく異なっていないことがわかります。

このように異質性の検定結果が有意ではなく、男と女で順位平均値の差がほぼ同じ時は、男女を合わせて拡張マンテル検定を適用すると効率が良くなることがあります。表4.4.2の男女を合わせて拡張マンテル検定を適用すると次のようになり、共通性のχ_eMm²の値が性別で調整した時よりもわずかに大きくなります。

表4.4.3 薬剤と改善度のクロス集計表(全体)
薬剤	著明改善	中等度改善	軽度改善	不変	軽度悪化	中等度悪化	計
新薬	25	27	25	23	2	0	102
標準薬	16	26	29	27	4	2	104
計	41	53	54	50	6	2	206

なおクロス集計表が1つだけの時、拡張マンテル検定は連続修正を施さないウィルコクソンの2標本検定つまりクリスカル・ウォーリスの検定と一致します。そのため男女別の層別解析と男女を合わせた全体解析には、それらの検定を適用してもかまいません。またこのことから拡張マンテル検定はウィルコクソンの2標本検定を利用した共分散分析に相当することがわかると思います。 _(注1) (→3.4 2標本の計数値　(1) 順序尺度、8.5 共分散分析と二元配置分散分析)

拡張マンテル検定の場合、共分散分析と違って共変数の効果つまり性によって順位平均値が変動するかどうかは検定できません。そのため薬剤の影響を補正して性差を検討したい時は、薬剤別に性と改善度をクロス集計して拡張マンテル検定を適用する必要があります。

また表4.4.1は層別無作為割付試験から得られたデータですが、新薬と標準薬だけ無作為に割付け、試験終了後に性の影響を補正して薬剤の効果を検討したい時、つまり後知恵または後層別の時も拡張マンテル検定を適用することができます。ただしその場合、新薬投与群はたまたまほとんどが女性ばかりになり、標準薬投与群はたまたまほとんどが男性ばかりになるということも有り得ます。そのように極端に偏った時は拡張マンテル検定によって性の影響を補正できないので注意が必要です。

2) 多群の場合

繰り返しのある二元配置型の順序尺度のデータで、要因Aの水準が3個以上ある時は一般化拡張マンテル検定を適用します。例えば表4.4.1と同じ形式の層別無作為割付試験で、薬剤がP、A、B、Cの4種類あったとします。そして薬剤投与後に改善度を評価し、そのデータを男女別と全体でクロス集計したところ次のようになったとします。

表4.4.4 薬剤と改善度の性別クロス集計表
性別	薬剤	著明改善	中等度改善	軽度改善	不変	軽度悪化	中等度悪化	著明悪化	計
男	P	12	15	7	8	4	0	0	46
A	8	9	4	4	2	0	0	27
B	18	11	4	4	2	0	0	39
C	13	10	3	5	0	0	0	31
計	51	45	18	21	8	0	0	143

女	P	9	3	7	0	1	0	0	20
A	10	9	10	6	1	0	0	36
B	9	12	2	1	1	0	0	25
C	14	11	2	2	3	0	0	32
計	42	35	21	9	6	0	0	113

全体	P	21	18	14	8	5	0	0	66
A	18	18	14	10	3	0	0	63
B	27	23	6	5	3	0	0	64
C	27	21	5	7	3	0	0	63
計	93	80	39	30	14	0	0	256

表4.4.4に一般化拡張マンテル検定を適用すると次のようになります。 _(注1)

各種の検定結果と寄与率および相関比の解釈方法は拡張マンテル検定と同様です。そしてクロス集計表が1つだけの時、一般化拡張マンテル検定はクリスカル・ウォーリスの検定と一致します。そのため男女別の層別解析と男女を合わせた全体解析には、それらの検定を利用してもかまいません。またこのことから一般化拡張マンテル検定はクリスカル・ウォーリスの検定を利用した共分散分析に相当することがわかると思います。 _(注1) (→4.2 多標本の計数値　(1) 順序尺度、8.5 共分散分析と二元配置分散分析)

このデータでは異質性の検定結果が有意ではなく、共通性の検定結果が有意です。しかし全体のクロス集計表に一般化拡張マンテル検定を適用した時の共通性の検定結果は、わずかに有意ではありません。このように異質性の検定結果が有意ではないからといって、全体の検定結果の方が必ず検定効率が高くなるとは限りません。

拡張マンテル検定も一般化拡張マンテル検定もかなりややこしい手法であり、評価指標がわかりづらくて結果の解釈が難しいという欠点があります。そのため順序尺度のデータをそのまま計量尺度扱いして共分散分析を適用する方が実際的で、結果の解釈も容易です。例えば表4.4.1のデータを計量尺度扱いして、共分散分析を適用すると次のようになります。

表4.4.5 共分散分析表
要因	平方和	自由度	平均平方和(分散)	F値
群差	5.49739	1	5.49739	3.94645
共通回帰	0.294614	1	0.294614	0.211496

修正群差	5.3889	1	5.3889	3.86857
全体回帰	0.403101	1	0.403101	0.289377

非平行性	0.0313938	1	0.0313938	0.0225369
残差	281.385	202	1.393
全体	281.209	205

この検定結果のうち、修正群差の検定が拡張マンテル検定の共通性の検定に相当し、非平行性の検定が異質性の検定に相当します。そしてそれらの検定結果は拡張マンテル検定の結果と似ています。しかし拡張マンテル検定の結果と違って評価指標である平均値が明確であり、性で修正しない群差も修正した群差も検定できる上に、群で修正しない性差(全体回帰)も修正した性差(共通回帰)も検定できます。

統計学はデータを要約してその内容をわかりやすくするためのものなので、統計手法を用いたために結果がかえって理解しにくくなったり、解釈しにくくなってしまっては何にもなりません。そのためこのような場合は「難解な厳密さ」よりも「単純明快な柔軟さ」を選び、順序尺度のデータを計量尺度度扱いして共分散分析を適用する方が実用的です。

(2) 名義尺度(分類データ)

データが名義尺度で繰り返しのある二元配置デザインの場合、2群の時はマンテル・ヘンツェル検定を適用します。これはコクラン・マンテル・ヘンツェル検定(Cochran-Mantel-Haenszel test、CMH test)と呼ばれることもあります。そして多群の時は順序尺度と同様に一般化拡張マンテル検定を適用します。

1) 2群の場合

表4.4.1と同じ形式の層別無作為割付試験で、改善度を「改善」と「非改善」で評価したとします。そして薬剤投与後に改善度を判定し、そのデータを男女別と全体でクロス集計したところ次のようになったとします。

表4.4.6 薬剤と改善度の性別2×2分割表
性別	薬剤	非改善(％)	改善(％)	計(％)
男	標準薬	25(50)	25(50)	50(100)
新薬	5(10)	45(90)	50(100)
計	30(30)	70(70)	100(100)

女	標準薬	45(90)	5(10)	50(100)
新薬	25(50)	25(50)	50(100)
計	70(70)	30(30)	100(100)

全体	標準薬	70(70)	30(30)	100(100)
新薬	30(30)	70(70)	200(100)
計	100(50)	100(50)	200(100)

表4.4.6にマンテル・ヘンツェル検定を適用すると次のようになります。 _(注2)

共通性の検定と異質性の検定、そして寄与率と順位相関比(四分点相関係数に相当)の解釈方法は拡張マンテル検定および一般化拡張マンテル検定と同様です。この場合の共通性の検定はリスク差(出現率の差)の検定です。そして拡張マンテル検定や一般化マンテル検定と同様に、表4.4.6の薬剤を群、改善／非改善をダミー変数の目的変数にし、性別をダミー変数の共変数にして共分散分析を適用すると、次のように調整リスク差が修正群差に、異質性が非平行性に相当します。 (→8.5 共分散分析と二元配置分散分析)

またこの手法では性の影響を補正した調整リスク差(調整改善率の差)と順位相関比、さらに調整リスク比(調整改善率の比)と調整オッズ比とそれらの信頼区間も求めることができます。 リスク差とリスク比は表4.4.6のデータが前向き研究から得られた時の評価指標です。そして出現率が小さい(10％未満)時、出現率は指数関数的に変化します。そのため出現率の差よりも対数出現率の差の方が評価指標として何かと好都合です。その対数出現率の差を指数変換したものが出現率の比つまりリスク比です。したがってリスク差とリスク比は出現率の値で使い分けます。

オッズ比は関連性の指標であり、出現率が小さい(10％未満)時はリスク比と近似します。そしてオッズ比は後ろ向き研究から得られたデータでも、前向き研究から得られたデータでも同じ値になります。そのため表4.4.6のデータが後ろ向き研究から得られた時の評価指標になります。そして出現率が小さい時はリスク比の近似値として解釈し、出現率が大きい時は関連性の指標として解釈します。ただし共通性の検定はあくまでも調整リスク差の検定でもあり、調整リスク比と調整オッズ比は参考値にすぎません。特に調整オッズ比については次のロジット検定の方が正確です。

ここで注意していただきたいのは、表4.4.6は性で層別無作為割り付けをした結果、表4.4.1と違って標準薬投与群と新薬投与群の男女比がきれいに揃っている点です。そのため性の影響は2群で平等になり、本来なら性の影響を補正する必要はないと考えられます。事実、男女別のリスク差と全体のリスク差、そして調整リスク差は全て同じ0.16という値であり、異質性の検定結果とブレスロー・デイの検定結果から薬剤と性の交互作用は全く無いことがわかります。

ところが男と女のリスク比は1.8と5でそれぞれ異なり、全体のリスク比と調整リスク比は2.33333で同じ値ですが、これは男女別のリスク比とは異なっています。また男と女のオッズ比と調整オッズ比は9で同じ値ですが、全体のオッズ比は5.44444でそれらとは異なっています。さらに男と女の順位相関比は0.436436で同じ値ですが、全体の順位相関比は0.4、調整した順位相関比は0.435338とそれぞれ微妙に異なっています。

これはリスク比とオッズ比が2種類の値の比であることに起因しています。 2種類の値の比は出現率の差が同じ値でも分母の値が異なると異なった値になります。そのため薬剤と性の交互作用が無くて男女別のリスク差と全体のリスク差と調整リスク差が全て同じ値でも、リスク比とオッズ比は全て同じ値になるとは限らないのです。このような時は性で調整した調整リスク比と調整オッズ比が偏りのない正確な値になります。

また全体のリスク差と調整リスク差はどちらも0.4で同じ値ですが、共通性の検定のχ²値は調整リスク差の方が少し大きくて検定効率が少し高くなっています。これは共分散分析と同様に、調整前後でリスク差は変わらなくても性によるデータのバラツキが少なくなる分だけ検定結果の精度が高くなるからです。そして順位相関比は共通性の検定のχ²値と合計例数に基づいて求めます。そのためたとえ調整リスク差が同じでも、共通性の検定結果が異なれば異なった値になります。 (→8.2 共分散分析結果の解釈)

したがって2群の背景因子が異なっている時はもちろん、たとえ異なっていなくてもマンテル・ヘンツェル検定を用いて背景因子の影響を補正することをお勧めします。特に評価指標としてリスク比やオッズ比を用いる時はマンテル・ヘンツェル検定による背景因子の補正は必須です。

○ロジット検定

オッズ比については、ロジスティック回帰分析またはロジット分析に共分散分析の原理を適用したロジット検定(logit test)で同様の検定を行うことができます。表4.4.6にロジット検定を適用すると次のようになります。 _(注4) (→3.4 2標本の計数値　(2)名義尺度 (注5)、第10章　ロジスティック回帰分析)

2×2分割表がひとつだけの時は、この手法のオッズ比とマンテル・ヘンツェルのオッズ比は一致します。そしてマンテル・ヘンツェル検定は調整リスク差の検定なので調整オッズ比の検定と推定はこの手法の方が正確です。また調整リスク差の異質性の検定結果と同様に、男と女のオッズ比と調整オッズ比は全て同じ値9であり、薬剤と性の交互作用は全く無いという結果になっています。ところが全体のオッズ比は5.44444であり、それらとは異なっています。これは前述のようにオッズ比が2種類の値の比なので、薬剤と性の交互作用が無くても全体のオッズ比と調整オッズ比が同じ値になるとは限らないからです。

この手法はロジスティック回帰分析またはロジット分析に共分散分析の原理を適用したものです。そのため表4.4.6の改善／非改善を目的変数にし、薬剤と性別をダミー変数の説明変数にしてロジスティック回帰分析を適用すると、次のように薬剤の調整オッズ比がロジット検定の調整オッズ比に、ズレの検定がロジット検定の異質性の検定に対応します。 (→第10章　ロジスティック回帰分析)

また上記のロジスティック回帰分析ではx₁(薬剤)とx₂(性別)の相関係数は0であり、2つの変数は独立です。これは、そうなるように性で層別無作為割り付けをしたので当然です。普通の重回帰分析ではx₁とx₂が独立なら、x₂を含めて解析してもx₂を除外して解析してもx₁の偏回帰係数の値は変わりません(ただし偏回帰係数の標準誤差は変わります)。ところがロジスティック回帰分析の場合、x₂を除外して解析すると次のようにx₁の偏回帰係数の値が変わってしまいます。そして薬剤のオッズ比がロジット検定の全体のオッズ比に対応します。 (→第7章　重回帰分析)

x₁(薬剤)とx₂(性別)が独立でもx₂を入れた時と入れない時のx₁の偏回帰係数の値が変わる理由は、図4.4.1を見ると何となくわかると思います。この図の実線はロジスティック曲線であり、破線は回帰直線です。薬剤と性別が独立つまり標準薬群と新薬群の男女の割合が同じ時、男女別の薬剤と改善率の回帰直線が平行つまり傾きが同じなら、全体の回帰直線の傾きも同じになります。この場合、3本の回帰直線の傾きは0.4であり、これは標準薬と新薬の改善率の差(RD)になります。

ところが標準薬と新薬の改善率の差(RD)が同じでも、2群合わせた改善率が異なっていたり、改善率を求めた例数が異なっていたりするとオッズ比が同じ値になるとは限りません。そのためオッズ比を対数変換したロジスティック曲線の偏回帰係数も同じ値になるとは限りません。図4.4.1の男のロジスティック曲線(青色の実線)と女のロジスティック曲線(赤色の実線)は平行であり、傾きつまり対数オッズ比は同じです。ところが全体のロジスティック曲線(黒色の実線)は例数が多いので傾きが少し緩くなり、対数オッズ比が小さくなります。その結果、薬剤と性別が独立にもかかわらず、性別を説明変数に入れた時と入れない時で薬剤の偏回帰係数の値が変わるのです。

このことから、たとえ特定の背景因子で層別無作為割り付けしても、また薬剤群の背景因子が揃っていて薬剤と背景因子が独立でも、ロジスティック回帰分析のようにオッズ比が目的変数の時は背景因子の影響を補正しなければならないことがわかると思います。また重回帰分析のように目的変数が普通の計量尺度のデータの時は、薬剤と背景因子が独立なら背景因子の影響を補正してもしなくても偏回帰係数の値は変わりません。しかし背景因子の影響を補正すると偏回帰係数の標準誤差が小さくなって偏回帰係数の誤差の精度が高くなるので、できれば背景因子の影響を補正した方が良いでしょう。

2) 多群の場合

繰り返しのある二元配置型の名義尺度のデータで、要因Aの水準が2つ以上ある時は一般化拡張マンテル検定を適用します。例えば表4.4.4の改善度について、「軽度改善」以上を「改善」とし、「不変」以下を「非改善」と判定すると次のようになります。

表4.4.7 薬剤と改善度判定の性別2×2分割表
性別	薬剤	非改善	改善	計
男	P	12	34	46
A	6	21	27
B	6	33	39
C	5	26	31
計	29	114	143

女	P	1	19	20
A	7	29	36
B	2	23	25
C	5	27	32
計	15	98	113

全体	P	13	53	66
A	13	50	63
B	8	56	64
C	10	53	63
計	44	212	256

表4.4.7に一般化拡張マンテル検定を適用すると次のようになります。 _(注2)

この結果は表4.4.4の結果と少し違っていて、共通性の検定つまり修正群差の検定結果が有意水準5％で有意になっていません。これは順序尺度のデータを名義尺度にしたので情報量が減り、検定効率が悪くなったせいです。また拡張一般化マンテル検定では調整リスク差や調整リスク比を求めることができません。そのため多群の場合は2群ごとにマンテル・ヘンツェル検定を適用して調整リスク差や調整リスク比を求め、検定と区間推定については多重性の調整をする方が実際的でしょう。

以上のように一般化拡張マンテル検定、拡張マンテル検定、そしてマンテル・ヘンツェル検定は、一連の複数のクロス集計表を統合して共通性と異質性を検定することができます。そのため層別解析だけでなく、複数の試験の結果を統合して総合的に解析するメタアナリシス(meta-analysis)にも利用されます。また繰り返し測定された順序尺度のデータまたは名義尺度のデータについて、時期を共変数扱いすることによって時期を統合して総合的に解析することもできます。例えば生命表解析で用いられるコックス・マンテル検定(Cox-Mantel test)は、時期を共変数扱いして死亡率を総合的に解析する手法です。 _(注5) (→11.2 生存率の比較方法)

(注1)　要因Aの水準数をa、要因Bの水準数をb、A_i-B_kにおける繰り返し数をN_i._kとすると、繰り返しのある二元配置型の順序尺度のデータは次のように表すことができます。通常、要因Aは群、要因Bは性別や疾患分類などの層別項目または時期、そして群内の繰り返しは被験者です。

表4.4.8 繰り返しのある二元配置型の順序尺度データ
要因A	B₁	…	B_k	…	B_b
A₁	y₁₁₁	…	y_1k1	…	y_1b1
	:	:	:	:	:
	y_11(N1.1)	…	y_1k(N1.k)	…	y_1b(N1.b)
:	:	:	:	:	:
A_i	y_i11	…	y_ik1	…	y_ib1
	:	…	:	…	:
	y_i1(Ni.1)	…	y_ik(Ni.k)	…	y_ib(Ni.b)
:	:	:	:	:	:
A_a	y_a11	…	y_ak1	…	y_ab1
	:	:	:	:	:
	y_a1(Na.1)	…	y_ak(Na.k)	…	y_ab(Na.b)

順序尺度のデータの順序数をcとして、要因Bの各水準つまり層ごとに要因Aとデータをクロス集計すると、次のようなa×c分割表がb個できます。

表4.4.9 B_k層のa×c分割表
群	y₁	…	y_j	…	y_c	計
A₁	n_11k	…	n_1jk	…	n_1ck	N₁._k
:	:	:	:	:	:	:
A_i	n_i1k	…	n_ijk	…	n_ick	N_i._k
:	:	:	:	:	:	:
A_a	n_a1k	…	n_ajk	…	n_ack	N_a._k
計	N._1k	…	N._jk	…	N._ck	N_k

このa×c分割表に一般化拡張マンテル検定を適用すると次のようになります。なおこの計算では行列とベクトルを用いるので、ここと同じ雑学コーナーに展示してある「ベクトルと行列」を参考にしてください。そのページを参考にしても内容がチンプンカンプンの時は計算式を無視していただいてかまいません。

χ_gMm² = [ｕ - ｅ]'Ｗ^-1[ｕ - ｅ]

：A_i群の順位和　　

：A_i群の順位和期待値

：A_i群の順位和の分散

(i≠i')：A_i群の順位和とA_i'群の順位和の共分散

：第k層における順位の分散
χ_gMk²：上式でk = kの1つだけについて計算した値

　　χ_gMr² = χ_gMT² - χ_gMm²
寄与率：

　　順位相関比：η_r 　　ただし

共通性の検定：χ_gMm ＞ χ²(a - 1,α)の時、有意水準100α％で有意
異質性の検定：χ_gMr² ＞ χ²((a - 1)(b - 1),α)の時、有意水準100α％で有意

共通性の検定はb個のa×c分割表に共通して存在する群による順位平均値の差、つまり全ての層において群によって順位平均値に違いがあるかどうかを検定します。この検定は共分散分析における修正群差の検定に相当します。

異質性の検定は群による順位平均値の差がb個のa×c分割表ごとに異なっているかどうかを検定します。この検定は共分散分析における非平行性の検定に相当します。異質性の検定結果が有意の時は群による順位平均値の差が層によって異なっていると解釈できます。そのためb個のa×c分割表を総合して順位平均値の差を検定することは不適当ということになり、共通性の検定は意味を持たなくなります。その場合は層ごとに一般化拡張マンテル検定を適用する、つまり要因Bによる層別解析を行います。

この検定の場合、層つまり要因Bはブロック因子になり、層によって順位平均値が異なるかどうかの検定は行いません。層間の検定を行いたい時は層別項目を要因Aに、群を要因Bにして、群ごとに各層と順序尺度のデータをクロス集計してa個のb×c分割表を作成して検定する必要があります。

要因Bの水準数bが1つの時、次のように共通性の検定はクリスカル・ウォーリスの検定と一致します。

∴

：同位の補正　　H：クリスカル・ウォーリスの検定における統計量

また群数aが2で層の数がbの時は次のような式になります。

この式の順位r_jkの代わりに層を合わせた共通順位r_.jを用いて計算する手法が拡張マンテル検定です。群が2つの時、通常はこの手法を適用します。

　　χ_eMr² = χ_eMT² - χ_eMm²
寄与率：

　　順位相関比：η_r 　　ただし

共通性の検定：χ_eMm² ＞ χ²(1,α)の時、有意水準100α％で有意
異質性の検定：χ_eMr² ＞ χ²(b - 1,α)の時、有意水準100α％で有意

一般化拡張マンテル検定の計算式からわかるように、χ_eMk²の分子は第k層におけるA₁群の実現度数と期待度数の差に順位を掛けた値を平方したものです。したがって平方する前の値は、次のように第k層におけるA₁群の順位和T_1kとその期待値E(T_1k)の差になります。

そしてχ_eMk²の分母は、次のように第k層におけるA₁群の順位和の分散V(T_1k)になります。このことから拡張マンテル検定で層の数bが1つの時、共通性の検定はウィルコクソンの2標本検定の連続修正を施さない式つまり群数が2つの時のクリスカル・ウォーリスの検定と一致することがわかります。

∴

：同位の補正
∴

　　W：ウィルコクソンの2標本検定における統計量
※第3章第4節の(注3)のT_mはB群の順位和でありT₂に相当するので注意

これらのことから、ウィルコクソンの2標本検定と同様にして拡張マンテル検定における2群の調整順位平均値の差を求め、その区間推定を行うことができます。 (→3.4 2標本の計数値 (注3))

第k層の順位平均値の差：

：順位平均値の差を順位和の差に変換する重み
調整順位平均値の差：

T_1m、T_2m：群1と群2の調整順位和　　

調整順位平均値の差の100(1 - α)％信頼区間：

→ 下限：

　上限：

※第3章第4節の(注3)ではB群の順位平均値からA群の順位和平均値を引いているので注意

層の数bが1つで順位数cが2つだけの時、次のように共通性の検定はマンテル・ヘンツェル検定の連続修正を施さない式と一致します。そのため(注2)で説明するように、順位数cが2つだけで層の数bが2つ以上の時、通常はマンテル・ヘンツェル検定を適用します。

χ_eMm²の平方前の分子：

χ_eMm²の分母：

∴

　　χ_mo²：マンテル・ヘンツェル検定における検定統計量

T₁、T₂：群1と群2の順位和　　r_d：群1と群2の順位平均値の差　　RD：リスク差(群1と群2の出現率の差)
※これらの式によって順位和、順位平均値の差、リスク差を相互変換できる。
※(注2)では群2の順位平均値または出現率から群1の順位平均値または出現率を引いているので注意

まず表4.4.2のデータに拡張マンテル検定を適用してみましょう。このデータの場合、新薬から標準薬を引いた方がわかりやすいので、新薬を群1、標準薬を群2として計算することにします。

r.₁ = 21　　r.₂ = 68　　r.₃ = 121.5 　　r.₄ = 173.5　　r.₅ = 201.5　　r.₆ = 205.5

　　w_m = 22.2294 + 24.1856 = 51.4149
χ_eMT² = 1.98392 + 1.32315 = 3.30707　　χ_eMr² = 3.30707 - 3.30328=0.00379

　　η_r = 0.127

調整順位平均値の差の95％信頼区間：

→ 下限：r_dmL = -14.695 - 15.847 = -30.542　上限：r_dmU = -14.695 + 15.847 = -1.152

次に表4.4.4のデータに一般化拡張マンテル検定を適用してみましょう。

○k = 1：男
r₁₁ = 26　　r₁₂ = 74　　r₁₃ = 105.5 　　r₁₄ = 125　　r₁₅ = 139.5
u₁₁ = 26×12 + 74×15 + 105.5×7 + 125×8 + 139.5×4 = 3718.5
u₁₂ = 26×8 + 74×9 + 105.5×4 + 125×4 + 139.5×2 = 2075
u₁₃ = 26×18 + 74×11 + 105.5×4 + 125×4 + 139.5×2 = 2483

　　η_1r = 0.194
○k = 2：女
r₂₁ = 21.5　　r₂₂ = 60　　r₂₃ = 88 　　r₂₄ = 103　　r₂₅ = 110.5
u₂₁ = 21.5×9 + 60×3 + 88×7 + 103×0 + 110.5×1 = 1100
u₂₂ = 21.5×10 + 60×9 + 88×10 + 103×6 + 110.5×1 = 2363.5
u₂₃ = 21.5×9 + 60×12 + 88×2 + 103×1 + 110.5×1 = 1303

　　η_2r = 0.193
○全体

χ_gMT² = 5.32673 + 4.15658 = 9.48331 　　χ_gMr² = 9.48331 - 7.93776 = 1.54555

　　η_r = 0.176

(注2)　繰り返しのある二元配置型の2分類データは要因Aの水準数をa、要因Bの水準数をb、A_i-B_kの繰り返し数をN_i._kとし、「有」に相当する時は1、「無」に相当する時は0になるダミー変数yを用いると、表4.4.8と同じ型式で表すことができます。この場合も要因Aは群、要因Bは性別や疾患分類などの層別項目または時期、群内の繰り返しは被験者になるのが普通です。そして層ごとに群と2分類のデータをクロス集計すると、表4.4.9で順序数cを2つだけにした次のような表になります。

表4.4.10 層B_kのa×2分割表
群＼分類	0(無)	1(有)	計
A₁	n_11k	n_12k	N₁._k
:	:	:	:
A_i	n_i1k	n_i2k	N_i._k
:	:	:	:
A_a	n_a1k	n_a2k	N_a._k
計	N._1k	N._2k	N_k

このa×2分割表は全部でb個あり、それらに一般化拡張マンテル検定を適用すれば群と2分類のデータの共通性と異質性を検定することができます。その時の共通性の検定はb個のa×2分割表に共通して存在する群と2分類の関連性の有無、つまり群によって出現率に違いがあるかどうかを検定します。この検定は共分散分析の修正群差の検定に相当します。そして異質性の検定は群による出現率の違いが層によって異なっているかどうかを検定します。この検定は共分散分析の非平行性の検定に相当します。

その場合、層別項目つまり要因Bはブロック因子になり、層によって出現率が異なるかどうかの検定つまり要因Bの検定は行いません。層別項目の検定を行いたい時は層を要因Aにし、群を要因Bにして、群ごとに層と名義尺度のデータをクロス集計してa個のb×2分割表を作成する必要があります。

群数aが2つだけの時は、一般化拡張マンテル検定の代わりに順序数cが2つだけの拡張マンテル検定を適用することができます。しかしその場合、通常はマンテル・ヘンツェル検定(コクラン・マンテル・ヘンツェル検定)を適用します。まず層B_kの2×2分割表についてマンテル・ヘンツェルの検定のχ_Mk²を計算すると次のようになります。 (→3.4 2標本の計数値　(2) 名義尺度 (注4))

b個の2×2分割表を総合してn_22kを正規近似すると次のようになります。

　　χ_Mr² = χ_MT² - χ_Mm²
寄与率：

　　順位相関比：η_r 　　ただし

χ_Mm'² ＞ χ²(1,α)の時、有意水準100α％で有意 … 共通性の検定
χ_Mr² ＞ χ²(b - 1,α)の時、有意水準100α％で有意 … 異質性の検定

実は拡張マンテル検定はこの検定を順序尺度のデータに拡張した手法であり、順序数cが2つの時の共通性の検定はこの検定の連続修正を施さない式つまりχ_Mm²と一致します。またこの手法ではb個の2×2分割表に共通するリスク差とリスク比とオッズ比、つまり層による違いを調整した調整リスク差と調整リスク比と調整オッズ比を求めることができます。

調整リスク差：

RD_MHの100(1-α)％信頼区間：

調整リスク比：

RR_MHの100(1-α)％信頼区間：

調整オッズ比：

OR_MHの100(1-α)％信頼区間：

調整リスク比と調整オッズ比の計算に用いるRR_MHとOR_MHは、表内度数n_11k、n_12k、n_21k、n_22jのどれかが0の2×2分割表については計算できない時があります。そこでその時は表内度数に0.5を加え、それに応じて周辺度数にも1を加えて計算します。これは、(注4)で説明するオッズ比を用いた検定におけるウールフの修正と同じ目的の修正です。この修正のために各表の表内度数に0がある時は値が少し不正確になります。

ちなみにこの手法で層別項目の代わりに時期を使用し、時期で補正して瞬間死亡率の比較を行う手法が生命表解析におけるコックス・マンテル検定です。そして群の数が3つ以上の時は一般化拡張マンテル検定を利用して同じような検定をすることができます。 (→11.2 生存率の比較方法)

異質性の検定は次のような方法で計算することもできます。この手法はブレスロー・デイ検定(Breslow-Day test)と呼ばれています。

d_k = OR_MH - 1 　　e_k = -{(N._2k + N₂._k)OR_MH + N₁._k - N._2k} 　　f_k = OR_MHN._2kN₂._k
※±記号については 0 ≦ E(OR_MH) ≦ min(N._2k, N₂._k) になる方を選択する

χ_BD² ＞ χ²(b - 1,α)の時、有意水準100α％で有意 … 異質性の検定

ブレスロー・デイの検定は表内度数の合計Σn_11k、Σn_12k、Σn_21k、Σn_22kのどれかが0の時は計算できません。そこで各表の表内度数に0がある時はマンテル・ヘンツェル検定と同様にウールフの修正を施し、値が少し不正確になります。

表4.4.6のデータにマンテル・ヘンツェル検定を適用してみましょう。

χ_MT² = 18.85714 + 18.85714 = 37.7143 　　χ_Mr² = 37.7143 - 37.7143 = 0

　　η_r = 0.435338

参考までにブレスロー・デイの検定も適用してみましょう。

d₁ = 9 - 1 = 8　　e₁ = -{(30 + 50)×9 + 50 - 30}=-740 　　f₁ = 9×50×30 = 13500

d₂ = 9 - 1 = 8　　e₂ = -{(70 + 50)×9 + 50 - 70}=-1060 　　f₂ = 9×50×70 = 31500

χ_BD² = (25 - 25)²×0.302222 + (45 - 45)²×0.302222 = 0

(注4)　マンテル・ヘンツェル検定と同じような分析を第3章第4節で説明したオッズ比を用いて行うことができます。この手法は第10章で説明するロジスティック回帰分析(ロジット分析)と関係があるのでロジット検定(logit test)と呼ぶことにします。そしてこの手法の異質性の検定のことをウールフ検定(Woolf test)と呼び、ブレスロー・デイの検定と同じような目的で用いることがあります。この手法でも、各表の表内度数に0がある時は表内度数に0.5を加えるウールフの修正を施します。 (→3.4 2標本の計数値　(2)名義尺度 (注5)、第10章　ロジスティック回帰分析)

　　ln(OR_k) = ln(x_k12) + ln(x_k21) - ln(x_k11) - ln(x_k22)

　　OR_m = exp(A_ln) … 調整オッズ比

　　χ_Or² = χ_OT² - χ_Om²
χ_Om² ＞ χ²(1,α)の時、有意水準100α％で有意 … 共通性の検定
χ_Or² ＞ χ²(b - 1,α)の時、有意水準100α％で有意 … 異質性の検定(ウールフの検定)
ln(OR_m)の100(1 - α)％信頼区間：

マンテル・ヘンツェルの検定が調整リスク差の検定であるのに対して、この手法はオッズ比の検定そのものです。そのため調整オッズ比の検定と推定はこの手法の方が正確です。

表4.4.2のデータにロジット検定を適用してみましょう。

χ_OT² = 15.9743 + 15.9743 = 31.9486 　　χ_Or² = 31.9486 - 31.9486 = 0

　　OR_m = exp(2.19722) = 9

(注5)　ブレスロー・デイの検定はオッズ比だけでなく色々な評価指標について適用することができます。また第2節で説明したコクランのQ検定も出現率だけでなく色々な評価指標について適用することができます。そのためこれらの手法はメタアナリシスで試験結果の異質性つまり試験ごとの評価指標のバラツキ具合を検討する時にも用いられます。ただしコクランのQ検定をメタアナリシスで用いる時は次のような式でQ統計量を求めます。そして異質性の指標としてH統計量とI²統計量(情報量)を用います。 (→(2)名義尺度 (注4))

b：試験数　　T_k：試験kにおける評価指標推定値　　

：試験kの重み

：評価指標の重み付き推定値(逆分散法) 　　

Q = χ_o² ＞ χ²(b - 1,α)の時、有意水準100α％で有意
Tの100(1 - α)％信頼区間：

評価指標Tは名義尺度のデータではオッズ比やリスク比がよく用いられ、計量尺度のデータでは平均値の差や標準化平均差(SMD：Standard mean difference)つまり効果量(effect size)がよく用いられます。 (→1.6 統計的仮説検定の考え方)

Qはχ²(k - 1)に相当するので、それを自由度(k - 1)で割ったH²は分散比F(k - 1,∞)に相当します。そのためHは分散比の平方根に相当します。またH²は誤差分散を1とした時の分散に相当するので、この値が1の時の評価指標のバラツキ具合は誤差程度ということになります。そこで(H² - 1)をH²で割り、擬似的な寄与率に相当する値にしたものがI²です。この値は-∞〜1の範囲で変動し、0以下の時は評価指標のバラツキつまり異質性は誤差以下ということになります。そこで0未満の時は0としてしまえば、0〜1の範囲で変動する異質性の寄与率相当の値として利用できます。

分散比Fを寄与率に変換する式はF/{F + (Φ₂/Φ₁)}ですが、この場合はΦ₁ = k - 1、Φ₂ = ∞なので正確な寄与率に変換することができません。そこで致し方なく上記のような式で擬似的な寄与率に変換しているわけです。 (→4.1 多標本の計量値 (注1))

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

4.4 繰り返しのある多標本・多時期の計数値

(1) 順序尺度(順序データ)

1) 2群の場合

2) 多群の場合

(2) 名義尺度(分類データ)

1) 2群の場合

○ロジット検定

2) 多群の場合