統計学入門−第11章

第1節の図11.1.1または図11.1.2を見ればA群の方が生存率が高い、つまりA法という手術の方が予後が良いことが直感的にわかります。でも有意症患者は、

と言い出すでしょう。そこで有意症患者のためにいくつかの手法が考案されているので紹介しましょう。

最も単純なものは、ある時点の累積生存率をそのまま群間比較する方法です。第1節の表11.1.2と表11.1.3に記載されているように、ある時点の累積生存率について標準誤差を計算することができます。この標準誤差と、累積生存率が近似的に正規分布することを利用すれば、対応のない2標本の平均値の差を検定する手法と同じ原理である時点における2群の累積生存率の差の検定と推定を行うことができます。 (→3.3 2標本の計量値 (2) データに対応がない場合)

時点iにおけるA群の累積生存率とその標準誤差をP_AiとSE_Ai、母累積生存率をπ_Ai、B群の累積生存率とその標準誤差をP_BiとSE_Bi、母累積生存率をπ_Ai、2群の累積生存率の差とその標準誤差をP_diとSE_di、母累積生存率の差をδ_i、母累積生存率の検出差つまり医学的な許容範囲をδ₀とすると、検定と推定の計算式は次のようになります。

例えば表11.1.2の24ヵ月後の累積生存率について、有意水準5％、信頼係数95％、δ₀ = 0.1(10％)として計算すると次のようになります。

この場合、検定結果は有意ではなく、累積生存率の差の信頼区間に0を含んでいて、しかも信頼区間幅が0.822(82.2％)もあります。これは10％という累積生存率の差を検出するには検出力が足らない(例数が足らない)ことを表しています。そのためとりあえず次のような統計学的結論を採用し、医学的結論は保留します。

例数を増やして再試験を行い、もし検定結果が有意なら、2標本の平均値の差の検定と同様に次のようなことについて検討する必要があります。

以上のことについて十分に検討した結果、全ての疑問に対して肯定的に答えられるとしたら次のような医学的結論を採用することができます。

(2) 瞬間死亡率の比較

前述の手法はある時点の累積生存率を群間比較するものであり、1時点だけの断面的な比較にすぎません。そこで表11.1.2の全時点でこの比較を行い、それを総合すれば、一応、図11.1.1の2本の累積生存率曲線全体を比較したことになります。しかし複数の時点で検定を行い、それを総合する時は検定の多重性という問題が発生します。しかもこの場合、各時点の累積生存率はそれぞれ独立ではなく時系列的な関連性があります。そのため検定同士の因果関係を考慮した多重比較を適用する必要がありますが、それは非常に複雑なのでまだ開発されていません。 (→4.1 多標本の計量値 (注2))

そこで生命表のデータを対応のある2分類データと考え、共分散分析に相当する名義尺度用の手法を適用して累積生存率曲線全体を群間比較する手法が考案されています。それがコックス・マンテル(Cox-Mantel)の検定です。 (→4.4 繰り返しのある多標本・多時期の計数値　(2) 名義尺度(分類データ))

第1節の表11.1.3について死亡例または脱落例が発生するたびに群と生死についての2×2分割表を作成し、それを時系列的に並べると次のようになります。これらの分割表において、各群の死亡例数を合計例数で割った値はその時点の瞬間死亡率(単位時間あたりの死亡率)になります。

表11.2.1 時系列2×2分割表
観測期間	群	生存(脱落)	死亡	計	瞬間死亡率
2	A	12(0)	0	12	0
B	9(0)	1	10	0.1

4	A	12(1)	0	12	0
B	8(0)	1	9	0.111

5	A	10(0)	1	11	0.091
B	8(0)	0	8	0

6	A	10(0)	0	10	0
B	7(0)	1	8	0.125

8	A	9(0)	1	10	0.1
B	7(0)	0	7	0

12	A	9(0)	0	9	0
B	6(0)	1	7	0.143

13	A	8(0)	1	9	0.111
B	5(0)	1	6	0.167

15	A	8(0)	0	8	0
B	5(1)	0	5	0

16	A	8(1)	0	8	0
B	4(0)	0	4	0

18	A	7(0)	0	7	0
B	3(0)	1	4	0.25

20	A	7(0)	0	7	0
B	3(1)	0	3	0

25	A	7(0)	0	7	0
B	1(0)	1	2	0.5

27	A	6(0)	1	7	0.143
B	1(0)	0	1	0

28	A	5(0)	1	6	0.167
B	1(0)	0	1	0

32	A	5(1)	0	5	0
B	1(0)	0	1	0

35	A	4(1)	0	4	0
B	0(0)	1	1	1

36	A	2(0)	1	3	0.333
B	0(0)	0	0	-

50	A	2(1)	0	2	0
B	0(0)	0	0	-

56	A	1(1)	0	1	0
B	0(0)	0	0	-

これらの分割表の中で、死亡例が発生していないもの(15ヵ月・16ヵ月・20ヵ月・32ヵ月)と片方の群の例数が0になってしまったもの(36ヵ月・50ヵ月・56ヵ月)は結果に影響しないので除外し、残りの12個にマンテル・ヘンツェルの検定を適用すると次のようになります。 _(注1)

この場合、共通性の検定は全時期を通して2群の瞬間死亡率の差が一定と仮定した時の瞬間死亡率の差の検定になります。それに対して異質性の検定は時期ごとに瞬間死亡率の差が変動しているかどうかの検定になります。

第1節のカプラン・マイヤー法よる累積生存率の計算方法で説明したように、累積生存率は瞬間生存率を掛け合わせることによって計算します。そのため瞬間死亡率は累積生存率に対して指数的に影響します。そこで2群の瞬間死亡率の差が一定の時、2群の対数変換した累積生存率曲線は平行になります。つまり異質性の検定は2群の累積生存率曲線の非平行性の検定であり、群と生存時間の交互作用の検定に相当します。

共分散分析の非平行性の検定結果が有意の時は修正群差の検定結果が不正確になるのと同様に、異質性の検定結果が有意の時は共通性の検定結果は不正確になります。例えば2群の累積生存率曲線が交差してしまい、ある時点まではA群の方が累積生存率が高いものの、それ以後はB群の方が累積生存率が高いという現象が起こり、単純に一方の群の方が生存率が高いといえなくなってしまうのです。このように2群の累積生存率曲線が平行の時は「比例ハザード性が成り立っている」といい、非平行の時は「比例ハザード性が成り立っていない」といいます。

比例ハザード性が成り立っていない時は群の性質が異なっていると推測できます。例えばこの例のように群によって手術法が違っていたなら、短期的な生存率はAという手術法の方が高いが長期的な生存率はBという手術法の方が高い、つまり手術法によってプロフィールが異なっていると推測できます。そのようなプロフィールの違いがわかれば患者の状態に合わせて手術法を適宜選択することが可能になるので、これはこれで重要な情報です。 (→8.2 共分散分析結果の解釈)

しかし通常の生命表解析では、とりあえず異質性の検定は無視し、共通性の検定だけに注目して瞬間死亡率の差を検定します。これがコックス・マンテルの検定です。しかしせっかく異質性の検定を行うことができるので、異質性の検定結果も併記して2群の累積生存率曲線が平行かどうか、つまり比例ハザード性が成り立っているかどうかも検討した方が合理的です。

瞬間死亡率が累積生存率に対して指数的に影響するので、生命表解析では瞬間死亡率の差を指数変換して瞬間死亡率の比にした値を指標するのが普通です。そのためコックス・マンテルの検定でも瞬間死亡率の比を求めます。その値のことをハザード比(hazard ratio)または相対ハザード(relative hazard)といいます。「ハザード」は「リスク」と同じように「危険性」という意味ですが、ハザードが潜在的に危険性の原因になるものを表すのに対して、リスクはそれが実際に起こった時の危険性を表す用語です。そのため生命表解析では瞬間死亡率のことをハザードと呼び、最終的な累積死亡率のことをリスクと呼んで区別しています。

表11.2.1のデータについてハザード比とその95％信頼区間を計算すると次のようになります。

上記の結果から、A群に比べてB群のハザードが4倍ほどあることがわかります。ただしこれは瞬間死亡率の比ですから、A群の累積生存率の方が4倍高いとか、A群の方が4倍長生きするということではありません。あくまでも瞬間死亡率が4倍ほど高い、つまりある瞬間にある観察対象が死亡する確率が4倍ほど高いということです。例えばA群のMST(50％生存時間)は35.11ヵ月であるのに対してB群のMSTは15ヵ月であり、A群はB群の2倍強長生きするだけと解釈できます。

この場合、コックス・マンテルの検定は瞬間死亡率の比が1かどうかの検定になります。ただし検定結果は有意ではないにもかかわらず、ハザード比の信頼区間に1が含まれていません。これは検定と推定では計算方法が微妙に異なるからです。 _(注1)

ちなみにコックス・マンテルの検定を適用した表11.2.1の12個の分割表について、群ごとの瞬間死亡率をその時点の観測例数で重み付けして平均し、その差と比を計算すると次のようになります。

この瞬間死亡率の重み付き平均の比と、コックス・マンテルの検定で求められるハザード比は計算方法が少し違います。そのため両者が完全に一致することはないものの、よく似た値になります。そして上記の結果から、2群の瞬間死亡率の比が約3であっても、瞬間死亡率の差は10％程度しかないことがわかります。これは2群の瞬間死亡率が低いためです。

以上の結果と第1節の図11.1.2を見ると、2本の累積生存率曲線は交わっておらず、瞬間死亡率はB群の方が10％ほど高く、A群の方が生存率が高い傾向があることがわかります。しかし検定結果が有意ではなく、ハザード比の信頼区間が非常に広くなっています。そのためとりあえず次のような統計学的結論を採用し、医学的結論は保留します。

例数を増やして再試験を行い、もし検定結果が有意なら、累積生存率の差の検定と同様の疑問点——ただし累積生存率の代わりに瞬間死亡率まはたハザード比を評価指標にする——について検討し、全てに肯定的に答えられるとしたら次のような医学的結論を採用することができます。

マンテル・ヘンツェルの検定は2群の比較しかできないので、3群以上の時は一般化拡張マンテル検定を利用することになります。一般化拡張マンテル検定は連続修正を行わない上に、複数の分割表の処理方法がマンテル・ヘンツェルの検定と少し異なります。そのためこの手法を2群の比較に用いた時は、マンテル・ヘンツェルの検定結果とわずかに異なる結果になります。 (→4.4 繰り返しのある多標本・多時期の計数値 (注2))

例えば表11.2.1のデータに一般化拡張マンテル検定を適用すると次のようになります。この結果とマンテル・ヘンツェルの検定結果を比べると、わずかに異なっていることがわかると思います。 _(注2)

一般化拡張マンテル検定はベクトルと行列を使う非常に煩雑な手法です。そこでこの手法の簡便な近似法としてログランク検定(log rank test)という手法が考案されています。それを表11.2.1のデータに適用すると次のようになります。 _(注3)

コンピュータの発達により、今は一般化拡張マンテル検定も簡単に計算できるようになりました。したがって、できればこの手法よりも一般化拡張マンテル検定を使用した方が良いでしょう。

また一般化拡張マンテル検定もログランク検定も、多群の瞬間死亡率がばらついているかどうかの検定です。そのため検出差を具体的に設定することが難しく、ほとんどの場合は統計的仮説検定ではなく有意性検定になります。そして多群の場合は2群ごとに瞬間死亡率の差を多重比較し、その結果を総合して検討することが多いと思います。そのため多群の場合は一般化拡張マンテル検定やログランク検定を適用するよりも、コックス・マンテルの検定を用いたボンフェローニー型多重比較によって、2群ごとに瞬間死亡率の差を多重比較する方が実際的でしょう。 (→4.4 繰り返しのある多標本・多時期の計数値　(2) 名義尺度(分類データ))

(3) 生存時間の比較

コックス・マンテルの検定とは別の考え方として、生存時間を群間比較することによって生存率の比較をするという方法が考えられます。もし最終的に全例が死亡していれば、群ごとに生存時間の平均値つまり平均生存時間を計算し、それを群間比較することによって生存率の比較をすることができます。しかし医学研究では全例が死亡しているデータは稀であり、ほとんどの場合は平均生存時間を求められないのでMST(50％生存時間)を評価指標として多用します。ところがMSTも半数以上が死亡していなければ求められず、全てのデータに適用できるわけではありません。

そこで生存時間を順序尺度として扱い、順位和検定を適用して生存時間の順位平均値を群間比較するという方法が考えられます。ただし生存時間が同じでも、死亡例と脱落例の順位を同じにするのは非合理です。そこで順位の付け方を拡張し、脱落例についても合理的な順位を付けられるように順位和検定を一般化した手法が考案されています。それが一般化ウィルコクソンの2標本検定(Generalized Wilcoxon test)です。

第1節の表11.1.1のデータについて観測時間を群別にクロス集計してまとめ、それに一般化ウィルコクソンの2標本検定を適用すると次のようになります。なお表11.1.3と同じように表中の「(+)」は脱落例を表し、「+」は打ち切り例を表します。 _(注4)

注意しなければならないことは、これは生存時間の順位平均値の差または勝率の検定でありMSTの検定ではないということです。そのためこの検定結果が有意になったとしても、「2群のMSTが異なっている」とはいえませんし、そもそもMSTが求められない時もあります。この場合は検定結果が有意ではなく、勝率の信頼区間が非常に広くなっています。そのためとりあえず次のような統計学的結論を採用し、医学的結論は保留します。

例数を増やして再試験を行い、もし検定結果が有意なら、累積生存率の差の検定と同様の疑問点——ただし累積生存率の代わりに生存時間の勝率を評価指標にする——について検討し、全てに肯定的に答えられるとしたら次のような医学的結論を採用することができます。

ちなみに死亡と脱落を区別せず、普通のウィルコクソンの2標本検定(ウィルコクソンの順位和検定＝マン・ホイットニィのU検定)を適用した時と、観測期間を計量尺度として扱い、平均値の差の検定を適用した時は次のようになります。これらの結果から、この場合はどの手法の結果もよく似ていることがわかると思います。

コックス・マンテルの検定と同様に、一般化ウィルコクソンの2標本検定は2群の比較しかできません。 3群以上の場合はクリスカル・ウォーリスのH検定を一般化した一般化クリスカル・ウォーリス検定を適用することができます。しかし一般化拡張マンテル検定と同様に、一般化ウィルコクソンの2標本検定を利用したボンフェローニー型多重比較によって2群ごとに多重比較する方が実際的でしょう。

(4) 手法間の関係

一般化拡張マンテル検定を汎用化すると、生存率を群間比較する汎用的かつ抽象的な検定手法が考えられます。その検定手法ではハザード比を用いる手法と生存時間の順位を用いる手法が、順位を対数変換することによって統合されます。そこで歴史的には、その手法のことをログランク検定(log rank test)と呼んでいました。そしてその手法においてパラメーターの値や近似計算法を少し変えて具体化すると、コックス・マンテル検定または一般化拡張マンテル検定とその近似手法((2)で説明したログランク検定)、一般化ウィルコクソンの2標本検定または一般化クリスカル・ウォーリス検定に相当する手法になります。

そのため統計ソフトによってはコックス・マンテル検定のことを「ログラン検定」と呼んだり、一般化ウィルコクソンの2標本検定のことを「ログランク検定」と呼んだりしています。このように生存時間解析では同じ手法が別の名称で呼ばれていたり、別の手法が同じ名称で呼ばれていたりして、手法名と内容が少々混乱しているので注意が必要です。 _(注5)

またコックス・マンテルの検定が瞬間死亡率を評価指標にした手法であるのに対して、一般化ウィルコクソンの2標本検定は生存時間の勝率を評価指標にした手法です。そのためコックス・マンテルの検定は累積生存率曲線が平行かどうか、つまり比例ハザード性が成り立っているかどうかを検討することができますが、一般化ウィルコクソンの2標本検定はそれができません。そのため累積生存率曲線を比較するという目的にはコックス・マンテルの検定の方が適しています。

そして第4節で説明するコックスの比例ハザードモデルは、コックス・マンテルの検定を多変量に拡張した多変量生命表解析に相当します。そのため多変量生命表解析としてコックスの比例ハザードモデルを用いる時は、単変量生命表解析としてコックス・マンテルの検定を用いると整合性が良くなります。 (→11.4 比例ハザードモデル)

ただしこれらの手法は全てノンパラメトリック手法なので、死亡例の発生順序が同じなら死亡時期が違っても同じ結果になります。例えば第1節の表11.1.1の時間間隔を全て1にして累積生存率曲線を描き、これに上記の手法を適用すると結果は全く変わりません。

表11.2.3 腫瘍患者の時間間隔を1にした生命表
群	症例番号	生存期間(転帰)	生存数/観察数	累積生存率	累積生存率の標準誤差
A	1	2(+)	(12/12)	1	0
2	3	10/11	0.909	0.087
3	5	9/10	0.818	0.116
4	7	8/9	0.727	0.134
5	9 +	(8/8)	0.727	0.134
6	13	6/7	0.623	0.15
7	14	5/6	0.519	0.157
8	15 +	(5/5)	0.519	0.157
9	16 +	(4/4)	0.519	0.157
10	17	2/3	0.346	0.176
11	18 +	(2/2)	0.346	0.176
12	19 +	(1/1)	0.346	0.176
B	13	1	9/10	0.9	0.095
14	2	8/9	0.8	0.126
15	4	7/8	0.7	0.145
16	6	6/7	0.6	0.155
17	7	5/6	0.5	0.158
18	8 +	(5/5)	0.5	0.158
19	10	3/4	0.375	0.161
20	11(+)	(3/3)	0.375	0.161
21	12	1/2	0.188	0.155
22	16	0/1	0	0

ところが図11.12と図11.2.1を比べるとわかるように、死亡時期が異なると累積生存率曲線は違う形になります。そのためノンパラメトリック手法は累積生存率曲線を比較する正確な手法とはいえません。逆にいえば、これらの手法を適用した時は、本来は図11.1.2のようなグラフではなく図11.2.1のようなグラフを描くべきです。

そこで累積生存率曲線を特定の関数で近似し、その関数のパラメータを比較するという方法が考えられます。その手法をパラメトリック生命表解析またはパラメトリック生存時間解析といいます。

検量線を作成する時、実際のデータを折れ線で結んで検量線にすると誤差が大きくなるので、通常は回帰直線または回帰曲線を利用します。それと同様に実際のデータを用いた累積生存率曲線は誤差が大きく、それに基づいたノンパラメトリック手法も誤差が大きくなり、しかも死亡時間という重要な情報を利用しません。そのため累積生存率曲線を比較するにはパラメトリック生命表解析を用いた方が正確かつ合理的です。

また比例ハザード性が成り立っていない時はハザード比が不正確になります。そのため、そのような時はハザード比の代わりに境界内平均生存時間(RMST：Restricted Mean Survival Time)という値を代替え指標として用いる方が良いという意見があります。しかし境界内平均生存時間は原理的にハザードに反比例するので、ハザード比と同じ特徴を持っています。そのため境界内平均生存時間をハザード比の代替え指標にするのはあまり感心しません。境界内平均生存時間はパラメトリック生命表解析と関係が深い指標なので、詳しくは第6節のパラメトリック生命表解析で説明します。 (→11.6 パラメトリック生命表解析)

それから人はいつかは必ず死ぬので、生命表解析は原則として全例が死亡するまで観測を続けるという前提で理論を組み立てています。そして色々な要因の生存率に対する影響を分析するのではなく生存時間に対する影響を分析します。 生存時間解析という名称はこのことを端的に表していて、全例が死亡していない時は結果の信頼性が低くなります。例えば重要な評価指標である平均生存時間は全例が死亡しないと求めらず、MST(50％生存時間)は半数以上が死亡していないと求められません。

したがって生命表解析を適用する時は全例が死亡していることが理想であり、そうでなければ少なくとも半数以上が死亡している必要があります。死亡例が半数未満の時は無理に生命表解析を適用するよりも、最終観察時点における死亡の有無を目的変数にしてロジスティック回帰分析を適用した方が正確な結果が得られます。 (→第10章　ロジスティック回帰分析)

(注1)　表11.2.1を一般化すると、k番目の2×2分割表を次のように表すことができます。

表11.2.4 k番目の2×2分割表
群	生存(脱落)	死亡	計
A₁	s_k1(w_k1)	d_k1	n_k1
A₂	s_k2(w_k2)	d_k2	n_k2
計	s_k.(w_k.)	d_k.	N_k

k = 1,…,bとして、これらb個の分割表にマンテル・ヘンツェルの共通性の検定を適用すると次のようになります。 (→4.4 繰り返しのある多標本・多時期の計数値 (注2))

この式から連続修正をはずし、平方する前の分子を変形すると次のようになります。この値を分母で割った値がコックスのβの推定値になり、分母の平方根の逆数がその標準誤差になります。コックスのβは対数瞬間死亡率の差に相当し、この値を指数変換したものが瞬間死亡率の比つまりハザード比になります。 このハザード比はマンテル・ヘンツェルの調整リスク比とは少し異なる値になります。

分子：

分母：

コックスのβの推定値：

bの標準誤差：

推定：βの100α％信頼区間：β_L^U = b ± t(∞,α)SE(b) → 下限：β_L = b - t(∞,α)SE(b) 　上限：β_U = b + t(∞,α)SE(b)
ハザード比(A₂群/A₁群)：HR = exp(b)
ハザード比の100α％信頼区間　下限：HR_L = exp(β_L) 　上限：HR_U = exp(β_U)

検定：

＞ χ²(1,α)の時、有意水準100α％で有意

形式的には、コックスのβが0かどうかを検定する手法をコックス・マンテルの検定と呼んでいます。ただし実際の計算では連続修正を施し、コックス・マンテルの検定と同じ式を用いて検定します。そしてこの手法を多変量に拡張した手法が第4節で説明するコックスの比例ハザードモデルによる重回帰型生命表解析です。

表11.2.1のデータについて実際に計算してみましょう。

検定：

推定：βの95％信頼区間：β_L^U = 1.308 ± 1.960×0.607 = 1.308 ± 1.190 → 下限：β_L = 0.118　上限：β_U = 2.497
ハザード比(B群/A群)：HR = exp(1.308) = 3.697
ハザード比の95％信頼区間　下限：HR_L = exp(0.118) = 1.125 　上限：HR_U = exp(2.497) = 12.151

上記のように検定結果は有意水準5％で有意ではないにもかかわらず、ハザード比の95％信頼区間に1が含まれておらず、両者の結果が少し矛盾しています。これは検定の計算では連続修正を施しているのに対して、信頼区間の計算では連続修正を施していないので結果が微妙に異なるからです。ただし連続修正の有無にかかわらず、一般に検定結果と推定結果は一致するとは限りません。 (→1.5 有意性検定の考え方 (注1))

(注2)　表11.2.4に一般化拡張マンテル検定の共通性の検定を適用すると次のようになります。 (→4.4 繰り返しのある多標本・多時期の計数値 (注2))

∴

この式はコックス・マンテル検定の連続修正をしない式の分子にN_kの重みを付け、分母にN_k²の重みを付けたものに相当します。そのためコックス・マンテル検定に比べて観測例数が多い前半に重みをかけた結果になります。もし全ての分割表の例数N_kが等しいと両者の式は一致します。しかしN_kはその時点の観測例数であり、普通は全て異なるので両者は一致しません。

ただしW_k = N_k
W_k = 定数の時：

表11.2.1のデータについて実際に計算してみましょう。

分子：

分母：

(注3)　ログランク検定はコックス・マンテルの検定と同じように実際の死亡数と予測死亡数の差を利用して検定します。しかし差を標準化した値が正規分布することを利用して検定するのではなく、差の平方を予測死亡数で割った値が近似的にχ²分布することを利用して検定します。そのため瞬間死亡率の差ではなく瞬間死亡率の一様性を検定することになり、m×nのχ²検定と同じように3群以上の場合でも検定することができます。

表11.2.4を多群に拡張すると次のようになります。

表11.2.5 k番目のa×2分割表
群	生存(脱落)	死亡	計
A₁	s_k1(w_k1)	d_k1	n_k1
:	:	:	:
A_i	s_ki(w_ki)	d_ki	n_ki
:	:	:	:
A_a	s_ka(w_ka)	d_ka	n_ka
計	s_k.(w_k.)	d_k.	N_k

もし全ての群の瞬間死亡率が等しいとすると、コックス・マンテルの検定と同様に群iの予測死亡数は次のようになります。

実際の死亡数と予測死亡数を群ごとに合計した値は、それぞれ次のようになります。

実際の死亡数と予測死亡数の差の平方を予測死亡数で割った値を全群について合計すると、次のようになります。

… 近似的に自由度(a-1)のχ²分布に従う
χ_LR² ＞ χ²(a-1,α)の時、有意水準100α％で有意

表11.2.1のデータについて実際に計算してみましょう。

d.₁ = 5　　d.₂ = 8

ログランク検定において群が2つの時、群1と群2の実際の死亡数と予測死亡数の差は絶対値が同じで符号が反対になります。そして最終観察期間が両群とも同じ時は両群の予測死亡数も同じになります。そのためログランク検定のχ_LR²は次のようになります。

一方、コックス・マンテル検定において、最終観察期間が両群とも同じで2群の例数が等しくて死亡数d_k.が少ない時、s_k./N_k≒1、n_k2/N_k=1/2より、次のように連続修正をはずした式がログランク検定の式に近似します。

表11.2.5に一般化拡張マンテル検定を適用すると次のようになります。 (→4.4 繰り返しのある多標本・多時期の計数値 (注2))

χ_gMm² = [ｕ-ｅ]'Ｗ^-1[ｕ-ｅ]

(i≠i')
ここで重みw_iiとw_ii'を次のように近似すると

　　w_ii' = 0

以上のことから、ログランク検定は一般化拡張マンテル検定の近似法に相当することがわかると思います。

(注4)　一般化ウィルコクソンの2標本検定では、ある症例の観測期間と他の症例の観測期間を比べることによって次のようなスコアを付けます。

u_ij =	┌ -1…t_i ＜ t_jまたはt_i ≦ t_j^*(負け)
	├ +1…t_i ＞ t_jまたはt_i^* ≧ t_j(勝ち)
	└　0…t_i = t_j または t_i^* ＜ t_j または t_i ＞ t_j^* または t_i^* と t_j^* (引き分けまたは判定不能)

t_i,t_j：死亡例の観測期間 (i,j = 1,…,N₀、i ≠ j) 　　t_i^*,t_j^*：脱落例の観測期間　　N₀：観測開始時の全対象数(2群合計)

そしてある症例を他の(N₀ - 1)個の症例と比べた時のスコアの合計を求めると、それがその症例の一般化された順位になります。

r_i = (t_i または t_i^* が勝ちの例数 − 負けの例数) =

(i ≠ j)

2つの群をA₁、A₂とし、A₁群についてこの一般化された順位の和を計算した値をW統計量といいます。もしこの値が0なら、2群の生存期間の順位和は同じになるはずです。そこでW統計量とその分散を用いて生存期間の順位和検定を行うことができます。

n₀₁：A₁群の観測開始時の対象数　　n₀₂：A₂群の観測開始時の対象数　　N₀ = n₀₁ + n₀₂

… A₁群についてだけ合計する

　　|z_o| ＞ 2の時は連続修正を省く：

※sgn(W)は次のような符号関数
　W ＜ 0の時：sgn(W) = -1　W = 0の時：sgn(W) = 0　W ＞ 0の時：sgn(W) = 1
検定：|z_o| ＞ t(∞,α)の時、有意水準100α％で有意
推定：Wの100α％信頼区間：W_L^U = W ± t(∞,α)SE(W) → 下限：W_L = W - t(∞,α)SE(W)　上限：W_U = W + t(∞,α)SE(W)

脱落例と同位がない時、一般化された順位の最小値は-(N₀ - 1)に、最大値は(N₀ - 1)に、中央値は0になります。これはスケールを普通の順位の2倍にし、中央を0にシフトしたものになるので、W統計量は普通の順位和検定の統計量(順位和 − 順位和の期待値)の2倍の値になります。そのため上記の検定の式の分子と分母を2で割った値は、普通のウィルコクソンの2標本検定の式と一致します。そして順位和とU値の関係に基づいてW統計量からU値を求め、その信頼区間を求めることができます。 (→3.4 2標本の計数値 (注3))

Uの100α％信頼区間：上式を用いてW_LとW_UをU_LとU_Uに変換する
Uの割合＝勝率：

表11.2.4を利用すると、次のようにしてW統計量とその分散を計算することができます。

死亡例の順位：

脱落例の順位：

表11.2.1のデータについて実際に計算してみましょう。

W = (2) + (2-18) + (4-16) + (6-13) + (8) + (10-7) + (11-6) + (12) + (13) + (13-2) + (14) + (14) = 47
Σr_i² = (-21)² + (2) + (1-20)² + (2-18)² + (3-17)² + (4-16)² + (5-15)² + 2×(6-13)² + (8)² + (8)² + (8-10)² + (9)² + (9-8)² + (10-7)² + (11-6)² + (12)² + (13)² + (12-4)² + (13-2)² + (14)² + (14)² = 2738

Wの95％信頼区間　下限：W_L = 47 - 1.96×26.67 ≒ -5.3 　上限：W_U = 47 + 1.96×26.67 ≒ 99.3

(注5)　一般化拡張マンテル検定と同じ形式の式に、適当な重みW_kを用いて次のような検定統計量を考えます。

χ² = [ｕ - ｅ]'Ｖ^-1[ｕ - ｅ]

(i ≠ i')
・群の数a = 2の時

歴史的には、この形式の検定統計量を用いた検定手法のことをログランク検定と呼んでいたようです。重みW_kについては色々なものが提案されていて、例えば次のようなものがあります。

W_k=1：コックス・マンテル検定
W_k=N_k：一般化拡張マンテル検定、一般化ウィルコクソン検定＝ゲーハン・ブレスロー(Gehan-Breslow)検定
：タローン・ウェア(Tarone-Ware)検定
：ペト・プレンティス(Peto-Peto-Prentice)検定

1番は一様な重みであり、2番は例数が多い前半に重みをかけ、3番は1番と2番の折衷案的な重みです。その結果、2番つまり一般化拡張マンテル検定と一般化ウィルコクソン検定は前半の瞬間死亡率の差を重視するのに対して、1番つまりコックス・マンテル検定は前半と後半を同じように扱い、3番つまりタローン・ウェア検定は前半をやや重視することになります。また4番つまりペト・プレンティス検定は打ち切り例が多い時にも安定した結果になるといわれています。

ただしこれらの重みは評価指標に付随するいわば副作用のようなものです。一般化拡張マンテル検定と一般化ウィルコクソン検定は生存時間の順位平均値がばらついているかどうかの検定であり、生存時間の順位平均値が評価指標になります。順位平均値に対する各データの影響は同じですから、例数が少ない後半よりも例数が多い前半の方が順位平均値に与える影響は大きくなります。その結果、一般化拡張マンテル検定と一般化ウィルコクソン検定は例数が多い前半に重みをかけることになるわけです。

またコックス・マンテル検定は平均的な瞬間死亡率がばらついているかどうかの検定であり、平均的な瞬間死亡率が評価指標になります。平均的な瞬間死亡率は死亡例が発生した時点の瞬間死亡率を平均したような値であり、どの時点の瞬間死亡率も同じように扱います。その結果、コックス・マンテル検定は前半と後半を同じように扱うことになるわけです。

それに対してタローン・ウェア検定とペト・プレンティス検定の評価指標は複雑であり、簡単に解釈できません。そのためこれらの検定手法は少々技巧的すぎて、あまり実用的ではありません。検定は評価指標が数学的に信頼できるかどうかを検討するためのものですから、「科学的にどの評価指標が最も意義があるか？」を検討して手法を選択すべきです。

これらの検定手法は個別の名称で呼ばれることもありますが、ひっくるめて「ログランク検定」と呼ばれたり、「コックス・マンテル検定」あるいは「一般化ウィルコクソン検定」または「一般化クリスカル・ウォーリス検定」と呼ばれることもあり、全くもってややこしい限りです。

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

11.2 生存率の比較方法

(1) 累積生存率の比較

(2) 瞬間死亡率の比較

(3) 生存時間の比較

(4) 手法間の関係

群＼観測期間	2	4	5	6	8	12	13	15	16	18	20	25	27	28	32	35	36	50	56	計
A	0	1(+)	1	0	1	0	1	0	1 +	0	0	0	1	1	1 +	1 +	1	1 +	1 +	12
B	1	1	0	1	0	1	1	1 +	0	1	1(+)	1	0	0	0	1	0	0	0	10