玄関雑学の部屋雑学コーナー統計学入門

11.2 生存率の比較方法

(1) 累積生存率の比較

第1節の図11.1.1または図11.1.2を見ればA群の方が生存率が高い、つまりA法という手術の方が予後が良いことが直感的にわかります。 でも有意症患者は、

「2群の生存率に差があるかどうか検定したい!」

と言い出すでしょう。 そこで有意症患者のためにいくつかの手法が考案されているので紹介しましょう。

最も単純なものは、ある時点の累積生存率をそのまま群間比較する方法です。 第1節の表11.1.2と表11.1.3に記載されているように、ある時点の累積生存率について標準誤差を計算することができます。 この標準誤差と、累積生存率が近似的に正規分布することを利用すれば、対応のない2標本の平均値の差を検定する手法と同じ原理である時点における2群の累積生存率の差の検定と推定を行うことができます。 (→3.3 2標本の計量値 (2) データに対応がない場合)

時点iにおけるA群の累積生存率とその標準誤差をPAiとSEAi、母累積生存率をπAi、B群の累積生存率とその標準誤差をPBiとSEBi、母累積生存率をπAi、2群の累積生存率の差とその標準誤差をPdiとSEdi、母累積生存率の差をδi、母累積生存率の検出差つまり医学的な許容範囲をδ0とすると、検定と推定の計算式は次のようになります。

帰無仮説 H0:δi = πAi - πBi = 0
対立仮説 H1:δi = πAi - πBi = δ0 ≠ 0
Pdi = PAi - PBi   
検定: > t(∞,α)の時、有意水準100α%で有意
推定:δiの100(1 - α)%信頼区間:δiLU = Pdi ± t(∞,α)SE → 下限:δiL = Pdi - t(∞,α)SEd  上限:δiU = Pdi + t(∞,α)SEd

例えば表11.1.2の24ヵ月後の累積生存率について、有意水準5%、信頼係数95%、δ0 = 0.1(10%)として計算すると次のようになります。

A群:PA24 = 0.729  SEA24 = 0.134
群:PB24 = 0.36   SEB24 = 0.161
累積生存率の差:Pd24 = 0.369  SEdi = 0.209
検定:|zo| = 1.761(p = 0.0781) < t(∞,0.05) = 1.96 … 有意水準5%で有意ではない
推定:δ24の95%信頼区間:δ24LU = 0.369 ± 0.410 → 下限:δ24L = -0.041 上限:δ24U = 0.780

この場合、検定結果は有意ではなく、累積生存率の差の信頼区間に0を含んでいて、しかも信頼区間幅が0.822(82.2%)もあります。 これは10%という累積生存率の差を検出するには検出力が足らない(例数が足らない)ことを表しています。 そのためとりあえず次のような統計学的結論を採用し、医学的結論は保留します。

統計学的結論:24ヵ月後におけるA群とB群の累積生存率の差は36.9%であり、幅をもたせれば-4.2%〜78%の間である。
 したがって累積生存率はB群よりもA群の方が高い可能性が高いが、信頼性が低いので結論は保留する。

例数を増やして再試験を行い、もし検定結果が有意なら、2標本の平均値の差の検定と同様に次のようなことについて検討する必要があります。

  1. 36.9%という累積生存率の差は医学的に意義があるか?
  2. 36.9%という累積生存率の差は手術法の違いによるものか?
  3. この結果をそのまま腫瘍患者全体に当てはめて良いか?

以上のことについて十分に検討した結果、全ての疑問に対して肯定的に答えられるとしたら次のような医学的結論を採用することができます。

医学的的結論:腫瘍患者にA法とB法という手術を施すと、24ヵ月後における累積生存率はB法よりもA法の方が高い。

(2) 瞬間死亡率の比較

前述の手法はある時点の累積生存率を群間比較するものであり、1時点だけの断面的な比較にすぎません。 そこで表11.1.2の全時点でこの比較を行い、それを総合すれば、一応、図11.1.1の2本の累積生存率曲線全体を比較したことになります。 しかし複数の時点で検定を行い、それを総合する時は検定の多重性という問題が発生します。 しかもこの場合、各時点の累積生存率はそれぞれ独立ではなく時系列的な関連性があります。 そのため検定同士の因果関係を考慮した多重比較を適用する必要がありますが、それは非常に複雑なのでまだ開発されていません。 (→4.1 多標本の計量値 (注2))

そこで生命表のデータを対応のある2分類データと考え、共分散分析に相当する名義尺度用の手法を適用して累積生存率曲線全体を群間比較する手法が考案されています。 それがコックス・マンテル(Cox-Mantel)の検定です。 (→4.4 繰り返しのある多標本・多時期の計数値 (2) 名義尺度(分類データ))

第1節の表11.1.3について死亡例または脱落例が発生するたびに群と生死についての2×2分割表を作成し、それを時系列的に並べると次のようになります。 これらの分割表において、各群の死亡例数を合計例数で割った値はその時点の瞬間死亡率(単位時間あたりの死亡率)になります。

表11.2.1 時系列2×2分割表
観測期間生存(脱落)死亡瞬間死亡率
2A12(0)0120
B9(0)1100.1
4A12(1)0120
B8(0)190.111
5A10(0)1110.091
B8(0)080
6A10(0)0100
B7(0)180.125
8A9(0)1100.1
B7(0)070
12A9(0)090
B6(0)170.143
13A8(0)190.111
B5(0)160.167
15A8(0)080
B5(1)050
16A8(1)080
B4(0)040
18A7(0)070
B3(0)140.25
20A7(0)070
B3(1)030
25A7(0)070
B1(0)120.5
27A6(0)170.143
B1(0)010
28A5(0)160.167
B1(0)010
32A5(1)050
B1(0)010
35A4(1)040
B0(0)111
36A2(0)130.333
B0(0)00-
50A2(1)020
B0(0)00-
56A1(1)010
B0(0)00-

これらの分割表の中で、死亡例が発生していないもの(15ヵ月・16ヵ月・20ヵ月・32ヵ月)と片方の群の例数が0になってしまったもの(36ヵ月・50ヵ月・56ヵ月)は結果に影響しないので除外し、残りの12個にマンテル・ヘンツェルの検定を適用すると次のようになります。 (注1)

共通性の検定:χMm'2 = 3.425(p = 0.0642) < χ2(1,0.05) = 3.841 … 有意水準5%で有意ではない
異質性の検定:χMr2 = 11.506(p = 0.4019) < χ2(11,0.05) = 19.675 … 有意水準5%で有意ではない

この場合、共通性の検定は全時期を通して2群の瞬間死亡率の差が一定と仮定した時の瞬間死亡率の差の検定になります。 それに対して異質性の検定は時期ごとに瞬間死亡率の差が変動しているかどうかの検定になります。

第1節のカプラン・マイヤー法よる累積生存率の計算方法で説明したように、累積生存率は瞬間生存率を掛け合わせることによって計算します。 そのため瞬間死亡率は累積生存率に対して指数的に影響します。 そこで2群の瞬間死亡率の差が一定の時、2群の対数変換した累積生存率曲線は平行になります。 つまり異質性の検定は2群の累積生存率曲線の非平行性の検定であり、群と生存時間の交互作用の検定に相当します。

共分散分析の非平行性の検定結果が有意の時は修正群差の検定結果が不正確になるのと同様に、異質性の検定結果が有意の時は共通性の検定結果は不正確になります。 例えば2群の累積生存率曲線が交差してしまい、ある時点まではA群の方が累積生存率が高いものの、それ以後はB群の方が累積生存率が高いという現象が起こり、単純に一方の群の方が生存率が高いといえなくなってしまうのです。 このように2群の累積生存率曲線が平行の時は「比例ハザード性が成り立っている」といい、非平行の時は「比例ハザード性が成り立っていない」といいます。

比例ハザード性が成り立っていない時は群の性質が異なっていると推測できます。 例えばこの例のように群によって手術法が違っていたなら、短期的な生存率はAという手術法の方が高いが長期的な生存率はBという手術法の方が高い、つまり手術法によってプロフィールが異なっていると推測できます。 そのようなプロフィールの違いがわかれば患者の状態に合わせて手術法を適宜選択することが可能になるので、これはこれで重要な情報です。 (→8.2 共分散分析結果の解釈)

しかし通常の生命表解析では、とりあえず異質性の検定は無視し、共通性の検定だけに注目して瞬間死亡率の差を検定します。 これがコックス・マンテルの検定です。 しかしせっかく異質性の検定を行うことができるので、異質性の検定結果も併記して2群の累積生存率曲線が平行かどうか、つまり比例ハザード性が成り立っているかどうかも検討した方が合理的です。

コックス・マンテルの検定:χo2 = 3.425(p = 0.0642) < χ2(1,0.05) = 3.841 … 有意水準5%で有意ではない
交互作用の検定:χo2 = 11.506(p = 0.4019) < χ2(11,0.05) = 19.675 … 有意水準5%で有意ではない

瞬間死亡率が累積生存率に対して指数的に影響するので、生命表解析では瞬間死亡率の差を指数変換して瞬間死亡率の比にした値を指標するのが普通です。 そのためコックス・マンテルの検定でも瞬間死亡率の比を求めます。 その値のことをハザード比(hazard ratio)または相対ハザード(relative hazard)といいます。 「ハザード」は「リスク」と同じように「危険性」という意味ですが、ハザードが潜在的に危険性の原因になるものを表すのに対して、リスクはそれが実際に起こった時の危険性を表す用語です。 そのため生命表解析では瞬間死亡率のことをハザードと呼び、最終的な累積死亡率のことをリスクと呼んで区別しています。

表11.2.1のデータについてハザード比とその95%信頼区間を計算すると次のようになります。

ハザード比(B群/A群):HR = 3.697
95%信頼区間 下限:HRL = 1.125 上限:HRU = 12.151

上記の結果から、A群に比べてB群のハザードが4倍ほどあることがわかります。 ただしこれは瞬間死亡率の比ですから、A群の累積生存率の方が4倍高いとか、A群の方が4倍長生きするということではありません。 あくまでも瞬間死亡率が4倍ほど高い、つまりある瞬間にある観察対象が死亡する確率が4倍ほど高いということです。 例えばA群のMST(50%生存時間)は35.11ヵ月であるのに対してB群のMSTは15ヵ月であり、A群はB群の2倍強長生きするだけと解釈できます。

この場合、コックス・マンテルの検定は瞬間死亡率の比が1かどうかの検定になります。 ただし検定結果は有意ではないにもかかわらず、ハザード比の信頼区間に1が含まれていません。 これは検定と推定では計算方法が微妙に異なるからです。 (注1)

ちなみにコックス・マンテルの検定を適用した表11.2.1の12個の分割表について、群ごとの瞬間死亡率をその時点の観測例数で重み付けして平均し、その差と比を計算すると次のようになります。

A群 = (0.091×19 + 0.1×17 + 0.111×15 + 0.143×8 + 0.167×7)÷(22 + 21 + 19 + 18 + 17 + 16 + 15 + 11 + 9 + 8 + 7 + 5) ≒ 0.044
B群 = (0.1×22 + 0.111×21 + 0.125×18 + 0.143×16 + 0.167×15 + 0.25×11 + 0.5×9+1×5)÷(22 + 21 + 19 + 18 + 17 + 16 + 15 + 11 + 9 + 8 + 7 + 5) ≒ 0.142
瞬間死亡率の重み付き平均の差(B群−A群) = 0.142 - 0.044 = 0.098
瞬間死亡率の重み付き平均の比(B群/A群) = 0.142/0.044 = 3.216

この瞬間死亡率の重み付き平均の比と、コックス・マンテルの検定で求められるハザード比は計算方法が少し違います。 そのため両者が完全に一致することはないものの、よく似た値になります。 そして上記の結果から、2群の瞬間死亡率の比が約3であっても、瞬間死亡率の差は10%程度しかないことがわかります。 これは2群の瞬間死亡率が低いためです。

以上の結果と第1節の図11.1.2を見ると、2本の累積生存率曲線は交わっておらず、瞬間死亡率はB群の方が10%ほど高く、A群の方が生存率が高い傾向があることがわかります。 しかし検定結果が有意ではなく、ハザード比の信頼区間が非常に広くなっています。 そのためとりあえず次のような統計学的結論を採用し、医学的結論は保留します。

統計学的結論:A群とB群のハザード比は3.697であり、幅をもたせれば1.125〜12.151の間である。
 したがって瞬間死亡率はA群よりもB群の方が高い可能性が高いが、信頼性が低いので結論は保留する。

例数を増やして再試験を行い、もし検定結果が有意なら、累積生存率の差の検定と同様の疑問点——ただし累積生存率の代わりに瞬間死亡率まはたハザード比を評価指標にする——について検討し、全てに肯定的に答えられるとしたら次のような医学的結論を採用することができます。

医学的的結論:腫瘍患者にA法とB法という手術を施すと、瞬間死亡率はA法よりもB法の方が高い。

マンテル・ヘンツェルの検定は2群の比較しかできないので、3群以上の時は一般化拡張マンテル検定を利用することになります。 一般化拡張マンテル検定は連続修正を行わない上に、複数の分割表の処理方法がマンテル・ヘンツェルの検定と少し異なります。 そのためこの手法を2群の比較に用いた時は、マンテル・ヘンツェルの検定結果とわずかに異なる結果になります。 (→4.4 繰り返しのある多標本・多時期の計数値 (注2))

例えば表11.2.1のデータに一般化拡張マンテル検定を適用すると次のようになります。 この結果とマンテル・ヘンツェルの検定結果を比べると、わずかに異なっていることがわかると思います。 (注2)

共通性の検定:χgMm2 = 3.209(p = 0.0732) < χ2(1,0.05) = 3.841 … 有意水準5%で有意ではない
異質性の検定:χgMr2 = 12.936(p = 0.2975) < χ2(11,0.05) = 19.675 … 有意水準5%で有意ではない

一般化拡張マンテル検定はベクトルと行列を使う非常に煩雑な手法です。 そこでこの手法の簡便な近似法としてログランク検定(log rank test)という手法が考案されています。 それを表11.2.1のデータに適用すると次のようになります。 (注3)

ログランク検定(共通性):χo2 = 4.147(p = 0.0417) > χ2(1,0.05) = 3.841 … 有意水準5%で有意

コンピュータの発達により、今は一般化拡張マンテル検定も簡単に計算できるようになりました。 したがって、できればこの手法よりも一般化拡張マンテル検定を使用した方が良いでしょう。

また一般化拡張マンテル検定もログランク検定も、多群の瞬間死亡率がばらついているかどうかの検定です。 そのため検出差を具体的に設定することが難しく、ほとんどの場合は統計的仮説検定ではなく有意性検定になります。 そして多群の場合は2群ごとに瞬間死亡率の差を多重比較し、その結果を総合して検討することが多いと思います。 そのため多群の場合は一般化拡張マンテル検定やログランク検定を適用するよりも、コックス・マンテルの検定を用いたボンフェローニー型多重比較によって、2群ごとに瞬間死亡率の差を多重比較する方が実際的でしょう。 (→4.4 繰り返しのある多標本・多時期の計数値 (2) 名義尺度(分類データ))

(3) 生存時間の比較

コックス・マンテルの検定とは別の考え方として、生存時間を群間比較することによって生存率の比較をするという方法が考えられます。 もし最終的に全例が死亡していれば、群ごとに生存時間の平均値つまり平均生存時間を計算し、それを群間比較することによって生存率の比較をすることができます。 しかし医学研究では全例が死亡しているデータは稀であり、ほとんどの場合は平均生存時間を求められないのでMST(50%生存時間)を評価指標として多用します。 ところがMSTも半数以上が死亡していなければ求められず、全てのデータに適用できるわけではありません。

そこで生存時間を順序尺度として扱い、順位和検定を適用して生存時間の順位平均値を群間比較するという方法が考えられます。 ただし生存時間が同じでも、死亡例と脱落例の順位を同じにするのは非合理です。 そこで順位の付け方を拡張し、脱落例についても合理的な順位を付けられるように順位和検定を一般化した手法が考案されています。 それが一般化ウィルコクソンの2標本検定(Generalized Wilcoxon test)です。

第1節の表11.1.1のデータについて観測時間を群別にクロス集計してまとめ、それに一般化ウィルコクソンの2標本検定を適用すると次のようになります。 なお表11.1.3と同じように表中の「(+)」は脱落例を表し、「+」は打ち切り例を表します。 (注4)

表11.2.2 群別観測期間集計表
群\観測期間2456 812131516 1820252728 3235365056
A01(+)10 10101 + 00011 1 +1 +11 +1 +12
B1101 0111 +0 11(+)100 0100010
一般化ウィルコクソンの2標本検定:zo = 1.725(p = 0.0845) < t(∞,0.05) = 1.960 … 有意水準5%で有意ではない
A群のWの95%信頼区間:WLU = 47 ± 52.3 → 下限:WL = -5.3 上限:WU = 99.3
※W:A群の(順位和 - 順位和の期待値)×2
A群の勝率の95%信頼区間 = 69.6±21.8% → 下限 = 47.8% 上限 = 91.4%
※勝率:A群とB群の生存時間を総当りで比較し、大きい方を勝ちとした時のA群の勝率つまりマン・ホイットニィのU検定における勝率を一般化した値。

注意しなければならないことは、これは生存時間の順位平均値の差または勝率の検定でありMSTの検定ではないということです。 そのためこの検定結果が有意になったとしても、「2群のMSTが異なっている」とはいえませんし、そもそもMSTが求められない時もあります。 この場合は検定結果が有意ではなく、勝率の信頼区間が非常に広くなっています。 そのためとりあえず次のような統計学的結論を採用し、医学的結論は保留します。

統計学的結論:B群に対するA群の生存時間の勝率は69.6%であり、幅をもたせれば47.8%〜91.4%の間である。
 したがって生存時間の勝率はB群よりもA群の方が高い可能性が高いが、信頼性が低いので結論は保留する。

例数を増やして再試験を行い、もし検定結果が有意なら、累積生存率の差の検定と同様の疑問点——ただし累積生存率の代わりに生存時間の勝率を評価指標にする——について検討し、全てに肯定的に答えられるとしたら次のような医学的結論を採用することができます。

医学的的結論:腫瘍患者にA法とB法という手術を施すと、生存時間はB法よりもA法の方が長い。

ちなみに死亡と脱落を区別せず、普通のウィルコクソンの2標本検定(ウィルコクソンの順位和検定=マン・ホイットニィのU検定)を適用した時と、観測期間を計量尺度として扱い、平均値の差の検定を適用した時は次のようになります。 これらの結果から、この場合はどの手法の結果もよく似ていることがわかると思います。

○ウィルコクソンの2標本検定:zo = 1.518(p = 0.1290) < t(∞,0.05) = 1.960 … 有意水準5%で有意ではない
順位平均値の差の95%信頼区間:4.3 ± 5.4 → 下限 = -1.1 上限 = 9.7
A群の勝率の95%信頼区間:69.6 ± 29.7.4% → 下限 = 44.8% 上限 = 100%
○2標本t検定:to = 1.760(p = 0.0937) < t(20,0.05) = 2.086 … 有意水準5%で有意ではない
A群の生存時間:平均値 = 26 標準誤差 = 4.9   B群の生存時間:平均値 = 15 標準誤差 = 3.2
平均値の差の95%信頼区間:10.8 ± 12.8 → 下限 = -2.0 上限 = 23.6

コックス・マンテルの検定と同様に、一般化ウィルコクソンの2標本検定は2群の比較しかできません。 3群以上の場合はクリスカル・ウォーリスのH検定を一般化した一般化クリスカル・ウォーリス検定を適用することができます。 しかし一般化拡張マンテル検定と同様に、一般化ウィルコクソンの2標本検定を利用したボンフェローニー型多重比較によって2群ごとに多重比較する方が実際的でしょう。

(4) 手法間の関係

一般化拡張マンテル検定を汎用化すると、生存率を群間比較する汎用的かつ抽象的な検定手法が考えられます。 その検定手法ではハザード比を用いる手法と生存時間の順位を用いる手法が、順位を対数変換することによって統合されます。 そこで歴史的には、その手法のことをログランク検定(log rank test)と呼んでいました。 そしてその手法においてパラメーターの値や近似計算法を少し変えて具体化すると、コックス・マンテル検定または一般化拡張マンテル検定とその近似手法((2)で説明したログランク検定)、一般化ウィルコクソンの2標本検定または一般化クリスカル・ウォーリス検定に相当する手法になります。

そのため統計ソフトによってはコックス・マンテル検定のことを「ログラン検定」と呼んだり、一般化ウィルコクソンの2標本検定のことを「ログランク検定」と呼んだりしています。 このように生存時間解析では同じ手法が別の名称で呼ばれていたり、別の手法が同じ名称で呼ばれていたりして、手法名と内容が少々混乱しているので注意が必要です。 (注5)

またコックス・マンテルの検定が瞬間死亡率を評価指標にした手法であるのに対して、一般化ウィルコクソンの2標本検定は生存時間の勝率を評価指標にした手法です。 そのためコックス・マンテルの検定は累積生存率曲線が平行かどうか、つまり比例ハザード性が成り立っているかどうかを検討することができますが、一般化ウィルコクソンの2標本検定はそれができません。 そのため累積生存率曲線を比較するという目的にはコックス・マンテルの検定の方が適しています。

そして第4節で説明するコックスの比例ハザードモデルは、コックス・マンテルの検定を多変量に拡張した多変量生命表解析に相当します。 そのため多変量生命表解析としてコックスの比例ハザードモデルを用いる時は、単変量生命表解析としてコックス・マンテルの検定を用いると整合性が良くなります。 (→11.4 比例ハザードモデル)

ただしこれらの手法は全てノンパラメトリック手法なので、死亡例の発生順序が同じなら死亡時期が違っても同じ結果になります。 例えば第1節の表11.1.1の時間間隔を全て1にして累積生存率曲線を描き、これに上記の手法を適用すると結果は全く変わりません。

表11.2.3 腫瘍患者の時間間隔を1にした生命表
症例番号生存期間(転帰)生存数/観察数累積生存率累積生存率の標準誤差
A12(+)(12/12)10
23 10/110.9090.087
35 9/100.8180.116
47 8/90.7270.134
59 +(8/8)0.7270.134
613 6/70.6230.15
714 5/60.5190.157
815 +(5/5)0.5190.157
916 +(4/4)0.5190.157
1017 2/30.3460.176
1118 +(2/2)0.3460.176
1219 +(1/1)0.3460.176
B131 9/100.90.095
142 8/90.80.126
154 7/80.70.145
166 6/70.60.155
177 5/60.50.158
188 +(5/5)0.50.158
1910 3/40.3750.161
2011(+)(3/3)0.3750.161
2112 1/20.1880.155
2216 0/100
図11.1.2 正確な累積生存率曲線 図11.2.1 時間間隔を1にした累積生存率曲線
全ての時点の累積生存率の差の検定と推定結果、コックス・マンテル検定による瞬間死亡率の差の検定と推定結果、一般化ウィルコクソンの2標本検定による生存時間順位平均値の差の検定と推定結果は全て表11.1.1と同じ!

ところが図11.12と図11.2.1を比べるとわかるように、死亡時期が異なると累積生存率曲線は違う形になります。 そのためノンパラメトリック手法は累積生存率曲線を比較する正確な手法とはいえません。 逆にいえば、これらの手法を適用した時は、本来は図11.1.2のようなグラフではなく図11.2.1のようなグラフを描くべきです。

そこで累積生存率曲線を特定の関数で近似し、その関数のパラメータを比較するという方法が考えられます。 その手法をパラメトリック生命表解析またはパラメトリック生存時間解析といいます。

検量線を作成する時、実際のデータを折れ線で結んで検量線にすると誤差が大きくなるので、通常は回帰直線または回帰曲線を利用します。 それと同様に実際のデータを用いた累積生存率曲線は誤差が大きく、それに基づいたノンパラメトリック手法も誤差が大きくなり、しかも死亡時間という重要な情報を利用しません。 そのため累積生存率曲線を比較するにはパラメトリック生命表解析を用いた方が正確かつ合理的です。

また比例ハザード性が成り立っていない時はハザード比が不正確になります。 そのため、そのような時はハザード比の代わりに境界内平均生存時間(RMST:Restricted Mean Survival Time)という値を代替え指標として用いる方が良いという意見があります。 しかし境界内平均生存時間は原理的にハザードに反比例するので、ハザード比と同じ特徴を持っています。 そのため境界内平均生存時間をハザード比の代替え指標にするのはあまり感心しません。 境界内平均生存時間はパラメトリック生命表解析と関係が深い指標なので、詳しくは第6節のパラメトリック生命表解析で説明します。 (→11.6 パラメトリック生命表解析)

それから人はいつかは必ず死ぬので、生命表解析は原則として全例が死亡するまで観測を続けるという前提で理論を組み立てています。 そして色々な要因の生存率に対する影響を分析するのではなく生存時間に対する影響を分析します。 生存時間解析という名称はこのことを端的に表していて、全例が死亡していない時は結果の信頼性が低くなります。 例えば重要な評価指標である平均生存時間は全例が死亡しないと求めらず、MST(50%生存時間)は半数以上が死亡していないと求められません。

したがって生命表解析を適用する時は全例が死亡していることが理想であり、そうでなければ少なくとも半数以上が死亡している必要があります。 死亡例が半数未満の時は無理に生命表解析を適用するよりも、最終観察時点における死亡の有無を目的変数にしてロジスティック回帰分析を適用した方が正確な結果が得られます。 (→第10章 ロジスティック回帰分析)


(注1) 表11.2.1を一般化すると、k番目の2×2分割表を次のように表すことができます。

表11.2.4 k番目の2×2分割表
生存(脱落)死亡
A1sk1(wk1)dk1nk1
A2sk2(wk2)dk2nk2
sk.(wk.)dk.Nk

k = 1,…,bとして、これらb個の分割表にマンテル・ヘンツェルの共通性の検定を適用すると次のようになります。 (→4.4 繰り返しのある多標本・多時期の計数値 (注2))

この式から連続修正をはずし、平方する前の分子を変形すると次のようになります。 この値を分母で割った値がコックスのβの推定値になり、分母の平方根の逆数がその標準誤差になります。 コックスのβは対数瞬間死亡率の差に相当し、この値を指数変換したものが瞬間死亡率の比つまりハザード比になります。 このハザード比はマンテル・ヘンツェルの調整リスク比とは少し異なる値になります。

分子:
分母:
コックスのβの推定値:
bの標準誤差:
推定:βの100α%信頼区間:βLU = b ± t(∞,α)SE(b) → 下限:βL = b - t(∞,α)SE(b)  上限:βU = b + t(∞,α)SE(b)
ハザード比(A2群/A1群):HR = exp(b)
ハザード比の100α%信頼区間  下限:HRL = exp(βL)  上限:HRU = exp(βU)

検定: > χ2(1,α)の時、有意水準100α%で有意

形式的には、コックスのβが0かどうかを検定する手法をコックス・マンテルの検定と呼んでいます。 ただし実際の計算では連続修正を施し、コックス・マンテルの検定と同じ式を用いて検定します。 そしてこの手法を多変量に拡張した手法が第4節で説明するコックスの比例ハザードモデルによる重回帰型生命表解析です。

表11.2.1のデータについて実際に計算してみましょう。



  
検定:
推定:βの95%信頼区間:βLU = 1.308 ± 1.960×0.607 = 1.308 ± 1.190 → 下限:βL = 0.118 上限:βU = 2.497
ハザード比(B群/A群):HR = exp(1.308) = 3.697
ハザード比の95%信頼区間  下限:HRL = exp(0.118) = 1.125  上限:HRU = exp(2.497) = 12.151

上記のように検定結果は有意水準5%で有意ではないにもかかわらず、ハザード比の95%信頼区間に1が含まれておらず、両者の結果が少し矛盾しています。 これは検定の計算では連続修正を施しているのに対して、信頼区間の計算では連続修正を施していないので結果が微妙に異なるからです。 ただし連続修正の有無にかかわらず、一般に検定結果と推定結果は一致するとは限りません。 (→1.5 有意性検定の考え方 (注1))

(注2) 表11.2.4に一般化拡張マンテル検定の共通性の検定を適用すると次のようになります。 (→4.4 繰り返しのある多標本・多時期の計数値 (注2))


     

この式はコックス・マンテル検定の連続修正をしない式の分子にNkの重みを付け、分母にNk2の重みを付けたものに相当します。 そのためコックス・マンテル検定に比べて観測例数が多い前半に重みをかけた結果になります。 もし全ての分割表の例数Nkが等しいと両者の式は一致します。 しかしNkはその時点の観測例数であり、普通は全て異なるので両者は一致しません。


ただしWk = Nk
Wk = 定数の時:

表11.2.1のデータについて実際に計算してみましょう。

分子:
分母:

(注3) ログランク検定はコックス・マンテルの検定と同じように実際の死亡数と予測死亡数の差を利用して検定します。 しかし差を標準化した値が正規分布することを利用して検定するのではなく、差の平方を予測死亡数で割った値が近似的にχ2分布することを利用して検定します。 そのため瞬間死亡率の差ではなく瞬間死亡率の一様性を検定することになり、m×nのχ2検定と同じように3群以上の場合でも検定することができます。

表11.2.4を多群に拡張すると次のようになります。

表11.2.5 k番目のa×2分割表
生存(脱落)死亡 計 
A1sk1(wk1)dk1nk1
::::
Aiski(wki)dkinki
::::
Aaska(wka)dkanka
sk.(wk.)dk.Nk

もし全ての群の瞬間死亡率が等しいとすると、コックス・マンテルの検定と同様に群iの予測死亡数は次のようになります。

実際の死亡数と予測死亡数を群ごとに合計した値は、それぞれ次のようになります。

  

実際の死亡数と予測死亡数の差の平方を予測死亡数で割った値を全群について合計すると、次のようになります。

… 近似的に自由度(a-1)のχ2分布に従う
χLR2 > χ2(a-1,α)の時、有意水準100α%で有意

表11.2.1のデータについて実際に計算してみましょう。

d.1 = 5  d.2 = 8


ログランク検定において群が2つの時、群1と群2の実際の死亡数と予測死亡数の差は絶対値が同じで符号が反対になります。 そして最終観察期間が両群とも同じ時は両群の予測死亡数も同じになります。 そのためログランク検定のχLR2は次のようになります。

一方、コックス・マンテル検定において、最終観察期間が両群とも同じで2群の例数が等しくて死亡数dk.が少ない時、sk./Nk≒1、nk2/Nk=1/2より、次のように連続修正をはずした式がログランク検定の式に近似します。

表11.2.5に一般化拡張マンテル検定を適用すると次のようになります。 (→4.4 繰り返しのある多標本・多時期の計数値 (注2))

χgMm2 = [-]'-1[-]
     





(i≠i')
ここで重みwiiとwii'を次のように近似すると
  wii' = 0

以上のことから、ログランク検定は一般化拡張マンテル検定の近似法に相当することがわかると思います。

(注4) 一般化ウィルコクソンの2標本検定では、ある症例の観測期間と他の症例の観測期間を比べることによって次のようなスコアを付けます。

uij =┌ -1…ti < tjまたはti ≦ tj*(負け)
├ +1…ti > tjまたはti* ≧ tj(勝ち)
└ 0…ti = tj または ti* < tj または ti > tj* または ti* と tj* (引き分けまたは判定不能)
ti,tj:死亡例の観測期間 (i,j = 1,…,N0、i ≠ j)   ti*,tj*:脱落例の観測期間   N0:観測開始時の全対象数(2群合計)

そしてある症例を他の(N0 - 1)個の症例と比べた時のスコアの合計を求めると、それがその症例の一般化された順位になります。

ri = (ti または ti* が勝ちの例数 − 負けの例数) = (i ≠ j)

2つの群をA1、A2とし、A1群についてこの一般化された順位の和を計算した値をW統計量といいます。 もしこの値が0なら、2群の生存期間の順位和は同じになるはずです。 そこでW統計量とその分散を用いて生存期間の順位和検定を行うことができます。

n01:A1群の観測開始時の対象数   n02:A2群の観測開始時の対象数   N0 = n01 + n02
… A1群についてだけ合計する
  
  |zo| > 2の時は連続修正を省く:
※sgn(W)は次のような符号関数
 W < 0の時:sgn(W) = -1 W = 0の時:sgn(W) = 0 W > 0の時:sgn(W) = 1
検定:|zo| > t(∞,α)の時、有意水準100α%で有意
推定:Wの100α%信頼区間:WLU = W ± t(∞,α)SE(W) → 下限:WL = W - t(∞,α)SE(W) 上限:WU = W + t(∞,α)SE(W)

脱落例と同位がない時、一般化された順位の最小値は-(N0 - 1)に、最大値は(N0 - 1)に、中央値は0になります。 これはスケールを普通の順位の2倍にし、中央を0にシフトしたものになるので、W統計量は普通の順位和検定の統計量(順位和 − 順位和の期待値)の2倍の値になります。 そのため上記の検定の式の分子と分母を2で割った値は、普通のウィルコクソンの2標本検定の式と一致します。 そして順位和とU値の関係に基づいてW統計量からU値を求め、その信頼区間を求めることができます。 (→3.4 2標本の計数値 (注3))



Uの100α%信頼区間:上式を用いてWLとWUをULとUUに変換する
Uの割合=勝率:

表11.2.4を利用すると、次のようにしてW統計量とその分散を計算することができます。

死亡例の順位:
脱落例の順位:

表11.2.1のデータについて実際に計算してみましょう。

W = (2) + (2-18) + (4-16) + (6-13) + (8) + (10-7) + (11-6) + (12) + (13) + (13-2) + (14) + (14) = 47
Σri2 = (-21)2 + (2) + (1-20)2 + (2-18)2 + (3-17)2 + (4-16)2 + (5-15)2 + 2×(6-13)2 + (8)2 + (8)2 + (8-10)2 + (9)2 + (9-8)2 + (10-7)2 + (11-6)2 + (12)2 + (13)2 + (12-4)2 + (13-2)2 + (14)2 + (14)2 = 2738

Wの95%信頼区間 下限:WL = 47 - 1.96×26.67 ≒ -5.3  上限:WU = 47 + 1.96×26.67 ≒ 99.3

(注5) 一般化拡張マンテル検定と同じ形式の式に、適当な重みWkを用いて次のような検定統計量を考えます。

χ2 = [ - ]'-1[ - ]
      (i ≠ i')
・群の数a = 2の時

歴史的には、この形式の検定統計量を用いた検定手法のことをログランク検定と呼んでいたようです。 重みWkについては色々なものが提案されていて、例えば次のようなものがあります。

  1. Wk=1:コックス・マンテル検定
  2. Wk=Nk:一般化拡張マンテル検定、一般化ウィルコクソン検定=ゲーハン・ブレスロー(Gehan-Breslow)検定
  3. :タローン・ウェア(Tarone-Ware)検定
  4. :ペト・プレンティス(Peto-Peto-Prentice)検定

1番は一様な重みであり、2番は例数が多い前半に重みをかけ、3番は1番と2番の折衷案的な重みです。 その結果、2番つまり一般化拡張マンテル検定と一般化ウィルコクソン検定は前半の瞬間死亡率の差を重視するのに対して、1番つまりコックス・マンテル検定は前半と後半を同じように扱い、3番つまりタローン・ウェア検定は前半をやや重視することになります。 また4番つまりペト・プレンティス検定は打ち切り例が多い時にも安定した結果になるといわれています。

ただしこれらの重みは評価指標に付随するいわば副作用のようなものです。 一般化拡張マンテル検定と一般化ウィルコクソン検定は生存時間の順位平均値がばらついているかどうかの検定であり、生存時間の順位平均値が評価指標になります。 順位平均値に対する各データの影響は同じですから、例数が少ない後半よりも例数が多い前半の方が順位平均値に与える影響は大きくなります。 その結果、一般化拡張マンテル検定と一般化ウィルコクソン検定は例数が多い前半に重みをかけることになるわけです。

またコックス・マンテル検定は平均的な瞬間死亡率がばらついているかどうかの検定であり、平均的な瞬間死亡率が評価指標になります。 平均的な瞬間死亡率は死亡例が発生した時点の瞬間死亡率を平均したような値であり、どの時点の瞬間死亡率も同じように扱います。 その結果、コックス・マンテル検定は前半と後半を同じように扱うことになるわけです。

それに対してタローン・ウェア検定とペト・プレンティス検定の評価指標は複雑であり、簡単に解釈できません。 そのためこれらの検定手法は少々技巧的すぎて、あまり実用的ではありません。 検定は評価指標が数学的に信頼できるかどうかを検討するためのものですから、「科学的にどの評価指標が最も意義があるか?」を検討して手法を選択すべきです。

これらの検定手法は個別の名称で呼ばれることもありますが、ひっくるめて「ログランク検定」と呼ばれたり、「コックス・マンテル検定」あるいは「一般化ウィルコクソン検定」または「一般化クリスカル・ウォーリス検定」と呼ばれることもあり、全くもってややこしい限りです。