玄関雑学の部屋雑学コーナー統計学入門

第11章 生命表解析

この章では生命表解析の原理と結果の解釈方法、多変量生命表解析、比例ハザードモデルと変数選択法、そしてパラメトリック生命表解析について解説します。

11.1 生存率の計算方法

(1) 生存率と生命表解析

医学分野では、腫瘍の手術のように、ある治療を行うことによって患者がどの程度延命するか、つまり患者の生存率をどの程度上げることができるかによって治療の効果を判定することがよくあります。 そもそも治療行為の最終的な目的は病気を治すことによって患者が健康で長生きできるようにする、つまり健康寿命を伸ばすことです。 そのため生存率は治療の究極的な評価項目ということになります。 臨床試験では治療の評価項目または評価変数のことをエンドポイント(end point)といいます。 これは生存率が究極の評価項目であり、患者の生死を観察することによって治療の評価を行うことに由来します。

しかしたいていの疾患は死亡までの期間が長く、生存率を評価項目にして臨床試験を行うことは困難です。 そこでそのような疾患では生存率と深い関係があることが解明されていて、治療効果を短期間で評価することのできる臨床検査値——例えば血圧や血中脂質値等——を暫定的な評価項目にします。 このような暫定的な評価項目のことを代用エンドポイント(surrogate end point)といいます。 それに対して生存率のような究極の評価項目のことを真のエンドポイント(true end point)といいます。

この究極の評価項目である生存率を解析するための統計手法のことを生命表解析(life table analysis)または生存時間解析(survival time analysis)といいます。 生命表解析は人口統計学の分野で古くから使われてきた手法であり、現在でも生命保険会社によって盛んに利用されています。 医学分野では主として腫瘍研究の分野で利用されていて、生存時間解析という名前で呼ばれることが多いようです。

生命表解析では手術や投薬開始という明確な出発点から個体の追跡を開始し、死亡や疾患の再発といった非可逆的なイベント(event)が発現するまで観察を続けます。 ただし途中で個体が偶発的な出来事で研究から脱落(drop out)したり、研究期間が終了して打ち切り(censoring、termination of the study)になることもあります。

原則としてイベントは非可逆的な反応でなければなりません。 しかし医学研究では再手術、治療法の切り替え、効果や副作用の発現といった緩い意味での非可逆的な反応をイベントにすることもよくあります。 また最初から脱落が発生することを想定しているので、脱落例が発生する可能性が高い臨床試験、例えば治癒率が非常に高い疾患の臨床試験などにも適しています。 これらのことから、生命表解析は医学分野で広く応用することが可能な手法といえるでしょう。

またこの手法ではイベントが発現するまで観察を続け、その発現率を問題にするので、原則として前向き研究で得られたデータに適用します。 ところが実際の医学研究では、後ろ向き研究で得られたデータにこの手法を間違って適用することがしばしばあります。 これは医学研究では後ろ向き研究が多用されることに起因しているようです。 生命表解析を適用する時はこのあたりのことに十分注意する必要があります。

今、22例の腫瘍患者について12例にはA法という手術を施し、10例にはB法という手術を施して予後を観察した結果が表11.1.1のようになったとします。

表11.1.1 腫瘍患者の術後生存期間
症例番号手術法観察期間(月)転帰
1A4脱落
2A5死亡
3A8死亡
4A13死亡
5A16打ち切り
6A27死亡
7A28死亡
8A32打ち切り
9A35打ち切り
10A36死亡
11A50打ち切り
12A56打ち切り
13B2死亡
14B4死亡
15B6死亡
16B12死亡
17B13死亡
18B15打ち切り
19B18死亡
20B20脱落
21B25死亡
22B35死亡

転帰項目の「脱落」は研究期間が終了する前に偶発的な出来事で研究から脱落した症例であり、「打ち切り」は研究期間が終了したので生存中であるにもかかわらず観察を打ち切った症例です。 生命表解析ではこれらの症例はどちらも同じように扱います。

(2) 古典的な生命表

人口統計学の分野では対象となる個体数が膨大なので、表11.1.1のように個々の個体を正確に観察することは困難です。 そこで観察期間をある期間で区切り、その期間内に発生した死亡数と脱落または打ち切り数を観察して表11.1.2のような生命表(life table)にまとめます。 この生命表の中の累積生存率とその標準誤差の推移を折れ線グラフで描いたものが図11.1.1の累積生存率曲線です。 なお表11.1.2では脱落と打ち切りを区別せずに「脱落数」として集計しています。

表11.1.2 腫瘍患者の古典的な生命表
観察期間期間当初生存数期間中死亡数脱落数有効生存数生存率累積生存率累積生存率の標準誤差
A12122111.50.8260.8260.112
249118.50.8820.7290.134
3673260.50.3640.163
48200210.3640.163
60202110.3640.163
B121040100.60.60.155
2462250.60.360.161
362202000
図11.1.1 古典的累積生存率曲線

基本的に、ある期間の死亡率は期間中の死亡数を期間当初の生存数つまり対象数で割った値です。 例えば0〜12ヶ月におけるA群の死亡数は2例であり、期間当初の生存数は12例ですから、死亡率は2/12≒0.167になります。 ところがこの期間中に脱落例が1例あり、その症例を対象数から除外する必要があります。 そこで平均的に期間の中央で脱落が生じたと考えて脱落例の半分の例数を対象数から除外し、それを有効生存数(有効観察例数)とします。 その有効生存数を用いて死亡率と生存率を計算すると次のようになります。

○0〜12ヶ月におけるA群の
有効生存数 = 12 - 1 2 = 11.5
死亡率 = 死亡数 有効生存数 = 2 11.5 ≒ 0.174
生存率 = 1 - 死亡率 = 1 - 0.174 = 0.826

同様に、次の期間である12〜24ヶ月におけるA群の死亡率と生存率は次のようになります。

○12〜24ヶ月におけるA群の
有効生存数 = 9 - 1 2 = 8.5
死亡率 = 1 8.5 ≒ 0.118
生存率 = 1 - 0.118 = 0.882

ここでA群における24ヶ月後の生存率の計算方法を考えてみましょう。 24ヶ月後の生存者は0〜12ヶ月間を生存し、さらに12〜24ヶ月間も生存した例です。 そのため、ある個体が24ヵ月後に生存する確率は0〜12ヶ月の生存確率である0.826と、12〜24ヶ月の生存確率である0.882を掛けた値になります。 この掛け合わせた生存率のことを累積生存率(cumulative survival rate)または生命表生存率(life table survival rate)といいます。

24ヶ月後のA群の累積生存率 = 0.826×0.882 ≒ 0.729

もし脱落例が無ければ、24ヵ月後の累積生存率は単に24ヵ月後の生存数を開始時の対象例数で割った値になります。 しかし臨床試験などでは脱落例が生じるのが普通なので、表11.1.1のような生命表を作成して累積生存率を計算する必要があります。 これが古典的な生存率の計算方法であり、カトラー・エデラー(Cutler-Ederer)法または生命保険数理法(acturial method、狭義の生命表法)と呼ばれています。 (注1)

(3) 正確な生命表

医学分野では対象になる個体数が比較的少ないため、表11.1.1のデータをそのまま用いて生命表を作成して正確な生存率を計算することができます。 その正確な生命表が表11.1.3であり、その中の累積生存率の推移を折れ線グラフで描いたものが図11.1.2の累積生存率曲線です。

表11.1.3 腫瘍患者の正確な生命表
症例番号生存期間(転帰)生存数/観察数累積生存率累積生存率の標準誤差
A14(+)(12/12)10
25 10/110.9090.087
38 9/100.8180.116
413 8/90.7270.134
516 +(8/8)0.7270.134
627 6/70.6230.15
728 5/60.5190.157
832 +(5/5)0.5190.157
935 +(4/4)0.5190.157
1036 2/30.3460.176
1150 +(2/2)0.3460.176
1256 +(1/1)0.3460.176
B132 9/100.90.095
144 8/90.80.126
156 7/80.70.145
1612 6/70.60.155
1713 5/60.50.158
1815 +(5/5)0.50.158
1918 3/40.3750.161
2020(+)(3/3)0.3750.161
2125 1/20.1880.155
2235 0/100
図11.1.2 正確な累積生存率曲線

表11.1.3の生存期間項目の(転帰)には脱落を「(+)」、打ち切りを「+」で表記し、死亡は何も表記してありません。 ただし脱落と打ち切りの生存率計算上の取り扱いは同じですから、これらは単に表記上の区別にすぎません。

正確な生命表では死亡または脱落または打ち切りが発生するたびに、その瞬間——実際には単位時間当たり、この場合は1ヶ月当たり——の死亡率と生存率そして累積生存率を計算します。 例えばA群では4ヵ月後に症例番号1番の症例が脱落しています。 この症例は4ヵ月後までは生存していたので、この時点の瞬間死亡率は0で、瞬間生存率は12/12=1になり、累積生存率も1になります。 表11.1.3で1番の症例の「生存数/観察数」が括弧付きで(12/12)と表記されているのは、脱落の場合は生存数と観測数が同じになるので瞬間生存率が1になり、累積生存率が変わらないからです。

次に5ヵ月後に症例番号2番の症例が死亡しているので、この時点の瞬間死亡率と瞬間生存率そして累積生存率は次のようになります。

○5ヶ月後におけるA群の
瞬間死亡率 = 死亡数 観察数 = 1 11 ≒ 0.091
瞬間生存率 = 生存数 観察数 = 10 11 ≒ 0.909
累積生存率 = 1×0.909 = 0.909

同様に、その次は8ヵ月後に症例番号3番の症例が死亡しています。

○8ヶ月後におけるA群の
瞬間死亡率 = 1 10 = 0.1
瞬間生存率 = 9 10 = 0.9
累積生存率 = 0.909×0.9 = 0.818

この計算法では死亡例が発生した時点で累積生存率がカタンと落ちるので、累積生存率曲線は図11.1.2のように階段状の折れ線グラフになります。 そして脱落または打ち切りの有無と時期がわかるように、それらが発生した時点に短い縦棒をプロットしてあります。 もし脱落例が無ければ、古典的な生命表と同様に、ある時点の累積生存率は単にその時点の生存数を開始時の対象例数で割った値になります。 これが正確な生存率の計算方法であり、カプラン・マイヤー(Kaplan-Meier)法と呼ばれています。 (注2)


(注1) カトラー・エデラー法による生存率の計算法を模式的に表すと次のようになります。

図11.1.3 カトラー・エデラー法の模式図
s1:観測開始時点t0直後での最初の観察対象数   si:時点ti-1直後での観察対象数
si+1 = si - di - wi:時点ti直後での観察対象数   di:ti-1からtiの期間での死亡数   wi:ti-1からtiの期間での脱落数

観察期間は等間隔にするのが普通ですが、等間隔にしなければならないというわけではありません。 ある左開右閉区間(ti-1,ti]についての死亡率、生存率、累積生存率、そして累積生存率の標準誤差は次のようになります。

有効生存数:   死亡率:   生存率:   
累積生存率:   P0 = 1 ≧ P1 ≧ … ≧ Pi
  


※共分散C(pk,pk') = 0 のため
グリーンウッド(Greenwood)の近似式

表11.1.2のA群について実際に計算すると次のようになります。

○t1:12ヵ月後
     
○t2:24ヵ月後
     P2 = 0.826×0.882 ≒ 0.729

○t3:36ヵ月後
     P3 = 0.826×0.882×0.5 ≒ 0.364

48ヵ月後と60ヵ月後は死亡例がないので累積生存率とその標準誤差は変化しません。

(注2) カプラン・マイヤー法による生存率の計算法は次のようになります。

○i番目の症例が死亡または脱落した時の瞬間生存率
死亡例の場合:   脱落例の場合:
n:観測開始時点直後での最初の観察対象数   si:i番目の症例が死亡または脱落する直前の観察対象数
累積生存率: … 死亡例だけ掛け合わせる
… 死亡例だけ足し合わせる

表11.1.3のB群について実際に計算すると次のようになります。

  
  
  
  
  
  
  

最後の症例は35ヵ月後に死亡しているので、35ヵ月以後の累積生存率は0になります。

この方法で累積生存率を計算した時、累積生存率が0.5になる時点つまり50%生存時間(MST:Median Survival Time)と、その95%信頼区間を求める方法が考案されています。 累積生存率がπになる時点tを挟む前後の観察時期をu、vとすると、100π%生存時間とその100(1-α)%信頼区間を次のようにして求めることができます。 (Brookmeyer and Crowley, 1982)

100π%生存時間:
100α%信頼区間:Piの100α%信頼区間を Pi ± t(∞,α)SE(Pi) とすると
下限 τL:時点t以前で π ≦ Pi - t(∞,α)SE(Pi) となる最初の時点 (脱落例発生時点を除く)
上限 τU:時点t以後で π ≧ Pi + t(∞,α)SE(Pi) となる最初の時点

この方法は図11.1.2の累積生存率曲線の上下に100α%信頼区間つまりt(∞,α)×SEを描き、その下限がπ以上になる直近の時点を下限にし、その上限がπ以下になる直近の時点を上限にするという方法に相当します。 これ以外にも色々な区間推定法が考案されていますが、この方法は計算が比較的簡単なのでよく用いられます。

この式にπ = 0.5、α = 0.05を代入すれば、MSTとその95%信頼区間を求めることができます。 表11.1.3のA群について50%生存時間とその95%信頼区間を計算すると次のようになります。

u = 35  v = 36  
時点 2 = 5ヶ月:0.909 - 1.960×0.087 ≒ 0.744 > 0.5
時点 3 = 8ヶ月:0.818 - 1.960×0.116 ≒ 0.597 > 0.5
時点 4 =13ヶ月:0.727 - 1.960×0.134 ≒ 0.472 < 0.5
時点 6 =27ヶ月:0.623 - 1.960×0.15 ≒ 0.338 < 0.5
時点 7 =28ヶ月:0.519 - 1.960×0.157 ≒ 0.221 < 0.5
MST = 35.11ヶ月:0.5
時点10 = 36ヶ月:0.346 + 1.960×0.176 ≒ 0.680 > 0.5

この結果からMSTは約35.11ヶ月であり、これ以前で95%信頼区間の下限が最初に0.5以上になるのは時点3つまり8ヵ月後であることと、MST以後では最後の時点10でも95%信頼区間の上限が0.5より大きいことがわかります。 したがってMSTの95%信頼区間の下限は8ヶ月、上限は56ヶ月以上ということになります。 ちなみにB群のMSTは15ヶ月、その95%信頼区間の下限は4ヶ月、上限は25ヶ月になります。

生命表解析では平均生存時間よりもMSTの方がよく用いられます。 何故なら平均生存時間は全例が死亡していないと計算できないのに対して、MSTは半数以上が死亡していれば求められるからです。