前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 | 6 |
重回帰分析と同様に、比例ハザードモデルによる重回帰型生命表解析にも各種の変数選択法が考えられています。 比例ハザードモデルによる重回帰型生命表解析は目的変数が対数ハザード比になった重回帰分析に相当するので、変数の選択法も次のようにほとんど同じものがあります。 (→7.3 変数の選択)
これらの手法のうち、最も多用されるのは3番の逐次選択法です。 この方法は変数の選択規則によって次のように細分化されます。 なお比例ハザードモデルによる重回帰型生命表解析では、ロジスティック回帰分析と同様に、重寄与率の増減分を反映する統計量を変数選択の指標にします。 そして変数選択用統計量として偏回帰係数の検定に使用するワルドのχ2値を用います。 (→10.4 変数の選択)
変数選択法の中で最も多用されるのは変数増減法なので、この手法について順を追ってもう少し詳しく説明することにしましょう。 (注1)
最初にワルドのχ2値が最大の変数つまり単独で対数ハザード比に最も寄与している変数を探し、それが取り込み基準を満足するなら取り込みます。 仮にそれをx1とすると、この時の状態は図11.5.1のようになります。
取り込み基準は「重寄与率に対する寄与分が回帰誤差の2倍以上あること」すなわち「ワルドのχ2値が2以上」にするのが一般的で、これは次のように表されます。
χin2の値は2と決められているわけではありませんが、一般に2〜2.5ぐらいが適当だといわれています。
次に残りの変数から今取り込んだ変数と共有する情報を取り除き、その上でワルドのχ2値が最大の説明変数を探します。 そしてそれが取り込み基準を満足するなら取り込みます。 その変数をxjとすると、この時の状態は図11.5.2のようになります。
ここで今までに取り込んだ変数の中から単独でワルドのχ2値が最小のもの、つまりその変数を追い出した時に重寄与率の減少が最小になるものを探します。 そしてそれが追い出し基準を満足しているなら追い出し、満足していないのならそのままにします。 これは次のように表されます。
χout2の値はχin2以下ならどんな値でもかまいませんが、普通はχin2と同じ値にします。 もしχout2 > χin2にすると、同じ説明変数が出たり入ったりを繰り返してしまうので注意が必要です。 またχout2 = 0にすると変数増加法になり、χin2 = χout2 = 0にすると全変数を取り込みます。
変数を追い出した後、2番に戻って変数の取り込みを続けます。 そして取り込む変数も追い出す変数もなくなるまで2番と3番の手順を繰り返します。
表11.3.1のデータに変数増減法による重回帰型生命表解析を適用すると、次のように変数を2つとも取り込み第4節の結果と同じになります。 なお取り込み基準χin2と追い出し基準χout2はどちらも2にしました。 (注2)
逐次変数選択法によって得られた比例ハザードモデル式は、できるだけ少ない変数で、できるだけ精度良く生存率を予測するための簡便で実用的な予測式です。 そのため例えば医学の臨床現場で、なるべく少ない検査項目で、なるべく正確に予後を予測したい時などに用いると便利です。
そして選択された変数の組み合わせは単に数字の大きさだけで機械的に選択されたものであり、科学的に最適なものでも、因果関係を考慮したものでもありません。 そのため得られた比例ハザードモデル式について科学的に十分吟味することが大切です。 もしモデル式の内容が科学的に解釈困難なら、特定の変数を強制的に取り込んだり追い出したりして色々なモデル式を計算し、それらをよく検討して最終的な結果を選ぶべきです。 このあたりの注意点も重回帰分析やロジスティック回帰分析と同様です。
最初は全ての変数について変数選択用統計量を計算します。 変数選択用統計量としてはワルドの検定に用いるχ2値を用います。 ただしこの場合のχ2値は、全ての偏回帰係数の初期値を0としてニュートン・ラプソン法を1回計算した時の値を用います。 そして変数選択途中では未選択の変数についてだけ変数選択用統計量を計算します。 その際、選択済みの変数の偏回帰係数の初期値は最尤推定値を用い、未選択の変数の偏回帰係数の初期値は0として計算します。
なお比例ハザードモデルの切片は各変数の平均値と偏回帰係数から計算するので、ニュートン・ラプソン法の計算対象になりません。
ここから変数の選択に入ります。 未選択の変数の中で変数選択用統計量が最大のものを選び、変数選択用統計量が取り込み基準を満足していれば取り込みます。 もし変数選択基準を満足していなければ、これで変数の選択を終了します。
取り込まれたk個の変数を用い、初期値を0としてニュートン・ラプソン法により最尤解を求めます。
k個の変数の中でワルドのχ2値が最小の変数を選び、それが追い出し基準を満足していれば追い出します。
この後、3番に戻って最尤解を求め、変数の追い出しを続けます。 そして追い出す変数がなくなったら、1番に戻って変数の取り込みを続けます。
変数選択は、4番で最後に追い出した変数と1番に戻って取り込んだ変数が同じだった時、または取り込む変数がなかった時、または全ての変数を取り込んだ時に終了します。
変数取り込み基準と変数追い出し基準が同じなら、4番で最後に追い出した変数を1番に戻ってまた取り込むということは有り得ないと思うかもしれません。 ところが変数追い出し時のχ2値は最尤解計算後の値であり、変数取り込み時のχ2値は最尤解計算前の値です。 そのため両者が同じ値になるとは限りません。 その結果、変数追い出し時に追い出した変数を変数取り込み時にまた取り込んでしまうということ起こり得るのです。 そこでそのような時は最尤解計算後のχ2値を信頼し、その変数を追い出して変数選択を終了します。
変数選択基準として、ワルドのχ2値ではなく、ワルドの検定の有意確率p値を用いる方法もあります。
しかし有意確率は変数の影響の強さをそのまま反映するわけではなく、例数が少ない時は大きな値になり、例数が多い時は小さな値になります。 そのため例数が少ない時はいくら影響の強い変数があっても選択されず、例数が多い時は影響の弱い変数まで選択されてしまうので合理的な基準とはいえません。 そしてロジスティック回帰分析における偏回帰係数の検定と同様に、ワルドの検定に実質的な意味はほとんどないため、あまりお勧めの方法ではありません。
変数選択用統計量が最大のものはx2であり、しかも変数取り込み基準を満足しています。 そこでx2を取り込みます。
x2を用い、初期値を0としてニュートン・ラプソン法により最尤解を求めます。
この更新されたb1を用いて同様の計算を繰り返します。 そして4回目でb3とb4の違いが10-5以下になるので、計算を終了してb3を最尤推定値の近似値にします。
最尤解計算後のx2のワルドのχ2値は変数取り込み時のχ2値と少し異なります。 しかしこの値は追い出し基準を満足していないので追い出し変数はありません。
x1について変数選択用統計量を計算します。 その際、b2の初期値は最尤推定値を用い、b1の初期値は0として計算します。
x1の変数選択用統計量は変数取り込み基準を満足しています。 そこでx1を取り込みます。
x1とx2を用い、初期値をどちらも0としてニュートン・ラプソン法により最尤解を求めます。
この更新されたb1を用いて、同様の計算を繰り返します。 そして4回目でb3とb4の違いが10-5以下になるので、計算を終了してb3を最尤推定値の近似値にします。
最尤解計算後のx1とx2のワルドのχ2値は追い出し基準を満足していません。 そのためこれで変数の取り込みを終了します。 この結果は全変数を強制的に取り込んだ時と同じです。
ちなみにχin2 = χout2 = 0にすると、どんな時でも全変数を強制的に取り込みます。 ただし全変数を強制的に取り込むなら、第4節の(注1)で説明したように、初期値として重回帰分析の結果を利用して計算する方が収束が速くて便利です。 (→11.4 比例ハザードモデル (注1))