前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 |
今まで説明したデータは目的変数が「0:反応無、1:反応有」という2分類のものでした。 しかし表10.5.1のように目的変数が3分類以上のグレードデータつまり順序分類尺度のデータという時もあります。 このようなデータはグレードデータをそのまま計量尺度として扱い、重回帰分析を適用するのが普通です。 しかしグレードデータにロジスティックモデルを当てはめ、ロジスティック回帰分析を適用することもできます。
No. | 重症度 1:軽症 2:中等症 3:重症 | 説明変数 | ||
---|---|---|---|---|
x1 | x2 | x3 | ||
1 | 1 | 0 | 1 | 21 |
2 | 1 | 0 | 1 | 30 |
3 | 1 | 0 | 1 | 37 |
4 | 1 | 0 | 2 | 46 |
5 | 1 | 1 | 1 | 24 |
6 | 1 | 1 | 1 | 56 |
7 | 1 | 1 | 1 | 58 |
8 | 1 | 1 | 2 | 24 |
9 | 1 | 1 | 2 | 38 |
10 | 1 | 1 | 2 | 58 |
11 | 1 | 1 | 3 | 26 |
12 | 1 | 1 | 3 | 41 |
13 | 2 | 0 | 1 | 23 |
14 | 2 | 0 | 1 | 43 |
15 | 2 | 0 | 1 | 47 |
16 | 2 | 0 | 2 | 35 |
17 | 2 | 0 | 2 | 41 |
18 | 2 | 0 | 2 | 45 |
19 | 2 | 0 | 2 | 53 |
20 | 2 | 0 | 3 | 40 |
21 | 2 | 1 | 1 | 22 |
22 | 2 | 1 | 1 | 39 |
23 | 2 | 1 | 1 | 52 |
24 | 2 | 1 | 2 | 23 |
25 | 2 | 1 | 2 | 28 |
26 | 2 | 1 | 2 | 32 |
27 | 2 | 1 | 2 | 43 |
28 | 2 | 1 | 3 | 24 |
29 | 2 | 1 | 3 | 27 |
30 | 2 | 1 | 3 | 42 |
31 | 3 | 0 | 1 | 20 |
32 | 3 | 0 | 1 | 44 |
33 | 3 | 0 | 2 | 35 |
34 | 3 | 0 | 2 | 37 |
35 | 3 | 0 | 3 | 41 |
36 | 3 | 0 | 3 | 55 |
37 | 3 | 0 | 3 | 51 |
38 | 3 | 0 | 3 | 36 |
39 | 3 | 1 | 1 | 34 |
40 | 3 | 1 | 2 | 42 |
41 | 3 | 1 | 2 | 51 |
42 | 3 | 1 | 3 | 21 |
43 | 3 | 1 | 3 | 35 |
44 | 3 | 1 | 3 | 36 |
この場合、まずグレード1を反応なしと考え、グレード2と3を反応ありと考えて、1番目のロジスティックモデルを当てはめます。
次にグレード1と2を反応なしと考え、グレード3を反応ありと考えて、2番目のロジスティックモデルを当てはめます。 この時、偏回帰係数βjはモデル1と同じ値であり、切片β20と誤差ε2だけが異なるという仮定をします。
モデル1とモデル2の偏回帰係数が同じということは、2つのモデルのロジット(対数オッズ)の違いは切片β10とβ20の差に影響されるだけで、説明変数には影響されないということです。 その結果、2つのモデルのオッズの間には比例関係があり、その比例定数はβ10とβ20の差を指数変換した値になります。 そのためこのようなモデルのことを比例オッズモデル(POM:proportional odds model)または累積ロジスティックモデル(cumulative logistic model)といいます。 累積ロジスティックモデルのロジスティック曲線は、図10.5.1と図10.5.2のように2つのモデルのロジスティック曲線の立ち上がりの位置が異なるだけで傾きは同じです。 (注1)
このように目的変数が3分類以上の順序分類尺度のデータの時に、(分類数 - 1)個の累積ロジスティックモデルを当てはめ、それらが同時に成り立つようなロジスティック回帰式を求める手法を順序ロジスティック回帰分析(ordinal logistic regression analysis)といいます。 また目的変数が3分類以上の分類尺度のデータの時についてもロジスティック回帰式を求める手法が開発されていて、それを多項ロジスティック回帰分析(multinomial logistic regression analysis)といいます。
多項ロジスティック回帰分析に対して、目的変数が2分類の時の普通のロジスティック回帰分析を二項ロジスティック回帰分析(binomial logistic regression analysis)と呼ぶことがあります。 そして二項ロジスティック回帰分析を後ろ向き研究用にすると(線形)判別分析に対応するのと同様に、多項ロジスティック回帰分析を後ろ向き研究用にすると特殊な重判別分析に対応します。 (→第18章 重判別分析)
目的変数が、例えば「心疾患非発症・心疾患による入院・心疾患による死亡」のように3分類あったとします。 このような場合、入院と死亡をまとめて「反応有」として扱い、二項ロジスティック回帰分析を強引に適用することがあります。 しかし医学的には入院よりも死亡の方が重篤な反応ですから、これらを順序分類尺度扱いして順序ロジスティック回帰分析を適用する方が合理的です。 また入院と死亡に優越を付けず、これらを順序が付けられない分類扱いして多項ロジスティック回帰分析を適用することもできます。
順序ロジスティック回帰分析は最尤法を利用した繰り返し計算によって解を求めるのが普通です。 表10.5.1のデータに順序ロジスティック回帰分析を適用すると次のようになります。 (注2)
表10.5.1のデータはグレードが3つあるので、切片だけが異なる2つのロジスティック回帰式とロジスティック曲線が求められます。 これらのロジスティック回帰式とロジスティック曲線から、ある説明変数の値を持つ個体の目的変数がどのグレードになる確率が高いか調べる方法を考えてみましょう。 例えば表10.5.1の13番目の個体について、各説明変数の値を2つのロジスティック回帰式に代入してロジットと出現率を求めると次のようになります。
モデル1はグレード1だけが反応なしで、グレード2と3は反応ありとしたモデルです。 そのためこのモデルの出現率p1はこの個体がグレード2または3になる確率になります。 したがってこの個体がグレード1になる確率は1からp1を引いた値になります。
モデル2はグレード1と2が反応なしで、グレード3が反応ありとしたモデルです。 そのためこのモデルの出現率p2はこの個体がグレード3になる確率になります。 したがってこの個体がグレード2になる確率は、この個体がグレード2または3になる確率であるp1からp2を引いた値になります。
これら3つの確率値から、この個体はグレード2になる確率が一番高いと予測できます。 そしてこの個体のグレードは2ですから、確率値による予測が当たっていることがわかります。 2つのモデルと3つの確率値の関係を模式図にすると図10.5.3のようになります。
しかしこのような確率値によるグレードの予測は非常に面倒でわかりにくく、あまり良い方法とはいえません。 そのため順序ロジスティック回帰分析は説明変数の値に基づいて反応率を予測したり、目的変数の値を予測するための手法というよりも、説明変数が目的変数に対してどの程度の影響を与えているかを分析するための手法といえるでしょう。 実際、通常の二項ロジスティック回帰分析も順序ロジスティック回帰分析も、ほとんどの場合はリスクファクターの重要度を分析するために利用されます。
比例オッズモデルは2つのモデルのオッズの間に比例関係があり、その比例定数は説明変数には影響されないという前提で組み立てられたモデルです。 この前提が成り立つ可能性はかなり低く、現実問題として目的変数のグレードデータをそのまま計量値扱いできるという可能性とあまり変わりません。 このように順序ロジスティック回帰分析は、やたらと複雑な計算をするわりには得られる結果の信頼性が低く、しかも結果の使い勝手も良くありません。 そのためこのようなデータは、グレードデータをそのまま計量値扱いして重回帰分析を適用する方が簡単でしかも便利です。
参考までに、表10.5.1のデータに重回帰分析を適用すると次のようになります。
目的変数の単位が異なるので、偏回帰係数の値そのものは順序ロジスティック回帰分析の結果と異なります。 しかし順序ロジスティック回帰分析の検定統計量χ2値と、この場合の検定統計量F値を比較すると、説明変数の相対的な重要性はよく似ていることがわかります。 そして目的変数の予測値はほぼ2であり、実際の目的変数の値とよく近似しています。 また重回帰分析では重回帰式の適合性を表す重寄与率を求めることができます。
これらのことから、このようなデータには順序ロジスティック回帰分析よりも重回帰分析を適用した方が良いことがわかると思います。
この累積オッズを用いたモデルのことを累積オッズモデル(cumulative odds model)といい、このモデルにロジスティック回帰モデルを適用し、対数累積オッズと説明変数の間に線形関係が成り立つと仮定したモデルのことを累積ロジスティックモデルといいます。 そして累積ロジスティックモデルにおいて、(a - 1)個のモデルの切片だけが異なり、偏回帰係数は共通と仮定したものが比例オッズモデルです。
比例オッズモデルが成り立つ可能性はかなり低いものの、このモデルは計算が比較的簡単で結果の解釈も容易です。 そのため累積ロジスティックモデルといえば、普通はこの比例オッズモデルを意味します。 そこでここでは累積ロジスティックモデルと比例オッズモデルという用語を厳密には区別せずに使うことにします。
a個の分類が順序尺度ではなく名義尺度の時は、k番目の分類に属す確率と1番目の分類に属す確率の比(πk/π1)をオッズとして扱います。 そしてこのオッズにロジスティック回帰モデルを適用したものを多項ロジスティックモデル(multinomial logistic model)といい、次のような式で表されます。
このモデルは比例オッズモデルに比べると成り立つ可能性は高いものの、計算が煩雑になる上に結果の解釈が複雑になります。 そのため利用頻度は累積ロジスティックモデルよりもさらに低くなります。
目的変数y:順序分類尺度 | 説明変数 | ||||
---|---|---|---|---|---|
x1 | … | xj | … | xp | |
1 | x11 | … | x1j | … | x1p |
: | : | : | : | ||
1 | xn11 | … | xn1j | … | xn1p |
: | : | … | : | … | : |
k | x(∑n+1)1 | … | x(∑n+1)j | … | x(∑n+1)p |
: | : | : | : | ||
k | x(∑n+nk)1 | … | x(∑n+nk)j | … | x(∑n+nk)p |
: | : | … | : | … | : |
a | x(∑n+1)1 | … | x(∑n+1)j | … | x(∑n+1)p |
: | : | : | : | ||
a | xn1 | … | xnj | … | xnp |
最尤法によって切片β0と偏回帰係数βの最尤推定値b0とbを求めるには次のような計算をします。
これらの値を用いて、ニュートン・ラプソン法によって切片と偏回帰係数の最尤推定値を求めます。 そして最尤推定値の漸近的正規性を利用して、切片と偏回帰係数についてワルドの検定と推定を行うことができます。
切片と偏回帰係数の初期値は、普通のロジスティック回帰分析と同様に判別分析で求めた切片と判別係数を利用します。 その場合、最初の分類を群2とし、2番目以後の分類を群1として判別分析を行います。 これは累積ロジスティックモデルの1番目のモデルに判別分析を適用したものになります。 (→10.1 ロジスティック回帰分析の原理)
また順序ロジスティック回帰分析の切片は複数あり、2番目以後の切片は次第に小さくなります。 そこで判別分析の切片を利用して最初の切片初期値を求め、以後の切片初期値は前の値から定数——例えば1——を引いた値にします。 判別分析の切片と判別係数をa0とajとすると、順序ロジスティック回帰分析の切片と偏回帰係数の初期値は次のようになります。
表10.5.1の例題について実際に計算してみましょう。
これらの値を利用してニュートン・ラプソン法を行うと、5回目で繰り返し計算が収束します。
この累積ロジスティックモデルはk番目までの分類を反応なし、(k + 1)番目以後の分類を反応ありとしたものです。 このモデルとは反対にk番目までの分類を反応あり、(k + 1)番目以後の分類を反応なしとしたモデルもあります。 その場合の累積ロジスティックモデルは次のようになります。 このモデルに基づいた順序ロジスティック回帰式は、切片の符号が反対になるだけで偏回帰係数は変わりません。
また分類の順序を逆転して数字が小さいほどグレードが高い、つまり大きな順位になるとしたモデルもあります。 有名な統計ソフトSASはそのようなモデルを採用しています。 そのモデルに基づいた順序ロジスティック回帰式は切片と偏回帰係数の符号が反対になります。