前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 |
疫学分野では発生件数つまりカウントデータではなく、被験者ごとに疾患の有無を調べたデータにポアソン回帰分析を適用することがあります。 その場合、カウントデータを「0:無 1:有」というダミーデータにし、データの合計例数nを用いてカウントを出現率p = λ/nに変換し、これを目的変数にしてポアソン回帰分析を適用します。 例として第10章の表10.3.1にポアソン回帰分析を適用すると次のようになります。 (注1)
説明変数x | 反応有 | 反応無 | 計 | 出現率p |
---|---|---|---|---|
10 | 2 | 28 | 30 | 0.067 |
20 | 4 | 31 | 35 | 0.114 |
30 | 14 | 33 | 47 | 0.298 |
40 | 13 | 8 | 21 | 0.619 |
50 | 39 | 6 | 45 | 0.867 |
合計 | 72 | 106 | 178 | 0.404 |
また第10章で求めたように、同じ表にロジスティックモデル、プロビットモデル、直線モデルを当てはめると次のようになります。 (→10.3 ロジスティック回帰分析の計算方法)
ポアソン回帰分析の結果とロジスティック回帰分析の結果を比較すると、回帰とズレの検定結果はよく似ているものの、回帰式の切片と回帰係数が少し違っていることがわかります。 そして図15.3.1を見ると出現率が0.2(20%)くらいまでは両者の曲線はあまり乖離しておらず、出現率が0.5より高くなると指数曲線が急激に上昇し、説明変数の値が50くらいで1(100%)を超えてしまうことがわかります。 ポアソン回帰分析は稀に起きる現象が近似的にポアソン分布する性質を利用した分析手法ですから、これは当然のことです。
またロジスティック回帰分析の回帰係数を指数変換するとオッズ比になります。 そしてオッズ比は出現率が低い時(だいたい10%未満)は相対リスクと近似することから、オッズ比を相対リスクと解釈することがあります。 それに対してポアソン回帰分析の回帰係数を指数変換するとリスク比になり、これをそのまま相対リスクと解釈することがあります。 そこで表10.3.1のデータについて説明変数の値が10の時を基準にして、20〜50の相対リスクを実測値、ロジスティック回帰分析の結果、ポアソン回帰分析の結果に基いて計算すると次のようになります。
説明変数 | 実測値 | ロジスティック回帰分析 | ポアソン回帰分析 | ||||
---|---|---|---|---|---|---|---|
出現率 | 相対リスク | 出現率 | オッズ比(定数倍) | 相対リスク | 出現率 | 相対リスク(定数倍) | |
10 | 0.067 | 1 | 0.0407 | 1 | 1 | 0.0801 | 1 |
20 | 0.114 | 1.714 | 0.126 | 3.383 | 3.084 | 0.1473 | 1.839 |
30 | 0.298 | 4.468 | 0.327 | 11.444 | 8.028 | 0.2709 | 3.3836 |
40 | 0.619 | 9.286 | 0.622 | 38.716 | 15.262 | 0.4983 | 6.2239 |
50 | 0.867 | 13 | 0.848 | 130.874 | 20.803 | 0.9166 | 11.448 |
表15.3.1を見ると、ロジスティック回帰分析の結果に基づいた出現率と相対リスクは実測値に基づいたそれらの値とある程度近似していて、オッズ比は定数倍(3.383倍)になっていることがわかります。 ロジスティック回帰分析は「対数オッズと説明変数の間に線形関係がある」つまり「オッズ比が説明変数と正比例する」というモデルに基づいた手法ですから、これは当然です。
それに対してポアソン回帰分析の結果に基づいた出現率と相対リスクも実測値に基づいたそれらの値とある程度近似しているものの、相対リスクが定数倍(1.8390倍)になっているので説明変数の値が60以上になると出現率が1を超えてしまうことがわかります。 ポアソン回帰分析は「対数出現率と説明変数の間に線形関係がある」つまり「リスク比が説明変数と正比例する」というモデルに基づいた手法ですから、これも当然です。
そして第10章で説明したように、個体が反応する時の説明変数の閾値が正規分布すると説明変数−出現率関数は必然的に累積正規分布(シグモイド曲線)になり、オッズ比と説明変数が近似的に正比例します。 この時、説明変数が一定間隔で増加しても相対リスクは一定の倍率で増加しないので、説明変数の値を指定しないと相対リスクは正確には求められません。 もし相対リスクが説明変数と比例すると表15.3.1のポアソン回帰分析の出現率のように出現率がどこかで必ず1を超えてしまうので、これは当然のことです。 (→10.2 各種のシグモイド曲線)
疫学分野などでは、次のような理由で出現率のデータに対してポアソン回帰分析を適用することがあります。
「ロジスティック回帰分析によって求めたオッズ比は出現率が低い時しか相対リスクに近似しないのに対して、ポアソン回帰分析では相対リスクを正確に求めることができる」
しかし表15.3.1からわかるように、出現率のデータではそもそも説明変数と相対リスクが比例しないので、ポアソン回帰分析よりもロジスティック回帰分析かプロビット回帰分析の方が適しています。 説明変数と相対リスクが近似的に比例するのは、出現率が低くて――だいたい10%未満――ロジスティック曲線と指数曲線が直線で近似できる部分だけです。 そしてその部分ではオッズ比と相対リスクが近似するので、どの手法を用いても結果はあまり変わらないことになります。
ポアソン回帰分析が適しているのは、やはり発生例数はカウントできるものの、発生率を求める時の分母になる全体の例数が不特定多数または非常に膨大で、事実上無限大に近い時のカウントデータでしょう。
そこでそのような場合は説明変数の値が同じグループにおいて、カウントデータが1のケースはカウント数rを求めるために利用し、カウントデータが0のケースはグループの例数nを求めるために利用し、次のようなポアソン回帰モデルを用いて出現率に関するポアソン回帰分析を行うことができます。 このモデルは表10.3.1のように説明変数の値別にカウント数と例数が観測されたデータに対して、出現率に関するポアソン回帰分析を適用する時にも利用できます。
このモデルを適用する時はデータを説明変数の値が全て同じケースごとにグループ化し、グループ内のカウントデータの合計数と、グループの合計例数を次のように整理します。
グループ | 説明変数 | |||||
---|---|---|---|---|---|---|
カウント合計 | 合計例数 | x1 | … | xj | … | xp |
r1 | n1 | x11 | … | x1j | … | x1p |
: | : | : | : | : | ||
ri | ni | xi1 | … | xij | … | xip |
: | : | : | : | : | ||
rm | nm | xm1 | … | xmj | … | xmp |
これらの値を利用して最尤解と尤度を求め、出現率に関するポアソン回帰分析を行うことができます。
このモデルにおいて変数が1つだけで、しかもそれが0または1という値を取るダミー変数とすると、次のようにxの回帰係数は対数リスク差になり、その検定はリスク比の検定に相当します。 ただしこの時の対数リスク差の分散は第3章で説明した分散とは少し異なっています。 これは第3章で説明した対数リスク差の分散がデルタ法によって求めた近似値であるのに対して、こちらは最尤法によって求めた近似値だからです。 (→3.4 2標本の計数値 (2)名義尺度(分類データ) (注5))