前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 |
この章ではポアソン回帰分析の原理と結果の解釈方法、ロジスティック回帰分析との比較と使い分けについて解説します。
一般に、一定時間内にある現象が起こった回数を数え上げたデータのことをカウントデータ(count data)といいます。 そしてカウントデータの発生頻度と、それに影響する要因との関係を分析する手法のことをカウントデータ分析(analysis of count data)といいます。 その代表的なものがポアソン回帰分析(Poisson regression analysis)です。 ポアソン回帰分析は稀にしか起こらない現象に関するカウントデータを分析するための手法であり、その時のカウントデータが近似的にポアソン分布(Poisson distribution)する性質を利用しています。
ポアソン分布は例数n、理論確率π0の二項分布において、理論的発生例数λ = π0×nを一定にしたままn→∞にする、つまりnが大きくなるほどπ0が小さくなるという性質がある時の極限分布です。 例えば図15.1.1のようにλ = 5の時の分布は左右対称ではなく、発生例数r = λ = 5をピークにしてrが大きくなるほど発生確率pが小さくなります。 そして分布の期待値(平均値)と分散がλに一致するという、都合の良い性質を持っています。 (→付録1 各種の確率分布 (7) ポアソン分布)
ポアソン分布はnが無限大の極限分布ですから、発生例数はカウントできるものの、発生率を求める時の分母になる全体の例数nが不特定多数または非常に膨大で、事実上無限大に近い時によく当てはまります。 例えば近似的にポアソン分布する現象として交通事故の発生件数、地震の発生件数、サッカーの得点数、馬に蹴られて死亡した兵士数などが有名です。 これらは発生率を求める時の分母が不特定多数または非常に膨大で、事実上無限大に近い現象です。 (注1)
医学分野におけるカウントデータの例として、一定時間内に疾患を発症した例数や疾患による死亡例数があります。 そのため疫学分野では、これらのカウントデータを分析する時にポアソン回帰分析を適用することがよくあります。 しかしこれらのカウントデータは疾患を発症しない例数や疾患によって死亡しない例数を特定することができるので、全体の例数nを特定することが可能です。 特に臨床試験や臨床研究では全体の例数nを指定して疾患の発症例数や死亡例数を観測するのが普通です。
そのためこのような場合は個々の症例について疾患発症の有無や生死を観測し、カウントデータではなく出現率または死亡率のデータとして扱い、ロジスティック回帰分析や生存時間解析を適用する方が理にかなっています。 第3節で詳しく説明しますが、ポアソン回帰分析は発生件数を指数関数で近似して分析します。 そのため疾患の発症率や死亡率のデータにポアソン回帰分析を適用すると発症率や死亡率が高い時は指数関数と実際のデータとのズレが大きくなり、発症率や死亡率が100%を超えてしまうという非合理な結果になってしまうのです。
交通事故の発生件数と同様に、医療機関で発生する医療事故の発生件数も近似的にポアソン分析します。 例えば、ある地方で1ヶ月間に医療機関から報告された医療事故の発生件数と、それに関連した情報が表15.1.1のようになったとします。 このデータにポアソン回帰分析を適用してみましょう。
医療機関ID | 発生件数 | 診療科 (0:内科系 1:外科系) | 処方薬剤数 | 診療科職員数 |
---|---|---|---|---|
1 | 1 | 0 | 1 | 21 |
2 | 1 | 0 | 1 | 30 |
3 | 1 | 0 | 1 | 37 |
4 | 1 | 0 | 2 | 46 |
5 | 1 | 1 | 1 | 24 |
6 | 1 | 1 | 1 | 56 |
7 | 1 | 1 | 1 | 58 |
8 | 1 | 1 | 2 | 24 |
9 | 1 | 1 | 2 | 38 |
10 | 1 | 1 | 2 | 58 |
11 | 1 | 1 | 3 | 26 |
12 | 1 | 1 | 3 | 41 |
13 | 2 | 0 | 1 | 23 |
14 | 2 | 0 | 1 | 43 |
15 | 2 | 0 | 1 | 47 |
16 | 2 | 0 | 2 | 35 |
17 | 2 | 0 | 2 | 41 |
18 | 2 | 0 | 2 | 45 |
19 | 2 | 0 | 2 | 53 |
20 | 2 | 0 | 3 | 40 |
21 | 2 | 1 | 1 | 22 |
22 | 2 | 1 | 1 | 39 |
23 | 2 | 1 | 1 | 52 |
24 | 2 | 1 | 2 | 23 |
25 | 2 | 1 | 2 | 28 |
26 | 2 | 1 | 2 | 32 |
27 | 2 | 1 | 2 | 43 |
28 | 2 | 1 | 3 | 24 |
29 | 2 | 1 | 3 | 27 |
30 | 2 | 1 | 3 | 42 |
31 | 3 | 0 | 1 | 20 |
32 | 3 | 0 | 1 | 44 |
33 | 3 | 0 | 2 | 35 |
34 | 3 | 0 | 2 | 37 |
35 | 3 | 0 | 3 | 41 |
36 | 3 | 0 | 3 | 55 |
37 | 3 | 0 | 3 | 51 |
38 | 3 | 0 | 3 | 36 |
39 | 3 | 1 | 1 | 34 |
40 | 3 | 1 | 2 | 42 |
41 | 3 | 1 | 2 | 51 |
42 | 3 | 1 | 3 | 21 |
43 | 3 | 1 | 3 | 35 |
44 | 3 | 1 | 3 | 36 |
ポアソン回帰分析では発生件数がポアソン分布し、発生件数の期待値つまり理論的発生件数λを対数変換した値と説明変数の間に近似的に線形関係があると仮定します。 これは次のような重回帰型のモデルで表すことができ、これをポアソン回帰モデル(Poisson regression model)といいます。 λを対数変換するのは発生件数が少ない時はλが指数関数的な変化をするからであり、これによって目的変数と説明変数との関係が近似的に線形になります。 またλの分布がガンマ分布や指数分布などをする時も同じ形式で表すことができ、それらをまとめて対数線形回帰モデル(log-linear regression model)と呼ぶことがあります。 対数線形回帰モデルは対数変換をリンク関数にした一般化線形モデルの一種です。 (→10.1 ロジスティック回帰分析の原理 (5) 一般化線形モデル)