玄関雑学の部屋雑学コーナー統計学入門

第15章 ポアソン回帰分析

この章ではポアソン回帰分析の原理と結果の解釈方法、ロジスティック回帰分析との比較と使い分けについて解説します。

15.1 ポアソン回帰分析の原理

(1) カウントデータとポアソン分布

一般に、一定時間内にある現象が起こった回数を数え上げたデータのことをカウントデータ(count data)といいます。 そしてカウントデータの発生頻度と、それに影響する要因との関係を分析する手法のことをカウントデータ分析(analysis of count data)といいます。 その代表的なものがポアソン回帰分析(Poisson regression analysis)です。 ポアソン回帰分析は稀にしか起こらない現象に関するカウントデータを分析するための手法であり、その時のカウントデータが近似的にポアソン分布(Poisson distribution)する性質を利用しています。

ポアソン分布は例数n、理論確率π0の二項分布において、理論的発生例数λ = π0×nを一定にしたままn→∞にする、つまりnが大きくなるほどπ0が小さくなるという性質がある時の極限分布です。 例えば図15.1.1のようにλ = 5の時の分布は左右対称ではなく、発生例数r = λ = 5をピークにしてrが大きくなるほど発生確率pが小さくなります。 そして分布の期待値(平均値)と分散がλに一致するという、都合の良い性質を持っています。 (→付録1 各種の確率分布 (7) ポアソン分布)

図15.1.1 ポアソン分布の確率密度関数[λ=5]

ポアソン分布はnが無限大の極限分布ですから、発生例数はカウントできるものの、発生率を求める時の分母になる全体の例数nが不特定多数または非常に膨大で、事実上無限大に近い時によく当てはまります。 例えば近似的にポアソン分布する現象として交通事故の発生件数、地震の発生件数、サッカーの得点数、馬に蹴られて死亡した兵士数などが有名です。 これらは発生率を求める時の分母が不特定多数または非常に膨大で、事実上無限大に近い現象です。 (注1)

医学分野におけるカウントデータの例として、一定時間内に疾患を発症した例数や疾患による死亡例数があります。 そのため疫学分野では、これらのカウントデータを分析する時にポアソン回帰分析を適用することがよくあります。 しかしこれらのカウントデータは疾患を発症しない例数や疾患によって死亡しない例数を特定することができるので、全体の例数nを特定することが可能です。 特に臨床試験や臨床研究では全体の例数nを指定して疾患の発症例数や死亡例数を観測するのが普通です。

そのためこのような場合は個々の症例について疾患発症の有無や生死を観測し、カウントデータではなく出現率または死亡率のデータとして扱い、ロジスティック回帰分析や生存時間解析を適用する方が理にかなっています。 第3節で詳しく説明しますが、ポアソン回帰分析は発生件数を指数関数で近似して分析します。 そのため疾患の発症率や死亡率のデータにポアソン回帰分析を適用すると発症率や死亡率が高い時は指数関数と実際のデータとのズレが大きくなり、発症率や死亡率が100%を超えてしまうという非合理な結果になってしまうのです。

(2) ポアソン回帰モデル

交通事故の発生件数と同様に、医療機関で発生する医療事故の発生件数も近似的にポアソン分析します。 例えば、ある地方で1ヶ月間に医療機関から報告された医療事故の発生件数と、それに関連した情報が表15.1.1のようになったとします。 このデータにポアソン回帰分析を適用してみましょう。

表15.1.1 医療事故の発生件数
医療機関ID発生件数診療科 (0:内科系 1:外科系)処方薬剤数診療科職員数
110121
210130
310137
410246
511124
611156
711158
811224
911238
1011258
1111326
1211341
1320123
1420143
1520147
1620235
1720241
1820245
1920253
2020340
2121122
2221139
2321152
2421223
2521228
2621232
2721243
2821324
2921327
3021342
3130120
3230144
3330235
3430237
3530341
3630355
3730351
3830336
3931134
4031242
4131251
4231321
4331335
4431336
赤字のデータは説明変数が同じ値のもの

ポアソン回帰分析では発生件数がポアソン分布し、発生件数の期待値つまり理論的発生件数λを対数変換した値と説明変数の間に近似的に線形関係があると仮定します。 これは次のような重回帰型のモデルで表すことができ、これをポアソン回帰モデル(Poisson regression model)といいます。 λを対数変換するのは発生件数が少ない時はλが指数関数的な変化をするからであり、これによって目的変数と説明変数との関係が近似的に線形になります。 またλの分布がガンマ分布や指数分布などをする時も同じ形式で表すことができ、それらをまとめて対数線形回帰モデル(log-linear regression model)と呼ぶことがあります。 対数線形回帰モデルは対数変換をリンク関数にした一般化線形モデルの一種です。 (→10.1 ロジスティック回帰分析の原理 (5) 一般化線形モデル)

ln(λ)=β0 + β1x1 + … + βjxj + … + βpxp + ε
λ:理論的発生件数(発生件数期待値)  β0:切片   βj:偏回帰係数(j=1,…,p)  ε:回帰誤差

(注1) ポアソン分布の最初の適用例は、「プロシア陸軍において馬に蹴られて死んだ兵士数」(Bortkiewicz、1989年)であるといわれています。