統計学入門−第15章

ポアソン回帰モデルでは理論的発生件数λがポアソン分布すると仮定するので、ln(λ)の回帰誤差εは正規分布ではなくポアソン分布を対数変換した分布をします。そこでロジスティック回帰分析と同様に、最小2乗法ではなく最尤法を利用して回帰分析を行います。そして寄与率の代わりに尤度を利用した擬似寄与率を求め、各種の検定を行うことができます。表15.1.1のデータにポアソン回帰モデルを当てはめ、最尤法を利用して解を求めると次のようになります。 _(注1)

図15.2.1は横軸をポアソン回帰式から求めたl = ln(λ)の値にし、縦軸を実際の発生件数にして表15.1.1の各データをプロットし、さらに指数関数 λ = exp(l)を描いたものです。このグラフを見ると、実際の発生件数のデータと指数関数があまりフィットしていないことがわかります。このことは解析結果の擬似寄与率が14.1％と非常に小さく、回帰の検定結果が有意ではないことからもわかります。

実は表15.1.1のデータは、順序ロジスティック回帰分析の例題として用いた表10.5.1のデータを項目名を変えてそのまま流用したものです。そのため発生件数のデータがポアソン分布せず、ポアソン回帰モデルがあまり当てはまりません。したがってポアソン回帰分析の例題としてはあまり良いデータではありませんが、重回帰分析と比較するために敢えてこのデータを用いました。

モデルは異なりますが、偏回帰係数の符号と値がだいたい似ていることと、検定結果と重寄与率もだいたい似ていることがわかります。このことから、このデータには計算が簡単で結果の解釈も容易な重回帰分析を適用した方が実用的であることがわかります。そもそもこのデータは順序ロジスティック回帰分析の説明用ですから、これは致し方ありません。

(2) 各種パラメーターの意味

ポアソン回帰式の偏回帰係数はx他の説明変数が一定で注目している説明変数だけが「1」増加した時にln(λ)がいくつ変化するかを表す値、つまり理論的発生件数λを対数変換した値の変化量を表す値です。そのため偏回帰係数を指数変換するとλの比、つまりλが相対的に何倍になるかを表す値になります。例えば(1)の解析結果で各変数の偏回帰係数を指数変換すると次のようになります。

これらの値は医療事故の発生件数の比であり、分母が共通ですから発生率の比つまりリスク比と解釈することが可能です。そしてリスク比は近似的に相対リスク(相対危険度)と解釈することができるので、これらの値を調整相対リスクと解釈することができます。

また重回帰分析と同様にポアソン回帰分析も記述統計学的手法であり、推測統計学的手法である検定とは相性が良くありません。そのため偏回帰係数の検定は、たいてい単なる有意性検定になります。したがって検定結果よりもポアソン回帰式や疑似寄与率を科学的に検討する方が有意義です。しかし検定に用いるχ²値や有意確率p値を各変数の相対的な重要度の指標として利用することはできます。 (1)の解析結果中のそれらの値を見ると、あまり大きな違いはないものの、一応、x₂(処方薬剤数)が一番大きく影響していると解釈することができそうです。

(注1)　表15.1.1を一般化し、ポアソン回帰モデルを当てはめると次のようになります。

表15.2.1 一般的カウントデータ
目的変数カウントデータ	説明変数
目的変数カウントデータ	x₁	…	x_j	…	x_p
y₁	x₁₁	…	x_1j	…	x_1p
:	:		:		:
y_i	x_i1	…	x_ij	…	x_ip
:	:		:		:
y_n	x_n1	…	x_nj	…	x_np

○ポアソン回帰モデル

このモデルでは回帰誤差ε_iが正規分布しないので、最尤法によってβの最尤推定値ｂを求めます。そのための準備として、まず表15.2.1のデータを説明変数の値が全て同じケースごとにグループ化します。そのグループがm個あり、i番目のグループの例数をn_i、グループ内のカウントデータの合計数をr_iとすると、それらは表15.2.2のように整理することができます。

表15.2.2 グループ別
カウントデータ
グループ	説明変数
yの合計	x₁	…	x_j	…	x_p
r₁	x₁₁	…	x_1j	…	x_1p
:	:		:		:
r_i	x_i1	…	x_ij	…	x_ip
:	:		:		:
r_m	x_m1	…	x_mj	…	x_mp

本来のカウントデータは非常に稀にしか起こらない事象が起こった時に、それに関する説明変数の値を観測したものなので、yの合計が0つまりカウントが0のものはありません。しかしポアソン分布はカウントが0の時も含んでいるのでカウントが0のグループが存在しても適用可能です。 r_iがポアソン分布すると仮定すると次のような式が成り立ちます。

カウントデータがr_iになる確率：

※カウントデータが0の時の確率：

グループiの尤度：

グループiの対数尤度：L(λ_i) = ln{ℒ(λ_i)} = r_i ln(λ_i) - ln(r_i!) - λ_i
ここで ln(λ_i)=ｘ_i'β、λ_i = exp(ｘ_i'β) より
グループiの対数尤度：L(β|ｘ_i) = r_i(ｘ_i'β) - ln(r_i!) - exp(ｘ_i'β)
全体の対数尤度：

この全体の対数尤度関数にニュートン・ラプソン法を適用し、最尤解を求めると次のようになります。 (→10.3 ロジスティック回帰分析の計算方法　(2) 最尤法を利用する方法 (注2))

w_ik = exp(ｘ_i'b_k) 　　b_k+1 = b_k - Ｈ_k^-1ｇ_k

ロジスティック回帰分析と同様に、ワルドのχ²値によって偏回帰係数が0かどうかの検定と推定を行うことができます。

V(ｂ) = -Ｈ_k^-1 ≒ Ｉ_f^-1 　　E(-Ｈ_k)=Ｉ_f：情報行列　　[Ｉ_f]_jj^-1：Ｉ_f^-1の第j対角要素
検定：

＞ χ²(1,α)の時、有意水準100α％で有意
推定：100(1-α)％信頼区間

→ 下限：

　上限：

また偏回帰係数が全て0の時の尤度つまり説明変数が無くて定数項だけのモデルの尤度と、定数項と説明変数がp個のモデルの尤度の比を利用した尤度比検定によって、説明変数全体の回帰の検定を行うことができます。さらに飽和モデルの尤度を利用してモデルとデータのズレつまり異質性の検定を行うことができます。定数項だけのモデルの最尤推定値λ₀と尤度、そして飽和モデルの尤度は次のようにして求めることができます。

定数項だけのモデルの対数尤度：

　　尤度の自由度 = 1

∴

対数尤度差：

　　尤度の自由度 = (p + 1) - 1 = p
回帰の尤度比検定：-2{L(0) - L(β)} = χ_β² ＞ χ²(p,α)の時、有意水準100α％で有意
飽和モデルの対数尤度：

　　尤度の自由度 = m

　　∴λ_i = r_i
対数尤度差：

　　尤度の自由度=m - (p + 1) = m - p - 1
ズレの尤度比検定：D = -2{L(β)) - L_f}=χ_LOF²＞χ²(m-p-1,α)の時、有意水準100α％で有意
D：デビアンス(deviance) … モデルとデータのズレの大きさを表す指標

偏回帰係数の初期値はカウントデータyが小さい時は指数関数を直線によって近似できることを利用して求めます。つまり表15.2.2のデータに重回帰分析を適用して偏回帰係数を求め、それを初期値として用いるわけです。切片については、全ての説明変数に平均値を代入した時のλが定数項だけのモデルの最尤推定値λ₀と一致するように調整します。

表15.1.1のデータについて実際に計算してみましょう。この表の16番と33番は説明変数の値が同じですから、この2つを1つのグループにして発生件数は5として計算します。

○yを目的変数にした重回帰分析の結果
y = 1.65901 - 0.34666x₁ + 0.315884x₂ - 0.00111275x₃

… カウント数と例数を用いた最尤推定値の近似値
ln(2.04545) = b₀₀ - 0.34666×0.545455 + 0.315884×1.95455 - 0.00111275×37.6364
∴b₀₀ = 0.715618 - 0.386444 = 0.329174
初期値：

更新されたｂ₁を用いて同様の計算を繰り返すと、4回目で値が収束します。

ｂ₅ = ｂ₄ - Ｈ₄^-1ｇ₄ ≒ ｂ₄
○ポアソン回帰式：l = ln(λ) = 0.619135 - 0.227517x₁ + 0.157503x₂ - 0.00195712x₃
○偏回帰係数の検定と推定

95％信頼区間　下限：β_1L = -0.651551　上限：β_1U = 0.196516

95％信頼区間　下限：β_2L = -0.100592　上限：β_2U = 0.415598

95％信頼区間　下限：β_3L = -0.0215049　上限：β_3U = 0.0175906
○尤度比検定
このモデルの対数尤度：L(β) = -62.2636
定数項だけのモデルの対数尤度：L(０) = -63.389 　　飽和モデルの対数尤度：L_f = -55.4038
回帰：χ_β² = -2×(-63.389 + 62.2636) = 2.251(p = 0.5220) ＜ χ²(3,0.05) = 7.815
ズレ：χ_LOF² = -2×(-62.2636 - 55.4038) = 13.720(p = 0.9999) ＜ χ²(39,0.05) = 54.572
擬似寄与率：

ポアソン回帰分析でもワルドの検定に用いるχ²値を変数選択用統計量にして、ロジスティック回帰分析と同様の手順で変数選択を行うことが原理的には可能です。しかし説明変数の組み合わせが変わると説明変数の値が全て同じケースの組み合わせが変わってしまい、最尤法の計算が非常に煩雑になります。そのため普通はロジスティック回帰分析のような変数選択は行いません。

SASやRといった既存の統計ソフトでは、一般化線形モデル用関数(GLM等)を利用してポアソン回帰分析を行うことができます。その場合、他の一般化線形モデルと同様に1つのデータを1つのカウントデータとして最尤法を適用します。そのため表15.1.1のように説明変数の値が同じカウントデータが複数あっても、これをグループ化せずに計算するので結果が不正確になってしまいます。そこで表15.1.1のデータを正しく解析するには、次のような表にしてから解析する必要があります。

表15.2.3 医療事故の発生件数(説明変数の値でグループ化)
医療機関ID	発生件数	診療科 (0:内科系 1:外科系)	処方薬剤数	診療科職員数
1	1	0	1	21
2	1	0	1	30
3	1	0	1	37
4	1	0	2	46
5	1	1	1	24
6	1	1	1	56
7	1	1	1	58
8	1	1	2	24
9	1	1	2	38
10	1	1	2	58
11	1	1	3	26
12	1	1	3	41
13	2	0	1	23
14	2	0	1	43
15	2	0	1	47
17	2	0	2	41
18	2	0	2	45
19	2	0	2	53
20	2	0	3	40
21	2	1	1	22
22	2	1	1	39
23	2	1	1	52
24	2	1	2	23
25	2	1	2	28
26	2	1	2	32
27	2	1	2	43
28	2	1	3	24
29	2	1	3	27
30	2	1	3	42
31	3	0	1	20
32	3	0	1	44
33	5	0	2	35
34	3	0	2	37
35	3	0	3	41
36	3	0	3	55
37	3	0	3	51
38	3	0	3	36
39	3	1	1	34
40	3	1	2	42
41	3	1	2	51
42	3	1	3	21
43	3	1	3	35
44	3	1	3	36

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

15.2 ポアソン回帰分析結果の解釈

(1) ポアソン回帰分析の計算結果

(2) 各種パラメーターの意味

医療機関ID	発生件数	診療科 (0:内科系 1:外科系)	処方薬剤数	診療科職員数
1	1	0	1	21
2	1	0	1	30
3	1	0	1	37
4	1	0	2	46
5	1	1	1	24
6	1	1	1	56
7	1	1	1	58
8	1	1	2	24
9	1	1	2	38
10	1	1	2	58
11	1	1	3	26
12	1	1	3	41
13	2	0	1	23
14	2	0	1	43
15	2	0	1	47
17	2	0	2	41
18	2	0	2	45
19	2	0	2	53
20	2	0	3	40
21	2	1	1	22
22	2	1	1	39
23	2	1	1	52
24	2	1	2	23
25	2	1	2	28
26	2	1	2	32
27	2	1	2	43
28	2	1	3	24
29	2	1	3	27
30	2	1	3	42
31	3	0	1	20
32	3	0	1	44
33	5	0	2	35
34	3	0	2	37
35	3	0	3	41
36	3	0	3	55
37	3	0	3	51
38	3	0	3	36
39	3	1	1	34
40	3	1	2	42
41	3	1	2	51
42	3	1	3	21
43	3	1	3	35
44	3	1	3	36

医療機関ID	発生件数	診療科 (0:内科系 1:外科系)	処方薬剤数	診療科職員数
1	1	0	1	21
2	1	0	1	30
3	1	0	1	37
4	1	0	2	46
5	1	1	1	24
6	1	1	1	56
7	1	1	1	58
8	1	1	2	24
9	1	1	2	38
10	1	1	2	58
11	1	1	3	26
12	1	1	3	41
13	2	0	1	23
14	2	0	1	43
15	2	0	1	47
17	2	0	2	41
18	2	0	2	45
19	2	0	2	53
20	2	0	3	40
21	2	1	1	22
22	2	1	1	39
23	2	1	1	52
24	2	1	2	23
25	2	1	2	28
26	2	1	2	32
27	2	1	2	43
28	2	1	3	24
29	2	1	3	27
30	2	1	3	42
31	3	0	1	20
32	3	0	1	44
33	5	0	2	35
34	3	0	2	37
35	3	0	3	41
36	3	0	3	55
37	3	0	3	51
38	3	0	3	36
39	3	1	1	34
40	3	1	2	42
41	3	1	2	51
42	3	1	3	21
43	3	1	3	35
44	3	1	3	36

医療機関ID	発生件数	診療科 (0:内科系 1:外科系)	処方薬剤数	診療科職員数
1	1	0	1	21
2	1	0	1	30
3	1	0	1	37
4	1	0	2	46
5	1	1	1	24
6	1	1	1	56
7	1	1	1	58
8	1	1	2	24
9	1	1	2	38
10	1	1	2	58
11	1	1	3	26
12	1	1	3	41
13	2	0	1	23
14	2	0	1	43
15	2	0	1	47
17	2	0	2	41
18	2	0	2	45
19	2	0	2	53
20	2	0	3	40
21	2	1	1	22
22	2	1	1	39
23	2	1	1	52
24	2	1	2	23
25	2	1	2	28
26	2	1	2	32
27	2	1	2	43
28	2	1	3	24
29	2	1	3	27
30	2	1	3	42
31	3	0	1	20
32	3	0	1	44
33	5	0	2	35
34	3	0	2	37
35	3	0	3	41
36	3	0	3	55
37	3	0	3	51
38	3	0	3	36
39	3	1	1	34
40	3	1	2	42
41	3	1	2	51
42	3	1	3	21
43	3	1	3	35
44	3	1	3	36