Table2のベイズ信用区間(Credible Interval)と事後確率(Posterior Porbability)は次のような手順で求めます。
ベータ分布は離散分布(整数値だけを取る分布)である二項分布を連続分布(実数値も取る分布)に拡張した特殊な分布です。 下の図9.1の下段のグラフが典型的なベータ分布です。
図9.1の模式図については後で詳しく説明するとして、まずベイズ信用区間と事後確率を求める手順について詳しく説明しましょう。 1番の「ワクチン有効率が近似的に二項分布し、その事前確率が近似的にベータ分布する」という仮定は、BNT162b2接種群とプラセボ接種群の観察時間合計が無限の時に成り立つものであり、有限の時は近似が悪くなります。 この臨床試験のように観測時間合計が有限の時は、この仮定よりも次のような仮定の方が近似が良くなります。
「ワクチン有効率を求めるための罹患率の比つまりハザード比を対数変換した値が近似的に正規分布する」
ところがワクチンの臨床試験は疫学分野の研究者が担当することが多く、疫学分野では生存時間解析をあまり利用しません。 そのため疫学分野では罹患率の比が生存時間解析で用いるハザード比と同じ指標であり、ハザード比の対数変換値が近似的に正規分布するということがあまり知られていないようです。
またベイズ統計学の解説書では、ベイズ信用区間とベイズ流検定の説明用として、新薬開発のための臨床試験のデータを解析するためにベータ分布と二項分布によるモデル(beta-binominal model)を適用した例を挙げることがけっこうあります。 そのためワクチンの臨床試験でも「ワクチン有効率が近似的に二項分布する」という仮定を用いることが多いようです。
上の図9.1の模式図は、新薬開発のための臨床試験のデータにベータ分布と二項分布によるモデルを適用した時のものです。 臨床試験のデータが増えるにつれて、「新薬の有効率はプラセボの有効率よりも高い」という結論が正しい確率θ(シータ)の分布が次第に右側(確率が高い方向)に集中していく様子を表しています。
2番の「事前情報に基づいて、BNT162b2のワクチン有効率の事前確率分布を具体的なベータ分布として設定する」については、Table2の3番目の脚注によると、事前確率分布としてBe(0.700102,1)というベータ分布を設定しています。
この手順は図9.1の左上の事前確率分布に相当します。 ただしこの事前確率分布は事前情報が全く無い時のベータ分布Be(1,1)です。 Be(1,1)は事前情報が全く無く、θが0〜1のどの値を取る確率が高いか不明のため、全ての値の確率が同じという一様分布になります。 しかしこの臨床試験の事前分布はベータ分布Be(0.700102,1)です。 これは図9.1の上段中央のBe(2,1)を左右反対にして、さらに下に凸の曲線にしたような分布であり、分布の平均値が約0.41(41%)になります。
事前確率分布としてBe(1,1)ではなくBe(0.700102,1)を設定した根拠は、論文中には記載されていません。 そこでこの臨床試験の試験実施計画書(プロトコール:Protocol)と統計解析計画書SAP(Statistical Analysis Plan)を読んでみました。 (この資料はNEJMの論文に記載されたリンク先からダウンロードできます)
その結果、統計解析計画書の「Appendix 2. Details for Bayesian Design」(Page 46)に事前確率分布をBe(0.700102,1)にした設定根拠が記載されていました。 この部分には難しそうなことが色々と書かれていますが、要約すると次のようになります。
これまでに似たような試験のデザインを何回もしたデータ解析屋としては、この設定方法に次のような文句をつけたくなります。
それからワクチン有効率VEを30%と仮定した理由は次のようなことが考えられます。 アメリカ食品医薬品局FDAはワクチンの承認基準を「ワクチン有効率が50%以上、最低でも30%以上あること」としています。 通常なら、このような時はワクチン有効率を50%と仮定してそれを帰無仮説にし、実際のデータによってその仮説を否定し、「ワクチン有効率は50%以上ある」ことを検証するような試験デザインにします。 製薬企業は危ない橋はできるだけ渡らず、確実に承認されるような臨床試験を行うのが普通だからです。
でも今回はパンデミックという緊急事態中なので、できるだけ迅速に臨床試験を実施し、しかも失敗は絶対に許されません。 そこでこれはあくまでも憶測ですが、ファイザーはFDAに事前相談を行い、「ワクチン有効率が30%以上あれば緊急使用許可EUAを与える」という内諾を得ていたのではないかと思います。 もし僕がこの臨床試験に関与していたとしたら、FDAにそのような事前相談をすることを強く勧めたと思います。
実質的に第2相に相当する感染者数(170例)しかないにもかかわらず、この臨床試験を強引に第3相扱いしたことはデータ解析屋としては賛成できません。 でもワクチン有効率を30%と仮定して臨床試験を行ったのは、現在の状況では致し方ないと思います。
3番の「その事前確率分布と実際の観測データを組み合わせて、ワクチン有効率の事後確率分布をベータ分布として求める」の「実際の観測データ」とは、Table2に記載されたBNT162b2接種群の罹患率=8/2214=0.00361/年と、プラセボ群の罹患率=162/2222=0.0729/年のことです。 そして事前確率分布Be(0.700102,1)にこの観測データを組み合わせ、事後確率分布としてBe(0.700102+8=8.700102,1+162=163)というベータ分布を求めています。 Be(8.700102,163)は図9.1の下段右端のような形のベータ分布を左右反対にし、さらに平均値の周囲に極端に集中した尖った分布であり、平均値は約0.05です。
4番の「その事後確率分布の平均値を中心にして、分布の95%が含まれる範囲を95%ベイズ信用区間として求める」は、Be(8.700102,163)において、分布の平均値0.05を中心にしてワクチン非有効率の95%が含まれる範囲を求めることに相当します。 そしてその範囲の下限が0.024、上限が0.097であり、ワクチン有効率にすると下限が0.903(90.3%)、上限が0.976(97.6%)になったわけです。
ちなみに一般的なネイマン・ピアソン統計学では、事前確率分布を設定せずに観測データからいきなり事後確率分布をベータ分布として求め、その分布の平均値を中心にして分布の95%が含まれる範囲を95%信頼区間にします。 それがTable3の一番上の「Over all(全体)」の行に記載された、ワクチン有効率の95%信頼区間(95% CI)90.0-97.9%です。
この方法で求めた信頼区間のことを、Table3の2番目の脚注に記載されているようにクロッパー・ピアソン(Clopper-Pearson)の正確信頼区間といいます。 この信頼区間よりもTable2のベイズ信用区間の方がわずかに狭いのは、事前確率分布と観察データを組み合わせて求めた事後確率分布は、事前確率分布がわかっている分だけ分布の幅がわずかに狭くなる、つまりワクチン非有効率の誤差がわずかに小さくなるからです。
この臨床試験の場合、ワクチン有効率が95.0%と非常に高いので事後確率分布の幅が狭く、一般的な信頼区間とベイズ信用区間の違いはわずかです。 でもそれはあくまでも結果論です。 もしワクチン有効率が50%程度だったら一般的な信頼区間とベイズ信用区間の違いはもっと大きくなり、結論が変わってしまうことさえ有り得ます。 そのような場合を想定して、製薬企業はベイズ信用区間を用いたがるのです。 (クロッパー・ピアソンの正確信頼区間については当館の「統計学入門第3章第2節 (注1)」参照)
また「ワクチン有効率を求めるための罹患率の比つまりハザード比を対数変換した値が近似的に正規分布する」ということを利用して、クロッパー・ピアソンの正確信頼区間よりも正確なワクチン有効率の信頼区間を求めることができます。 この場合は次のようになります。
この臨床試験の場合、観測時間合計が非常に大きいため、この信頼区間とクロッパー・ピアソンの正確信頼区間の違いはわずかです。 でもワクチン有効率の信頼区間をクロッパー・ピアソンの正確信頼区間によって求めることができるのは、本来は観測時間合計が無限の時だけです。 そのためワクチン有効率の信頼区間はこの計算方法で求めて欲しいと思います。 (ハザード比の信頼区間については当館の「統計学入門第11章第6節 (注2)」参照)
5番の「その事後確率分布を利用して、ワクチン有効率が0.3(30%)以上になる割合を事後確率として求める」は、BNT162b2のワクチン有効率をとりあえず30%と仮定し、実際のワクチン有効率がそれよりも高い事後確率が97.5%以上あればBNT162b2は有効と判断するベイズ流検定のことです。 図9.1の下段右端のグラフで網のかかった部分が事後確率になります。 ただしこのグラフは「新薬が有効である確率が50%以上ある事後確率」を表しています。
ベイズ流検定の「BNT162b2のワクチン有効率は30%である」という仮定は、一般的な統計的仮説検定の帰無仮説つまり観察データによって否定する(無に帰する)ための仮説に相当します。 そして「実際のワクチン有効率がそれよりも高い事後確率が97.5%以上あればBNT162b2は有効と判断する」のは、一般的な統計的仮説検定において、片側有意水準2.5%(=100-97.5)で検定結果が有意なので帰無仮説を棄却することに相当します。
通常、ベイズ流検定の事後確率はワクチン有効率が0.3(30%)以上になる割合として求める、つまり片側確率を求めるので一般的な統計的仮説検定における片側検定に相当します。 そして片側有意水準を2.5%にするのは、医学分野では慣習的に両側有意水準を5%にすることが多く、両側有意水準5%は片側有意水準2.5%に相当するからです。 (片側検定と両側検定については当館の「統計学入門第1章第6節 1.6 統計的仮説検定の考え方」参照)
この臨床試験では、ワクチン有効率が30%より大きい事後確率は0.9999以上でした。 このベイズ流検定は、一般的な統計的仮説検定における事前ワクチン有効率(理論的ワクチン有効率)を0.3(30%)とした二項検定に相当します。 その検定を行うと片側有意水準0.0001以下で有意になり、「ワクチン有効率が30%より大きい」ということが0.9999(99.99%)以上の確率で言えます。
また「ワクチン有効率を求めるための罹患率の比、つまりハザード比を対数変換した値が近似的に正規分布する」ということを利用して、「ワクチン有効率は0.3である」つまり「ハザード比は0.7である」という帰無仮説を検定することができます。 その検定結果はやはり片側有意水準0.0001以下で有意であり、「ハザード比は0.7より小さい」つまり「ワクチン有効率は30%より大きい」ということが0.9999(99.99%)以上の確率で言えます。
そして幸運なことに実際のBNT162b2のワクチン有効率は95.0%もあり、95%ベイズ信用区間が90.3〜97.6%でした。 そのため、たとえ「ワクチン有効率は90%である」という仮定を帰無仮説にしたとしても片側有意水準2.5%で有意であり、「ワクチン有効率は90%以上ある」ということが97.5%以上の確率で言えます。
FDAのワクチンの正式承認基準は「ワクチン有効率が50%以上あること」です。 そのためBNT162b2はその承認基準を楽々とクリアしていて、姑息な試験デザインを不問にしてしまうほど結果オーライでした。 この素晴らしい結果を見て、この臨床試験の関係者、特にファイザーの担当者はものすごくホッとしたと思います。 でも一番ホッとしたのはFDAかもしれません。