玄関雑学の部屋雑学コーナーワクチンの有効性と安全性

6.中間解析

前章で説明したように、一般的な統計的仮説検定の片側有意水準2.5%はベイズ流検定の事後確率97.5%に相当し、医学分野ではこの基準を用いるのが普通です。 ところが論文の「STATISTICAL ANALYSIS」の後半を読むと次のように記載されています。

The final analysis uses a success boundary of 98.6% for probability of vaccine efficacy greater than 30% to compensate for the interim analysis and to control the overall type 1 error rate at 2.5%.
※全体的な片側有意水準(type 1 error rate)を2.5%に調整するために、中間解析(interim analisys)のことを考慮して、最終的な解析(final analysis)ではワクチン有効率が30%以上である事後確率の境界値を98.6%にした。

ベイズ流検定の事後確率の境界値を98.6%にしたということは、一般的な統計的仮説検定では片側有意水準を1.4%にしたことに相当します。 実は、この臨床試験は途中で中間解析を行っています。 そしてその結果、ワクチン有効率が90%だったので、最初に予定していたよりも早く臨床試験を終了して最終的な解析を行ったのです。

臨床試験では途中で主な評価項目だけ解析し、試験を計画通り続行するか、それとも予定よりも早く終了または中止するか判断することがあります。 できるだけ早く医薬品を開発したい時とか、有効性が期待できない医薬品を早く見限りたい時にそのようなことを行います。 その際、途中で行う解析のことを中間解析といい、試験計画に最初から組み込んでおきます。

ただし途中で中間解析を行うと最終的な解析結果を解釈する時に確率的な影響を与えてしまい、結論が甘くなる可能性があります。 そこで中間解析と最終的な解析の事後確率の境界値にハンディキャップをつけ、最終的な結論が正しい確率を97.5%に調整します。 これを多重性の調整(multiplicity adjustment)といいます。

この臨床試験の場合は中間解析における事後確率の境界値を99.5%にし、最終的な解析における事後確率の境界値を98.6%にすることによって、最終的な結論が正しい確率を97.5%に調整しています。 その具体的な手順は統計解析計画書の「Appendix 2. Details for Bayesian Design」の「Decision Algrithm for Efficacy」に記載してあります。 (多重性の調整については当館の「統計学入門第4章第1節 4.1 多標本の計量値 (1)データに対応がない場合」参照)

なお多重性の調整は検定だけでなく推定にも必要です。 そのため厳密には95%信頼区間は97.2%信頼区間にする必要があります。 Table2のワクチン有効率の95%ベイズ信用区間の代わりにハザード比の信頼区間を用い、しかも多重性の調整を行うと次のようになります。 ファイザーの解析担当者がベイズ信用区間に多重性の調整を行わなかったのは、このことを知らなかったのかもしれませんが、もしかしたら信用区間を狭く見せたかったのかもしれません。

・ハザード比(HR)=0.0495612 ln(HR)=-3.00455
ln(HR)の97.2%信頼区間:ln(HR)=-3.80036〜-2.20874
ハザード比の97.2%信頼区間:HR=0.0223628〜0.109839
ワクチン有効率の97.2%信頼区間:VE=1-HR=0.890161〜0.9776372(89.0〜97.8%)
※ワクチン有効率の95%信頼区間:VE=1-HR=0.899208〜0.97563(89.9〜97.6%)

中間解析は主として有効性の評価項目について実施します。 そのため安全性の評価、特に長期的な安全性の評価についてはどうしても中途半端になりがちです。 したがって主として有効性を評価する第2相試験なら妥当な方法ですが、有効性と安全性の両方を評価する第3相試験ではあまり妥当な方法とは言えません。

ワクチンの本当の有用性は感染症による死亡率を低下させることです。 つまりワクチン接種によって感染症による死亡率を低下させ、しかもその死亡率の低下を打ち消すほどの副作用(副反応)は発現しないのが本当に有用なワクチンと言えます。 (副反応はワクチンの副作用についてだけ使う日本独特の用語です)

昨年までのアメリカのCOVID-19の感染率は約6%/年で、感染者の致死率は約2%/年です。 このことを考慮すると、BNT162b2の有用性を評価するには、少なくともこの臨床試験の5倍以上の被験者つまり20万例以上の被験者を対象にして、2年間以上は観察する必要があります。 そうすればCOVID-19によって500例ほどが死亡することになり、BNT162b2の死亡率に対する影響を正確に分析することができます。

しかし今回はパンデミック中ということから、できるだけ速やかにワクチンを開発する必要がありました。 そこでとりあえず感染率に基づいたワクチン有効率を主要評価項目にして短期間の臨床試験を行い、本当の目的である有用性の検討は緊急使用許可後にできるだけ慎重にワクチン接種を行い、そこから得られるリアルワールドデータを用いて行うことにしたのだと思います。

もしそうであれば、臨床試験をできるだけ早く終了するために中間解析を行う計画にしたのは当然です。 その代わりBNT162b2接種群もプラセボ接種群も、試験終了後、2年間は予後をフォローすることになっています。

しかし現実問題として、ワクチンの開発中ならともかく、BNT162b2が緊急使用許可されて一般人がワクチンを接種しているにもかかわらず、プラセボを接種された被験者が2年間も本当のワクチンを接種せずにいられるとは考えられませんし、それを強要するのは倫理的に許されません。 そしてプラセボ接種群の被験者が本当のワクチンを接種してしまったら、ワクチンの長期的な有効性と安全性を厳密に検討することは不可能です。

昨年のアメリカの全死亡者数は約290万人(そのうちCOVID-19関連死亡者数は約30万人)で、死亡率は約0.9%/1年(COVID-19関連死亡率は0.1%/1年)です。 したがって約4万例の被験者を2年間フォローすれば、全体で約720例ほどが死亡するはずです。 そして前述のようにアメリカのCOVID-19の感染率は約6%/年で、感染者の致死率は約2%/年ですから、COVID-19関連死亡者は約720中の約96例ほどになるはずです。

これだけの例数があり、しかもプラセボ接種群が本当のワクチンを接種しなければ、BNT162b2が死亡率にどの程度影響するかをある程度は分析できます。 でもプラセボ接種群がワクチンを接種してしまうと、それが不可能になります。 そしてBNT162b2接種群にも、当然、発生すると考えられる約360例の死亡者はまず間違いなくマスコミに注目され、「ワクチンの副反応で死亡か!?」とセンセーショナルに報道されると思います。

そのことを考えると、BNT162b2の有用性(有効性+安全性)をしっかりと検討する前にFDAが緊急使用許可を与えてしまったのは、データ解析屋としては何とも残念でなりません。