玄関雑学の部屋雑学コーナーワクチンの有効性と安全性

2.被検者背景

BNT162b2の第2/3相試験は2020年7月27日〜11月14日に実施され、世界152施設(アメリカ130施設、その他の国22施設)が参加し、44,820名の被験者が参加しました。 そして43,548名がBNT162b2接種群とプラセボ接種群に無作為割付され、1回目の接種を受けたのがBNT162b2接種群18,860名、プラセボ接種群18,846名、21日後に2回目の接種を受けたのがBNT162b2接種群18,556名、プラセボ接種群18,530名でした。 この被験者集団の内訳が論文のFigure1に模式図(flow diagram)で表されています。 (flow diagramについては当館の「統計学入門・第1章第9節 図1.9.3 被験者集団の内訳」参照)

そして1回目の接種を受けた被検者の背景因子がTable1にまとめられています。 この表を見ると白人(White)が82.9%、55歳以上(>55 yr)が42.2%(年齢中央値は52歳)、そしてBMI30.0以上の肥満症(≧30.0:obese)が35.1%もいます。 このあたりは、いかにも主にアメリカの施設で実施された臨床試験という感じです。 なお、この論文では被験者(subjects)のことを実験参加者(participants)と表現しています。 「被験者」という用語は受動的な感じがするのに対して、「実験参加者」は能動的な感じがします。 そのため自由意志を尊重する欧米では、最近はこの用語を使う論文が増えているようです。

臨床試験や臨床研究の論文を読み慣れた人は、Table1を見てすぐに首をかしげると思います。 そう、2群の背景因子がほぼ均等であることをチェックするための推定や検定が全く行われていないのです…!

このような表は被験者背景の提示、つまりこの臨床試験の準母集団(quasi-population)の内容を規定するためのものであると同時に、BNT162b2接種群とプラセボ接種群の背景因子がほぼ均等であり、比較可能性(公平な比較ができる可能性)が高いことを示すためのものでもあります。 そのため通常は2群の背景因子を項目ごとに比較した推定結果や検定結果を併記します。 ところがTable1には推定結果も検定結果も記載されていません。 (背景因子と準母集団については当館の「統計学入門・第1章第2節 1.2 推計学とは何ぞや?」参照)

そこで確認の為にTable1の背景因子項目について推定と検定を行ってみました。 その結果、次のように性別だけが有意水準5%で有意になり、それ以外の項目は有意ではありませんでした。

Table1-Sex
GroupMale(%)Female(%)合計(%)
Placebo9436(50.1)9410(49.9)18846(100.0)
BNT162b29639(51.1)9221(48.9)18860(100.0)
合計19075(50.6)18631(49.4)37706(100.0)
出現率の差=リスク差(risk difference):RD=-0.0103919
出現率の差の95%信頼区間=-0.0205372--0.000246529
Fisherの正確検定:有意確率p=0.0446703*

「有意水準5%で有意」というのは「2群の女性の割合の差-0.0103919(約-1.0%)は数学的に意味が有る」つまり「『2群の女性の割合の差は0%ではない』と95%以上の確率で言える」という意味です。 事実、推定結果を見ると、2群の女性の割合の差の95%信頼区間の下限つまり差が最大の時は-0.0205372(約-2.1%)であり、95%信頼区間の上限つまり差が最小の時は-0.000246529(約-0.02%)です。 このことから「2群の女性の割合の差は0%ではない」と95%以上の確率で言えます。

つまり検定結果の「2群の女性の割合の差が有意水準5%で有意」ということは、推定結果の「2群の女性の割合の差の95%信頼区間の中に0%が含まれない=2群の女性の割合の差の95%信頼区間が0%をまたがない」ということと同義なのです。

ただしこの結果から、すぐに「2群の女性の割合が異なるので比較可能性に問題が有る!」とは言えません。 もし性別がBNT162b2接種群の有効性と安全性に影響を与え、女性の割合が1.0%異なることによってBNT162b2接種群が有利になったり不利になったりする可能性があれば、確かに「2群の女性の割合が異なるので比較可能性に問題が有る!」と言えるでしょう。

しかし現実問題として、たとえ性別がBNT162b2の有効性と安全性に影響を与えるとしても、わずか1.0%程度の違い、最大でも2.1%の違いは、事実上、無視できる程度つまり医学的な許容範囲内だと思います。 このことから2群の男女比はわずかに異なっているものの、BNT162b2の有効性と安全性に影響を与えるとは考えられず、「2群の比較可能性に問題は無い」と言えると思います。 他の項目についても比較可能性に影響しそうなほど2群が偏っている項目はなく、全体として「2群の比較可能性に問題は無い」と言えると思います。

以上の説明からわかるように統計学の推定は定量試験に相当し、検定は定性試験に相当します。 そのため定量試験である推定を行い、「2群の女性の割合の差は95%の確率で-2.1%〜-0.02%の間である」とわかれば、わざわざ定性試験である検定を行い、「2群の女性の割合の差は95%以上の確率で0%ではない(有意水準5%で有意である)」ことを確認する必要はありません。 このことからデータ解析屋には「検定不要論者」が多く、実は僕もそのひとりです。

でも残念ながら医学分野には有意症(significantosis)――「『有意』とは『科学的に有意義な結果』という意味である!」と誤解したり、「何でもかんでも検定をしないと気がすまない!」という強迫観念に囚われる病気――に罹患した研究者が多く、検定結果が有意になると目の色を変えて問題にしたがる傾向があります。 (有意症については当館の「統計学入門・第1章第5節 1.5 有意性検定の考え方」参照)

この論文の著者達が検定不要論者かどうかはわかりませんが、もしかしたら有意症患者のことを慮って、藪蛇にならないようにあえて検定結果を記載しなかったのかもしれません。 でも僕は検定不要論者であると同時に推定重要論者でもあるので、推定結果を記載しないのは少々不満です。

統計処理に厳しいNEJM(New England Journal of Medicine)の査読者が、推定結果も検定結果も併記されていないこのTable1をすんなり受け入れたとは思えません。 でもパンデミックという緊急事態中のため、査読者もこの論文を特別扱いし、重箱の隅をつつくようなイチャモンをつけるのは控えたのかもしれません。 統計処理について、NEJMの査読者の重箱の隅をつつくようなイチャモンにうんざりしながら応戦した者としては少々やっかみを感じてしまいます。