玄関雑学の部屋雑学コーナー統計学入門

1.9 科学的研究のデザイン

(1) 研究デザインの種類

科学的研究には目的に応じて様々なデザインがあり、それらは観測的研究(observational study)実験的研究(experimental study)に大別できます。 そして観測的研究はさらに横断的研究(cross sectional study)前向き研究(prospective study)、そして後ろ向き研究(retrospective study)に分類できます。

図1.9.1 研究デザインの種類

研究デザインの種類と原理を理解するためには、原因と結果を表1.9.1のような2×2分割表にまとめたものが役に立ちます。 原因とは例えば喫煙の有無などのことで、疫学分野では曝露(exposure)という用語をよく使います。 結果とは例えば肺癌の有無などのことで、疫学分野では帰結(outcome)という用語をよく使います。

表1.9.1 原因と結果の2×2分割表
 結果(帰結)
原因(曝露)ab(a+b)
cd(c+d)
(a+c)(b+d)N

(2) 観察的研究

横断的研究は原則として研究者が直接的な介入や管理を行わない研究であり、疫学研究や社会学研究などでよく用いられます。

1) 横断的研究

ある時点におけるデータを横断的に観測する研究法であり、調査とほぼ同義です。 比較的手軽で迅速に実施できる反面、因果関係の検証はできません。 そのため主として予備調査や探索型研究に用いられ、スクリーニング調査やアンケート調査などが代表的です。

統計学的な意味の横断的とは時間に関して横断的というよりも因果関係の方向に関して横断的ということであり、原因と結果をどちらも固定せずに観測するということです。 そのため、ある時点のデータだけでなく過去または未来のデータについて観測しても、原因と結果を固定せずに観測すれば統計学的には横断的研究になります。

このデザインでは原因と結果の2×2分割表において全体の例数Nを指定し、現時点における原因の有無と結果の有無を調べてa、b、c、dを観測します。 ただし因果関係の検証はできないので原因と結果はあくまでも想定したもの、または便宜的なものになります。 その代わり原因も結果も確率変数と考えることができ、両者の間の自然な関連性が反映されます。 そのため相関係数を正確に計算できるので、とりあえず相関関係を想定した相関分析計の手法を適用することができます。

表1.9.2 横断的研究の2×2分割表例
 疾患
危険因子55(55%)5(5%)60(60%)
25(25%)15(15%)40(40%)
80(80%)20(20%)100(100%)

原因が危険因子(risk factor)で結果が疾患の時、次のような値が定義できます。

危険因子の出現率(危険因子頻度):
疾患の有病率(prevalence):
四分点相関係数(φ係数):
クラメール(Cramer)の連関係数:

四分点相関係数(four-fold point correration coefficient)φ(ファイ)係数とも呼ばれ、2×2分割表の相関係数に相当します。 この値は危険因子の有無と疾患の有無の関連性が全くない時は0になり、完全に関連している時は1または-1になります。 クラメールの連関係数分類データの相関係数に相当し、2×2分割表の場合は四分点相関係数の絶対値と同じ値になります。 この値は危険因子の有無と疾患の有無の関連性が全くない時は0になり、完全に関連している時は1になります。 (→3.4 2標本の計数値 (2)名義尺度5.3 計数値の相関分析と回帰分析)

それから、一応、次のような値も定義できます。 しかしこれらの値は分子・分母ともに確率変数なので誤差があり、値の信頼性が低くなります。 そして場合によっては計算できない時もあります。

危険因子有における疾患の有病率:
危険因子無における疾患の有病率:
リスク差(Risk Difference)または絶対危険度(Absolute Risk):
リスク比(Risk Ratio)または相対危険度(Relative Risk):
危険因子有の疾患オッズ(Odds、見込み):
危険因子無の疾患オッズ:
疾患有の危険因子オッズ:
疾患無の危険因子オッズ:
オッズ比(Odds Ratio、見込み比、交差積比):

オッズ(見込み)は、ある反応を生じる確率と生じない確率の比です。 そしてオッズ比は、ある群におけるオッズと別の群におけるオッズの比です。 そのため表1.9.2のオッズ比は、危険因子有群の疾患オッズが危険因子無群の疾患オッズの何倍あるかを表す値になります。 この値は危険因子と疾患の関連性が全くない時は1になり、関連性があるほど1から離れます。 そしてこの値を対数変換すると対数交差積の差{log(ad)-log(bc)}になり、対数スケールでの四分点相関係数の分子相当の値になります。

したがってオッズ比は危険因子と疾患の関連性が指数関係に近い時――疾患の有病率が小さい時――に関連性の指標として用いるのに適しています。 ただしこの値は上限と下限が無制限の上、計算できない時もあります。 そのため関連性の指標としては、通常は四分点相関係数の方が便利です。 (→3.4 2標本の計数値 (2) 名義尺度)

疾患の有病率とリスク比とオッズ比の間には次のような関係があります。 そして有病率が小さい時(約10%未満)、有病率はオッズに近似し、リスク比はオッズ比に近似します。 これもオッズ比が主として有病率の小さい時に用いられる理由のひとつです。 (→3.4 2標本の計数値 (2) 名義尺度 (注5))

… RR > 1 の時 OR > RR、RR < 1 の時 OR < RR

・p+ ≪ 1、p- ≪ 1の時
 危険因子有における疾患の有病率: … d ≪ cより
 危険因子無における疾患の有病率: … b ≪ aより
 

また危険因子を診断指標と考えると次のような値が定義できます。 これらについても分子・分母ともに確率変数になるものは値の信頼性が低くなります。 診断指標の場合、本来は疾患が原因で診断指標が結果という因果関係を想定します。 しかしこのデザインでは因果関係は便宜的なものにすぎないので、危険因子をそのまま診断指標と考えてしまってかまいせん。 (→9.2 群の判別と診断率)

危険因子の陽性率:
感度(Sencitivity):
特異度(Specificity):
正診率(Accuracy):
陽性尤度比(Positive Likelihood Ratio):
陰性尤度比(Negative Likelihood Ratio):

陽性尤度比は真陽性確率=感度つまり疾患群の診断指標が陽性になる確率と、偽陽性確率=(1-特異度)つまり正常群の診断指標が陽性になる確率の比です。 この値は有病率でいえばリスク比に対応する値であり、感度と特異度が大きいほど1より大きくなり、診断指標の有用性を表す値になります。 さらに有病率と同様に陽性率が小さい時、感度と特異度はオッズに近似し、陽性尤度比はオッズ比に近似します。 (→3.4 2標本の計数値 (2) 名義尺度 (注5))

感度: … d ≪ bより
1−特異度: … c ≪ aより

2) 前向き研究

ある時点から未来に向かってデータを観測する研究法です。 実施に手間と時間がかかるものの、因果関係の検証が可能です。 そのため主として検証型研究に用いられ、コホート研究(cohort study)が代表的です。 コホートとは共通した因子を持ち、時間を追って観察される集団のことです。 これは疫学分野でよく用いられる用語であり、コホート研究の対象になる母集団のことを指す場合が多いようです。

統計学的な意味の前向きとは時間に関して前向きというよりも因果関係の方向に関して前向きということであり、原因を固定して結果を観測するということです。 そのため時間に関して前向きに観測しても、原因と結果を固定せずに観測すれば横断的研究になります。

このデザインでは原因と結果の2×2分割表において原因無の例数(a+b)と原因有の例数(c+d)を指定し、それらの群について結果の有無を経時的に調べてa、b、c、dを観測します。 そのため因果関係の検証をすることができます。 そして結果だけが確率変数になるので回帰分析系の手法を厳密に適用することができ、回帰直線が正確な意味を持ちます。

表1.9.3 前向き研究の2×2分割表例
 疾患
危険因子40(80%)10(20%)50(100%)
20(40%)30(60%)50(100%)
60(60%)40(40%)100(100%)

このデザインでは原因の有無の例数を任意に指定することができるので、危険因子の出現率と疾患の有病率そして危険因子オッズは定義できません。 そして危険因子を診断指標と考えることができなくなり、診断率を計算することができなくなります。 その代わり次のような値が定義できます。

危険因子有における疾患の発症率:
危険因子無における疾患の発症率:
リスク差:
リスク比:
危険因子有の疾患オッズ:
危険因子無の疾患オッズ:
オッズ比:

疾患の発症率が小さい時、次のようにリスク比はオッズ比に近似します。 (→5.3 計数値の相関分析と回帰分析)

… p+ ≪ 1、p- ≪ 1より

この場合、オッズ比をリスク比と解釈できるというよりも、むしろリスク比がオッズ比のような単なる関連性の指標に近くなると解釈する方が適切です。 例えば次のような3つの表について四分点相関係数、オッズ比、そしてリスク比を計算してみましょう。

表1.9.4 前向き研究の2×2分割表例-1
 疾患 計 
 無  有 
危険因子991100
982100
1973200
四分点相関係数:φ = 0.0411  オッズ比:OR = 2.02  リスク比:RR = 2
表1.9.5 前向き研究の2×2分割表例-2
 疾患 計 
 無  有 
危険因子7030100
4060100
11090200
四分点相関係数:φ = 0.302  オッズ比:OR = 3.5  リスク比:RR = 2
表1.9.6 前向き研究の2×2分割表例-3
 疾患 計 
 無  有 
危険因子298100
199100
3197200
四分点相関係数:φ = 0.0411  オッズ比:OR = 2.02  リスク比:RR = 1.01

ご覧のように、表1.9.4と表1.9.5のリスク比はどちらも2です。 しかし表1.9.4の場合はたった1例の違いがそのままリスク比に反映されているのでリスク比の信頼性が低く、感覚的に2倍ほど危険性が高いとは思えないところがあります。 それに対して表1.9.6の場合もたった1例の違いですが、リスク比はほとんど1に近く、こちらの方は感覚的に納得できると思います。

これらのことは3つの表の四分点相関係数とオッズ比を見るとよりはっきりします。 表1.9.4と表1.9.6の四分点相関係数とオッズ比は同じ値であり、危険因子と疾患の関連性の強さが同じであることを表しています。 そして表1.9.5の四分点相関係数とオッズ比は他の2つよりも大きく、危険因子と疾患の関連性がより強いことを表しています。 特に四分点相関係数がそのことをはっきりと表しています。

つまり疾患の発症率が低い時はリスク比の信頼性が低くなり、相対的な危険性というよりも単なる関連性の指標であるオッズ比に近くなると解釈した方が良いということです。

3) 後ろ向き研究

ある時点から過去にさかのぼってデータを観測する研究法です。 このデザインは心筋梗塞のような稀な疾患の研究に適しているものの、因果関係の検証はできません。 そのため主として探索型研究に用いられ、症例対照研究(case-control study)が代表的です。 ただし稀な疾患では検証型研究に用いられる時もあります。

統計学的な意味の後ろ向きとは時間に関して後ろ向きというよりも因果関係の方向に関して後ろ向きということであり、結果を固定して過去にさかのぼって原因を調べるということです。 そのため過去にさかのぼってデータを観測しても、原因と結果を固定せずに観測すれば後ろ向き研究ではなく横断的研究になります。

このデザインでは原因と結果の2×2分割表において結果無の例数(a+c)と結果有の例数(b+d)を指定し、それらの群について過去にさかのぼって原因の有無を調べてa、b、c、dを観測します。 ただし因果関係の検証はできないので原因と結果はあくまでも想定したもの、または便宜的なものになります。 そして結果が確率変数ではなくなるので回帰分析系の手法は厳密には適用できなくなり、回帰直線が正確な意味を持たなくなります。

表1.9.7 後ろ向き研究の2×2分割表例
 疾患
危険因子40(80%)20(40%)60(60%)
10(20%)30(60%)40(40%)
50(100%)50(100%)100(100%)

このデザインでは結果の有無の例数を任意に指定することができるので、危険因子の出現率と有病率、そして発症率とリスク比と疾患オッズは定義できません。 その代わり危険因子を診断指標と考えると次のような値が定義できます。

感度(疾患群が陽性になる確率):
特異度(正常群が陰性になる確率):
正診率(正しく診断する確率):
陽性尤度比(真陽性確率と偽陽性確率の比):
陰性尤度比(偽陰性確率と真陰性確率の比):
疾患有の危険因子オッズ:
疾患無の危険因子オッズ:
オッズ比:

危険因子の陽性率が小さい時、次のように陽性尤度比はオッズ比に近似します。

… c≪a、d≪bより

疾患の事前確率つまり一般的な有病率πdがわかっていれば、逆確率(原因の確率)に関するベイズ(Bayes)の定理を利用して次のような値を求めることができます。 (→9.2 群の判別と診断率)

正診率(有病率を考慮した値):AC = πdsn + (1-πd)sp
陽性予測値(検査結果が陽性の時に本当に疾患である逆確率):
陰性予測値(検査結果が陰性の時に本当に正常である逆確率):
危険因子有における有病率:p+ = PPV
危険因子無における有病率:p- = 1 - NPV
リスク比:
危険因子有の疾患オッズ:
危険因子無の疾患オッズ:
オッズ比:

最後の式からオッズ比は有病率とは無関係に前向き研究のオッズ比と同じ値になることがわかります。 そして一般的な有病率πdが小さい時は次のような近似が成り立ちます。



したがって前向き研究と同様に、有病率が低い時はリスク比がオッズ比に近似します。 そして有病率が低い時はリスク比の信頼性が低くなり、相対的な危険性というよりも単なる関連性の指標であるオッズ比に近くなると解釈した方が良いことも前向き研究と同様です。

なお前向き研究と後ろ向き研究を合わせて縦断的研究(longitudinal study)と呼びます。 統計学的な意味の横断的・縦断的または前向き・後ろ向きとは、時間に関するものというよりも因果関係の方向に関するものです。 つまり原因を固定して結果を観測するのが前向き研究、結果を固定して原因を調べるのが後ろ向き研究、どちらも固定せずに観測するのが横断的研究です。 (注1)

(3) 実験的研究

研究者が直接的に介入し、要因を管理して行う研究法です。 実施に手間と時間がかかり、場合によっては実施不可能なこともありますが、厳密な因果関係の検証が可能です。 そのため主として検証型研究に用いられ、化学実験、動物実験、臨床試験などが代表的です。 実験的研究は必ず原因を固定して結果を観測するので前向き研究になります。 そのためこのデザインでは原因と結果の2×2分割表は前向き研究と同じものになり、同じ値が定義できます。 ただし臨床試験では薬剤投与などの治療の有無を原因にするのが普通です。 そこで原因と結果の2×2分割表は次のようになります。

表1.9.8 臨床試験の2×2分割表例
 疾患
治療20(40%)30(60%)50(100%)
40(80%)10(20%)50(100%)
60(60%)40(40%)100(100%)

この場合、疫学分野では次のような指標をよく用います。

絶対危険度減少率(Absolute Risk Reduction):
相対危険度減少率(Relative Risk Reduction):
治療必要数(Numbers Needed to Treat):

絶対危険度減少率は治療無群の有病率から治療有群の有病率を引いた値であり、リスク差(絶対危険度)の符号を反対にしたものに相当します。 相対危険度減少率は絶対危険度減少率を治療無群の有病率で割った値であり、1からリスク比(相対危険度)を引いたものに相当します。 NTT(治療必要数)は疾患を1人減らすために何人治療する必要があるかを表す値であり、絶対危険度減少率の逆数に相当します。 上記の例題の場合、患者を1人減らすために2.5人治療する必要があることになります。 この指標は主として薬剤経済学分野で用いられます。

また結果が有害事象の有無の時は次のような指標を用います。

表1.9.9 有害事象の2×2分割表例
 有害事象
治療48(96%)2(4%)50(100%)
46(92%)4(8%)50(100%)
94(94%)6(6%)100(100%)
有害必要数(Numbers Needed to Harm):
NNT/NNH:

NNH(有害必要数)は有害事象が1人出現するために何人治療する必要があるかを表す値であり、絶対危険度減少率の符号を反対にした値つまりリスク差の逆数に相当します。 上記の例題の場合、有害事象が1人出現するために25人治療する必要があることになります。 そしてNNT/NNHは治療の有効性と安全性を総合した有用性を評価するための指標です。 この値が小さいほど治療の有用性が高いことを表します。

また薬効評価の場合は薬剤の有無を原因にし、薬効の有無を結果にするのが普通です。 そのため原因と結果の2×2分割表は次のようになります。 そしてこの場合はリスク差が薬効差になり、リスク比が薬効比になります。

表1.9.10 薬効評価の2×2分割表例
 薬効
薬剤40(80%)10(20%)50(100%)
20(40%)30(60%)50(100%)
60(60%)40(40%)100(100%)
薬効差 = リスク差 = RD = 0.4
薬効比 = リスク比 = RR = 3

臨床試験において、結果に影響を及ぼす項目の中で研究目的である薬剤の有無と関連があり、しかも薬剤の影響を受けない項目のことを交絡因子(confounding factor)と呼ぶことがあります。 例えば性別や年齢などがその代表です。 また薬物の血中濃度も薬剤と関連があり、結果に影響を及ぼします。 しかしこれは薬剤の影響を受ける項目つまり中間変数なので交絡因子とは呼びません。 (→8.1 共分散分析の原理 (3)共変数と交絡因子)

実験室で行う基礎実験などでは全ての交絡因子を管理することができますが、臨床試験ではそれは不可能です。 そこで薬剤を投与しない対照群と薬剤投与群の交絡因子を均等にするために、被験者を無作為に対照群と薬剤投与群に分けて結果を比較する無作為化比較対照試験(RCT:Randomized Controlled Trial)を行います。 この時、被検者を無作為に対照群と薬剤投与群に振り分けることを無作為割付け(random allocation)といいます。

また薬剤には「薬剤を服用した」ことによる心理的な効果であるプラセボ効果があります。 そこでこのプラセボ効果を均等にするために、見かけは目的の薬剤と同じで薬効成分が含まれていない薬剤であるプラセボ(偽薬)を対照群に投与します。 そして個々の被験者が本物の薬剤——これをプラセボに対して実薬といいます——を服用したのか、それともプラセボを服用したのかわからないようにします。

このように被験者が対照群に属するのか、それとも薬剤投与群に属するのかわからないようにすることを「ブラインドをかける」といいます。 そして被検者だけにブラインドをかける厳密な試験方法のことを一重盲検法(Single Blind Method)といい、被検者と評価者の両方にブラインドをかけるもっと厳密な試験法のことを二重盲検法(Double Blind Method)といいます。 厚労省の現在の新薬許可基準では、二重盲検法による臨床試験(DBT:Bouble Blind Trial)で有用性を検証することが許可のための事実上の必須条件になっています。 (→8.3 共分散分析と層別解析)

また手術の効果を検討するための試験のようにブラインドをかけるのが難しい臨床試験では、被験者がどちらの群に属するのか知らない第三者が評価項目の評価を行う試験方法が考案されています。 それをPROBE法(Prospective Randomized Open Blinded-Endpoint design)による臨床試験またはPROBE試験(前向き無作為オープン結果遮蔽試験)といいます。 これは評価者だけにブラインドをかける一重盲検法による臨床試験に相当します。

(4) フィッシャーの3原則

研究から得られたデータを統計学的に解析するためには、研究計画の段階から解析に用いる統計手法を検討しておく必要があります。 そこでフィッシャー(Rinald Aylmer Fisher)は推測統計学の原理に基づいて合理的に研究計画を組み立てる一連の手法を開発し、実験計画法(experimental design)と名付けました。 実験計画法を詳しく説明するのは大変なので、その中心的概念であるフィッシャーの3原則についてだけ簡単に説明しましょう。

フィッシャーの3原則は次のようなものです。

  1. 繰り返し(repetition):データを繰り返し測定することにより誤差を推定して結果を評価し、精度(clarity)を高くする
  2. 無作為化(randomization):無作為化により制御不可能な系統誤差(systematic error)つまり偏り(bias)を偶然誤差(random error)に転化し、比較可能性(comparability)を上げる
  3. 局所管理(local control):層別(stratification)により制御可能な偏りを誤差から分離し、一般化可能性(generalizability)を保証する

この3原則に基づいて研究デザインを組み立てる原理を説明するために、喫煙の有無などの原因項目をxで表し、肺癌の有無などの結果項目をyで表し、xがyに変換されるメカニズムを関数φ(x)で表して次のようなモデルを考えます。

確率的モデル(probabillistic model) Ω:y = φ(x) + ε
x:原因変数  y:結果変数  φ(x):変換関数、決定論的な確定過程(必然性)   ε:誤差、確率論的な偶然的過程(偶然性)
※y = φ(x):決定論的モデル(deterministic model)

1) xの効果のみのモデル

最も単純なモデルはyに影響を及ぼすものとしてxの効果αだけがある時、または他の効果はとりあえず不明として誤差εに含めたモデルです。 このモデルでαを精度良く推定するには、xとyを繰り返し測定する必要があります。 そのためこれはフィッシャーの3原則の「1.繰り返し」に対応します。

Ω1:y = φ(x) + ε = α + ε
S/N比:t = α ε

2) xの効果以外に共通的効果があるモデル

xの効果α以外に、被検者全体に共通する季節変動等の共通的効果γがあるモデルです。 このモデルでαを精度良く推定するには、α=0とした同時対照(concurrent control)を置いて両者を比較し、αとγを分離する必要があります。 そのために被検者を無作為に2群に分け、一方の群は例えば喫煙させてα≠0となるようにし、他方の群は禁煙させずにα=0となるようにします。 これを単純無作為化または単純無作為割付けといいます。 これはフィッシャーの3原則の「2.無作為化」に対応し、比較可能性を上げるための方策です。

無作為化比較対照試験(RCT)はたいていこのデザインを用います。 そしてこのデザインの試験から得られたデータを解析するための手法が一元配置分散分析(one-way layout analysis of variance)です。 (→4.1 多標本の計量値 (1)データに対応がない場合 1)一元配置分散分析)

薬剤の効果を調べる時は同時対照群にプラセボを投与したり、基準薬を投与したりします。 この時、プラセボ効果はγに含まれますが、基準薬を投与した時はその効果が発生します。 そこで一般には同時対照群には効果βが発生すると仮定します。

Ω2 A群(試験群):yA = φ(xA) + εA = α + γA + εA   B群(同時対照群):yB = φ(xB) + εB = β + γB + εB
S/N比:t = α-β ε
ε:εAとεBから合成した誤差推定値   無作為化によりA群とB群は均等な群になりγAB ≒ 0になる
※同時対照群を置かず、先行研究等の結果を既存対照(historic contorl)にしてγを推定するモデル
Ω2':y = φ(x) + ε = α + γ + ε
S/N比:t = (α+γ)-γ ε
γ:γの推定値

3) xの効果以外に系統的な偏りがあるモデル

xの効果α以外に被検者全体に共通する季節変動等の共通的効果γと、例えば性差のように被検者によって大きさが異なる系統的な偏り、つまり臨床試験の交絡因子に相当する偏りδがあるモデルです。 このモデルでαを精度良く推定するには、δの値で層別した上でα=0とした同時対照を置いて両者を比較する必要があります。

例えば系統的な偏りが性差の場合、被検者を男女別に無作為に2群に分け、一方の群はα≠0となるようにし、他方の群はα=0となるようにします。 これを層別無作為化または層別無作為割付けといい、フィッシャーの3原則の「3.局所管理」と「2.無作為化」に対応します。 この場合、男女別に層別したことによって結果のより詳細な一般化が可能になり、一般化可能性が高くなります。 そしてこのデザインの試験から得られたデータを解析するための手法が二元配置分散分析(two-way layout analysis of variance)です。 (→4.1 多標本の計量値 (2)データに対応がある場合 1)二元配置分散分析)

Ω3 男性層−A群(試験群):yMA = φ(xMA) + εMA = αM + γM + δM + εMA   B群(同時対照群):yMB = φ(xMB) + εMB = βM + γM + δM + εMB
   女性層−A群(試験群):yFA = φ(xFA) + εFA = αF + γF + δF + εFA   B群(同時対照群):yFB = φ(xFB) + εFB = βF + γF + δF + εFB
男性層S/N比:t = M α - β M M ε M
女性層S/N比:t = F α - β F F ε F
εM:εMAとεMBから合成した男性層の誤差推定値   εF:εFAとεFBから合成した女性層の誤差推定値
※(αMM)と(αFF)が似ている時は男女をプールして(α-β)とし、εMA、εMB、εFA、εFBから合成した誤差推定値をεとしてS/N比を求める。
※(αMM)と(αFF)が似ていない時はxと性の間に交互作用(effect modification)があるといい、男女をプールできない。

モデルΩ2の単純無作為化試験において、試験終了後に男女で層別して層別解析を行うことがよくあります。 これを後層別といい、一見すると層別無作為化と同じように見えます。 しかし後層別では試験群と同時対照群が均等になる保証はありません。 また男女の例数が極端に違っていて、女性層では2群の比較ができないなどということも起こり得ます。 そのため二元配置分散分析や層別解析を行いたい時は原則として層別無作為化を行う必要があります。 (→8.3 共分散分析と層別解析)

4) フィッシャーの3原則と無作為抽出

ここで注意していただきたいことは、実験計画法は推測統計学の原理に基づいているのでフィッシャーの3原則は無作為抽出を前提にしているということです。 標本集団のデータに基づいて母集団の様子を確率的に推測する、つまり標本集団の結果を母集団に一般化するためには標本集団は母集団から無作為抽出されたものでなければなりません。

そして性別が結果に影響を及ぼすとしたら、母集団から標本集団を単純に無作為抽出すると標本集団の男女比が偏ってしまい、結果が偏ってしまうことが有り得ます。 そこで母集団を男女に層別し、男女別に標本集団を無作為抽出すれば標本集団の男女比が偏ることなく、男女別でも全体でも標本集団の結果を母集団に一般化することができます。 これがフィッシャーの3原則の「3.局所管理」であり、これによって一般化可能性を上げることができます。

例えばアンケート調査などでは層化抽出法(stratified sampling)という抽出法を用いて標本集団を抽出します。 これはアンケート対象になる母集団を調査結果に強く影響すると考えられる要因で層別し、層ごとに被験者を無作為抽出する層別無作為抽出法です。

ところが医学分野の臨床試験や臨床研究では研究対象にする母集団から標本集団を無作為抽出することはほとんど不可能です。 そこで第1章で説明したように、たまたま集められた標本集団の背景因子から母集団を逆規定し、その仮想的な母集団つまり準母集団を対象にして標本集団の結果を一般化します。 (→1.2 推計学とは何ぞや? (2)無作為抽出と準母集団)

そのため臨床試験や臨床研究では、たとえフィッシャーの3原則に従っても無作為抽出を前提にした厳密な一般化可能性はほとんど保証できません。 しかし例数を増やすことによって精度を高くすることは可能であり、無作為割付けによって比較可能性を上げることも可能です。

(5) ITT解析とPC解析

統計手法は試験デザインと密接に結びついていて、試験が試験計画書(プロコトール、protpcol)通りに実施されたという前提でデータに適用します。 ところが実際の試験、特にヒトを対象とする臨床試験は計画書通りに実施されることはほとんどなく、普通は中止・脱落等のプロトコール違反症例が発生します。 特に薬剤を用いる臨床試験では薬剤の副作用や疾患の悪化・改善による中止・脱落症例が発生するのは宿命的なものといえるでしょう。

そのためプロトコール違反症例をどのように扱えば良いかについて色々と議論されています。 しかし統計手法がプロトコール違反症例はないという前提で組み立てられている以上、理論的に正しい扱いというものはなく、何を重視するかという観点で次善の策を検討することになります。 そして何を重視するかということは研究目的によって様々なので、どんな場合でも適用できる万能の対応策はなく、試験ごとに個別に検討して対応するしかありません。 ただし現在の臨床試験分野では一応の原則的な指針が提唱されているので、それを紹介しましょう。

1) ITT解析

ITT(Intent To Treat または Intention To Treat)解析つまり治療を意図した(割り付けに基づいた)解析は、どんなプロトコール違反症例も最初に意図した通り(割り付けられた通り)に解析されるべきであるという少々乱暴な解析方法です。 例えばブラセボを割り付けられた被験者がプラセボを全く服用していなくても、またはブラセボを1週間だけ服用して効果がなかったので、その後は別の治療法に切れ替えられていても、解析に必要なデータが得られていれば全てプラセボ投与群に含めて解析するのです。 また被験者が試験の対象疾患ではなくても、やはり割り付けられた群の症例として解析します。

この解析方法は厳密さには欠けるものの、通常の治療現場では治療法の切り替えなどはしばしば起こり得るので解析結果の一般化可能性が高くなります。 またプラセボ群は重症例の悪化脱落――疾患の悪化によって被験者が試験から脱落すること――が起こりやすいのに対して、実薬群は軽症例の改善脱落――疾患の改善によって被験者が試験から脱落すること――が起こりやすいと考えられます。 そのため脱落例を除外して解析するとプラセボ群の改善率が高い方に偏り、実薬群の改善率が低い方に偏ると同時に、脱落例の偏りによって2群の症例の背景因子が均等ではなくなる可能性があります。 ITT解析はこういった背景因子の偏りを減らすことができます。

しかしプラセボの効果がなかったので別の治療法に切り替えられた被験者をプラセボ群に含めて解析すると、プラセボ群の改善率は高い方に偏り、実薬群との改善率の差は実際よりも小さくなります。 そのためITT解析はプラセボと実薬の効果が同等であることを検討する試験には向いていません。 例えば新薬の有効性と安全性を検討するための臨床試験では、有効性(または安全性)は標準薬よりも優れていて、安全性(または有効性)は標準薬と同等であることを検討することがよくあります。 その場合、新薬が標準薬よりも優れていることを検討するためにITT解析を用いるのはかまいませんが、同等性を検討するためにITT解析を用いるのは不適切です。

また試験の対象疾患外の症例や、割り付けられた薬剤を全く服用していない未投与例を含めて解析すると結果の精度が悪くなる可能性があります。 そのため対象疾患外症例や未投与例のように、明らかに結果の精度を悪くする症例は解析から除外した方が良いという考え方があります。 そこで提唱されたのがFAS(Full Analysis Set)つまり最大の解析対象集団です。 FASはITT解析対象集団から対象疾患外症例と未投与例等を除外した集団であり、それらの症例がなければITT解析対象集団と一致します。 実際の臨床試験ではFASとITT解析対象集団はほぼ一致するので、両者をひっくるめてFAS-ITT解析と呼ぶこともあります。

2) PC解析

PC(Protocol Compatible)解析つまりプロトコールに適合した解析は、プロトコールに適合した症例集団つまりPPS(Per Protocol Set)を対象にした解析方法です。 PPSはFASから中止・脱落症例や、プロトコールで規定された通りに薬剤を服用していない症例や、規定された通りにデータが観測されていない症例を除外した集団であり、それらの症例がなければFASと一致します。 この解析方法はITT解析と反対の特徴を持っていて、一般化可能性は低いものの厳密で精度が高くなります。 そしてFAS-ITT解析と対応させて、PC解析のことをPPS-PC解析と呼ぶこともあります。

ITT、FAS、PPSの関係を模式的に表すと図1.9.2のようになります。 動物実験はITT=FAS=PPSであり、臨床試験や臨床研究でもそれが理想です。 しかし実際の臨床試験や臨床研究はどうしてもITT≠FAS≠PPSになりがちです。 そこで現在の臨床分野では同等性を検討するための解析以外は原則としてFAS-ITT解析を行い、必要に応じてPPS-PC解析も行って、両者の結果を比較検討する感度分析(sensitivity analysis)を実施するというのが一応の指針になっています。

図1.9.2 PPS・FAS・ITTの関係

また無作為化比較対照試験(RCT)の論文を作成するための統一規定としてCONSORT(CONsolidated Standards Of Reporting Trials group)声明というものが発表されていて、その中で被験者集団を図1.9.3のような模式図(flow diagram)で図示することが推奨されています。 この模式図の[薬剤P (n=○○)]と[薬剤A (n=○○)]以下がほぼITTに相当し、[投与例 (n=○○)]以下がほぼFASに相当し、[投与完了例 (n=○○)]がほぼPPSに相当します。

図1.9.3 被験者集団の内訳

なおFAS-ITT解析もPPS-PC解析も、原則として解析に必要なデータが得られている症例だけを解析対象にします。 そのため投与開始時のデータだけが得られていて、その後のデータが得られていない症例は解析から除外します。 しかしこの原則を無視し、薬剤の改善率や副作用発生率を計算する時の分母にそのような症例も入れて解析することがたまにあります。 これはそのような症例を「非改善」または「副作用無」扱いして解析することであり、改善率と副作用発生率を低い方に偏らせるので合理的ではありません。

また新薬の効果を評価するための臨床試験で有効性についてはPC解析を行い、安全性についてはITT解析を行うことがたまにあります。 これは有効率を実際よりも高い方に偏らせ、副作用発生率を実際よりも低い方に偏らせるのでやはり合理的ではありません。 副作用は発生率が非常に小さいので、現実問題として新薬と標準薬の差を検討するよりも同等性を検討する方が多いと思います。 そのため安全性の検討にITT解析を用いるのは製薬企業の試験担当者がITT解析の特徴を理解していないか、それとも副作用発生率を低い方に偏らせ、新薬と標準薬の副作用発生率の差を小さく見せるための策略かもしれないので注意した方が良いでしょう。


(注1) ここで説明した研究方法は基本的なものであり、これらを組み合わせた複合研究(hybrid study)もあります。 その代表的なものとして次のような研究方法があります。

1.コホート内症例対照研究(nested case-control study)

大規模なコホート研究の中で疾患を発症した人の中から症例群を選び、疾患を発症しなかった人の中から対照群を選んだ症例対照研究です。 観測時期などの背景因子を症例群と対照群で合わせることが比較的容易なので、偏りの入らない比較を行うことができます。 また研究開始時に対象者の血液を冷凍保存しておき、必要なものだけ検査することができるので検査に費用がかかる研究に適しています。

2.コホート内症例コホート研究(nested case-cohort study)

単に症例コホート研究またはケースコホート研究と呼ばれることもある方法であり、コホート内症例対照研究と同様に大規模なコホート研究の中で疾患を発症した人の中から症例群を選びます。 しかしコホート内症例対照研究と違って対照群は研究開始時の全ての対象者から無作為に選択します。 そのため対照群には後に疾患を発症する人も含まれます。 この研究は症例対象研究の対照群を特定する簡単な方法であり、危険因子に関する様々な情報を提供することができます。

このデザインでは原因と結果の2×2分割表において後ろ向き研究と同様に症例群である結果有の例数(b+d)と対照群の例数を指定します。 しかし対照群は結果無ではなく全コホートと同じ結果無+有になるので、その例数は(a+c)ではなくなります。 仮に症例群として疾患を発症した全ての人を選択し、対照群として全コホートを選択すると原因と結果の2×2分割表は次のようになります。

表1.9.11 コホート内症例コホート研究の2×2分割表
 疾患  計  
無+有(全体)  有  
危険因子(a+b)b(a+b)+b
(c+d)d(c+d)+d
N(b+d)N+(b+d)
疾患有(症例群)の危険因子オッズ:
疾患無+有(対照群)の危険因子オッズ:
オッズ比:

このように、このデザインで得られたデータから計算したオッズ比は稀な疾患ではなくてもリスク比と一致します。 その代わり症例群と対照群が独立の群ではなくなるのでオッズ比の検定や関連性の検定を適用することはできません。

実際には症例群は疾患を発症した全ての人から無作為に選択し、対照群も全コホートから無作為に選択する場合がほとんどです。 しかしそれらの群の危険因子オッズが全疾患群と全コホートの近似値ならば、稀な疾患ではなくてもオッズ比をリスク比の近似値と考えることができます。

表1.9.12 コホート内症例コホート研究の2×2分割表例
 疾患  計  
  無+有    有  
危険因子402060
103040
5050100
疾患有(症例群)の危険因子オッズ:
疾患無+有(対照群)の危険因子オッズ:
オッズ比:

こういった複合研究は大規模なコホート研究の進行中に小規模な探索型研究を行う時や、費用などの関係で全コホートを対象にした解析を行うことが難しい時に行われる、いわば行きがけの駄賃的なものです。 全コホートを対象にした本来の研究を行うことができれば、それに越したことはありません。