玄関雑学の部屋雑学コーナー統計学入門

1.8 科学的研究の種類

(1) 仮説演繹法

そもそも科学的研究というものは、一見したところ多種多様な現象から、その奥底に潜む普遍的な原理を帰納的に推理・洞察し、その原理に基いて色々な現象を統一的に説明できそうな理論を組み立て、その理論から演繹的に導かれる現象を予測して仮説を設定し、実験や観測によってその仮説を検証または修正しながら理論を確立していく作業です。 これを仮説演繹法(hypothetico-deductive method)といいます。 この仮説演繹法の作業手順を文化人類学者の川喜田二郎博士が考案したW型解決法にあてはめると、下図のように模式化することができます。

図1.8.1 W型解決法の応用による仮説演繹法の手順

模式図の中の書斎科学というのは問題提起、仮説や理論の構築、実験結果の科学的評価など主として頭の中で行う作業だけで成立する科学のことです。 これには数学や理論物理学などが属します。 野外科学というのは、実験を行うことができないので現場の調査や観測が中心になる科学のことです。 これには社会科学の多くが属します。 実験科学というのは実験や試験を中心にした科学のことです。 これには化学や実験物理学などが属し、単に「科学」といえばこの実験科学を思い浮かべる人が多いと思います。

模式図に示したように仮説演繹法はこの3種類の科学をW字型に組み合わせた手順で行い、理論を確立していきます。

  1. 問題提起
    問題を提起して研究テーマを明確にする。
    科学的研究の最も重要な段階であり、研究テーマをミッションステートメント風に短い文章で表していつも意識しておく。
    臨床研究の場合、問題提起はCQ(Clinical Question、臨床的疑問)から始まることが多い。
  2. 調査・観測
    調査・観測等の探索型研究を企画・立案・実施し、結果を科学的に解釈し評価する。
    探索型研究は研究テーマに関する仮説を設定するための材料を集めることが主目的であり、スクリーニングや予備実験がこれに相当する。 ただし探索型研究の計画を立案する段階で、ある程度の理論と定性的な仮説を想定しておく。 そして検証型研究で用いる評価項目や評価指標(要約値または代表値)を選択するために、なるべく多くの候補項目を観測するようにする。
    データを要約するには記述統計学的手法を用いる。
    この段階で得られる客観的事実は主として定性的であり、それを科学的に解釈し評価する。
    臨床研究の場合、CQを元にしてRQ(Research Question、解明したい疑問)を明確にし、PICO(ピコ)・PECO(ペコ)に基づいて研究計画を立案する。 調査・観測は主としてPECOになる。
    PPatients・Population・Problem対象誰に対して?
    I/EIntervation/Exposure介入/原因(暴露)何をすると?/何によって?
    CComparison比較何と比較して?
    OOutcome結果(帰結)どうなるか?
  3. 理論構築・仮説設定
    探索型研究で得られた結果に基づいて科学的な理論やモデルを組み立て、それから導かれる定量的な仮説を設定する。
    仮説は理論やモデルの正当性や妥当性を評価することができるようなものにする。
  4. 実験・試験
    実験・試験等の検証型研究を企画・立案・実施し、結果を科学的に解釈し評価する。
    検証型研究は仮説を検証し、理論の正当性や妥当性を評価することが主目的であり、確認試験や本実験がこれに相当する。 検証型研究の計画を立案する段階で仮説を検証するための評価項目や評価指標、統計手法、有意水準、信頼係数等を決定し、必要例数を求めておく。
    データを要約するには推測統計学的手法を用いる。
    この段階で得られる客観的的事実は主として定量的であり、それを科学的に解釈し評価する。
    臨床試験は主としてPICOに基づいて研究計画を立案するが、臨床研究の場合はPECOに基づいて研究計画を立案することもある。 そしてFINER(ファイナー)チェックによって研究計画を最終確認する。
    FFeasible実現可能か?
    IInteresting科学的関心(学術的価値)は高いか?
    NNobel新規性はあるか?
    EEthical倫理性に配慮されているか?
    RRelevant社会的必要性があるか?
  5. 理論・仮説の確認・修正
    検証型研究で得られた結果に基づいて仮説を確認または修正し、科学的な理論を確認または修正する。
    これにより新たな問題提起や理論の修正などをして、適当な研究段階にフィードバックする。

W型解決法は科学研究だけでなく色々な方面に応用することができます。 例えばこれを仕事に応用するとPDCA(Plan・Do・Check・Action)などのマネジメント・サイクルを詳細化したものになり、それにマクレガーのY理論を組み合わせたものが近代的な業務管理手法の代表的なものである──なんてぇことには興味が全く持てなくなりました。 組織論なんてクソくらえっ!凸(-"-) > 会社時代の僕

……つい私情に走ってしまい、失礼しました。 模式図に示したように、科学的研究における統計学の役目はデータの数学的な要約をすることです。 その際、W型の左側にある調査や観察で得られたデータには主に記述統計学を適用し、右側にある実験や試験で得られたデータには主に推測統計学を適用します。

統計学盲信と検定偏重主義の風潮から、研究現場では往々にして何でもかんでも検定をし、検定をしていないと文句をつけられるというおかしな傾向があります。 これは実際の研究では、往々にしてひとつの試験で探索型研究と検証型研究の両方を同時に行ってしまうことに起因しているようです。 特に医学分野や薬学分野の研究では試験を実施するのに多くの手間と膨大な費用がかかるので、ひとつの試験に検証的なテーマと探索的なテーマの両方を盛り込むことが多くなりがちです。 つまり行きがけの駄賃に調べられるものは何でもかんでも調べてやろう、そしてせっかく調べたのだから検定ぐらいはやっておかないと格好がつかない……というわけです。

検定は標本集団のデータから母集団の様子を推測して、仮説を検証するための手法です。 仮説を設定しない検定には何の意味もなく、厳密に計画された試験でなければ検定を正しく適用することはできません。 厳密に計画されていない試験に検定を適用すると、間違った結論を導いてしまう危険性さえあります。

統計学の基本を表す言葉としてGIGO(Garbage In Garbage Out、ガイゴウ)つまり「ゴミを入れればゴミが出る!」というものがあります。 いい加減に計画された試験からは、いい加減な結果しか得られません。 そこらへんに落ちていた木切れと石コロ——いい加減なデータ——を適当に拾い集めて、「これで3階建ての立派なマンション——信頼できる結果——を建ててくれ!」と統計学者に頼んでも、それはどだい無理な注文です。

そのため明確な仮説を設定せず、厳密な計画を立てない探索型の調査や観測には、本来は検定を適用する必要はありません。 そして探索型研究と検証型研究を兼ねた試験では、きちんと仮説を設定した検証的なテーマには検定を適用してもかまいませんが、行きがけの駄賃で調べた探索的なテーマにまで検定を適用する必要はありませんし、無闇に適用すべきではありません。

もちろん探索型の調査や観測も、それなりにきちんとした計画を立てて実施します。 しかしこれらの研究の主目的は仮説や理論を組み立てるためのデータを集めることなので、あまり厳密な計画を立てず、臨機応変に計画を変更して、できるだけ幅広くデータを集めるようにします。

それに対して検証型の試験や実験は仮説を検証するのに必要な条件を満足するように実験計画法に基づいて厳密に計画し、それに従ってできるだけ厳格に実施します。 例えば探索型の調査や観測は、原則としてどのような例数を目標にして実施してもかまいません。 しかし検証型の試験や実験は仮説を検証するのに必要な例数を数学的に算出し、それだけの例数を確保できるような計画を立ててから実施する必要があります。 (注1)

(2) W型解決法と予測式の作成・検証

医学分野や薬学分野では、多変量解析などを利用して、ある値を推測するための予測式や、ある疾患の診断を行う診断ツールを作成することがあります。 その場合、W型解決法にしたがって、まず探索型試験で集めたデータに基づいて予測式を組み立てます。 次に予測式の妥当性を検証できるようなデータ内容を検討し、そのデータを必要な例数だけ集めるための計画を立てます。 そして計画に基づいて検証型試験を実施し、集めたデータに予測式を適用して妥当性を評価・検証します。

図1.8.2 予測式の作成用データと検証用データ

ところがこれらの手順を一回の試験で済ませてしまうことがよくあります。 その場合、探索型研究で集めたデータを無作為に2つの群に分け、一方の群を予測式作成用データ(training data, derivation data, discovery data)にし、もう一方の群を予測式検証用データ(validation data)にします。 そして作成用データに基づいて予測式を作成し、それを検証用データに適用して妥当性を評価・検証してしまうのです。

この方法は見かけ上はW型解決法に従っているので、もっともらしい方法のように思えます。 しかしこの方法には致命的な欠点があります。 それは検証用のデータが必ずしも予測式の妥当性を評価・検証するような内容ではなく、しかも検証に必要な例数が確保できる保証もないということです。

例えば予測式を作成した段階で年齢が重要な要因らしいということがわかれば、検証用のデータは年齢層が偏らないようにできるだけ満遍なく、しかもできるだけ幅広く集めるようにします。 すなわち図1.8.2において黒い実線で描いた楕円が予測式作成用データの範囲だとすれば、検証用データは赤い破線で描いた楕円の範囲をカバーする必要があるのです。 そして検証に必要な例数を確保する必要があります。

ところがこの方法の検証用データの年齢層は予測式作成用データとほぼ同じであり、黒い楕円の範囲より外には出ないはずですし、検証に必要な例数を確保できる保証はありません。 これでは作成した予測式が幅広い年齢層に適用可能かどうか検証することはできません。 つまりこの方法では作成した予測式が外挿可能かどうか、普遍性があるかどうかを評価・検証することはできないのです。

この方法の検証用データに予測式を適用して結果が予想通りだった時は、予測式の妥当性を検証したわけではなく、単にデータをうまく均等な2つの群に分けたことを確認したにすぎません。 2つの群のデータ内容がほぼ同じなら、一方で作成した予測式がもう一方にもほぼ適用可能なはずです。 そしてその予測式は、結局のところ2群を合わせて全データを使用して作成した予測式とほぼ一致するはずです。 これでは予測式の検証になるはずがありません

実は、この方法をもう少し洗練した手法が交差検証法(cross validation method)として定式化されています。 しかしこの手法は予測式がどの程度的中するかという確率を求めるためのものであり、予測式の外挿可能性や普遍性を検証するためのものではありません。 (注2)

これらの手法は、ちょうどコップの中で嵐を起こしているようなものです。 つまりどんなにものすごい嵐でも、それがコップの外の世界にまで影響することはないのです。 探索型研究で集めたデータを用いる限り、どのような方法で予測式の妥当性を評価しても、その予測式がデータの範囲外まで外挿可能であり、普遍性があることを検証することはできません。 検証用のデータは、あくまでも予測式の妥当性を評価・検証できるように計画的に集めたものでなければなりません。

(3) 科学的研究の種類

科学的研究法の種類については各種の定義があり、色々な分類をされています。 一般的な科学研究の種類を統計学との関連で分類すると次のようになります。

1) 調査(survey)

研究者が直接的な介入を行わず、全ての要因を管理せずにそのまま観測したもの。 実験または試験を行うための予備的な研究に用いられることが多く、スクリーニング調査、アンケート調査などが代表的です。 探索的であり、主に記述統計学を適用します。

2) 試験(trial)

研究者が直接的に介入し、研究目的に影響を及ぼすと考えられる主要な要因を管理して観測したもの。 予備的な研究にも本格的な研究にも用いられ、臨床試験などが代表的です。 半探索的・半検証的であり、研究目的の要因の解析には推測統計学を適用し、その他の要因の解析には記述統計学を適用します。

3) 実験(experiment)

研究者が直接的に介入し、全ての要因を管理して観測したもの。 本格的な研究に用いられることが多く、化学実験、動物実験などが代表的です。 検証的であり、主に推測統計学を適用します。


(注1) 第6節で説明したように、仮説を検証するのに必要な例数は統計的仮説検定または区間推定の原理に基づいて計算します。 その計算方法は検定または区間推定の種類によって色々あり、次のようなものがよく用いられます。

1.計量尺度・1標本の場合

(1) 1標本の平均値の検定

1標本t検定の原理を応用した次のような計算式を用います。 これは第6節で説明したお座敷(式)そのものです。 (→3.1 1標本の計量値3.3 2標本の計量値)


n:例数  α:有意水準  β:第2種のエラー  (1-β):検出力   σ:母標準偏差  δ:検出差
t(∞,α):正規分布における100α%点  t(∞,2β):正規分布における100×2β%点
nc:母標準偏差が未知の時の補正値(1または2)
正確な値:
α = 0.05の時、t(∞,α) = 1.96 ≒ 2より
(n ≫ 0の時、1/n ≒ 0になって無視できるため)

有意水準と検出力は研究者が任意に設定し、検出差と母標準偏差は科学的知見または探索型研究で求めた推定値を代入します。 1標本t検定の場合、検出差は母平均推定値と基準値との差になり、対応のあるt検定の場合、検出差は対応のある2標本の差の平均値になります。 有意水準を5%、検出力を80%、検出差を5、母標準偏差推定値を10として実際に計算すると次のようになります。

t(∞,0.05) = 1.96  t(∞,0.4) = 0.841   

2.計量尺度・2標本の場合

(1) 2標本の平均値の差の検定

2標本t検定の原理を応用した次のような計算式を用います。 (→3.3 2標本の計量値)

     n = n1 + n2
n1、n2:群1と群2の例数   s:n1とn2の比  n:総例数
n1c:母標準偏差が未知の時の補正値(1または2)
正確な値:
α = 0.05の時: (n ≫ 0の時、1/n ≒ 0になって無視できるため)

有意水準を5%、検出力を80%、検出差を10、母標準偏差推定値を10、群1の例数と群2の例数の比を1として実際に計算すると次のようになります。


n2 = 17  n = 34

2標本の場合、一方の群の平均値を基準値にします。 そして2群の平均値が離れると、2群の総平均値を中心にして2群の平均値が反対方向にほぼ同じ距離だけ離れます。 そのため2標本の検出差は1標本の検出差のほぼ2倍に相当します。 そこでこの例では検出差を1標本の検出差の2倍にしました。 すると2群合計必要例数は1標本の必要例数とほぼ同じになります。

ちなみに同じ条件で群1の例数と群2の例数比を2として計算すると次のようになります。


n2 = 26  n = 39

この計算結果と必要例数の計算式からわかるように、総例数は群1の例数と群2の例数比が1つまり同じ例数の時に最小になります。 これは2標本t検定の原理からきています。

2標本t検定の検定統計量:
n = (n1 + n2)が同じならn/(n1n2)はn1 = n2の時最小 → toが最大つまり検定効率が最大
n1 = n2の時の例数をn0とし、n/(n1n2)を一定にして2群の例数比s = n2/n1を変えると


s = 2の時: ← 補正値n1cがあるので、実際の倍率はこの値とわずかに異なる

以上のように、群1と群2の例数比が2の時の総例数は例数比が1の時の1.125倍程度になります。 したがって群1と群2のデータを集める労力が同じなら、2群の例数をできるだけ同じにすると効率が良くなります。 しかし例えば群1が疾患群、群2が健常群で、健常群のデータよりも疾患群のデータを集める労力の方が大きい時は疾患群の例数はどうしても少なくなりがちです。 そのような時は総例数を多くするために健常群の例数を多くする必要があります。

ただし疾患群の例数があまりにも少ないと偏った群になる可能性が高くなり、母集団から満遍なく無作為抽出した標本集団と見なしにくくなります。 例えば疾患群がたった3例しか集められず、それらがたまたま男性ばかりだったとすると、「その疾患は男性しか罹患しない」あるいは「性がその疾患のリスクファクターである」という誤った結論を導いてしまう危険性があります。

そのため必要例数の計算式から理論的に求められる例数とは別に、現実的な必要最低限の例数が存在します。 臨床試験の場合、結果の信頼性をある程度高くするためには少なくとも1群10例以上は必要でしょう。

3.名義尺度・1標本の場合

(1) 1標本の出現率の検定

二項検定の正規近似検定の原理を応用した、次のような計算式を用います。 (→3.2 1標本の計数値 (2)名義尺度)


π1:ある事象の母出現率  π0:理論出現率

特にπ0=0.5、つまり符号検定とその正規近似手法であるマクネマーの検定では次のようになります。


π+、π-:+(有)と−(無)の母出現率

有無の母出現率は科学的知見または探索型研究で求めた推定値を代入します。 有意水準を5%、検出力を80%、有の母出現率を0.6、理論出現率を0.5つまり符号検定として実際に計算すると次のようになります。

ちなみにα=β=δ*=0.2つまり有意水準を20%、検出力を80%、有の母出現率を0.7、理論出現率を0.5にすると、次のように実施できそうな例数になります。

4.名義尺度・2標本の場合

(1) 2標本の出現率の差の検定

出現率の差(リスク差)に関する正規近似検定の原理を応用した、次のような計算式を用います。 (→3.4 2標本の計数値 (2)名義尺度)


 または

 または

π1、π2:群1と群2の母出現率      

有意水準を5%、検出力を80%、群1の母出現率を0.6、群2の母出現率を0.4、群1の例数と群2の例数の比を1として実際に計算すると次のようになります。


  n2 = 97  n = 194
 または
  n2 = 95  n = 190
 または
  n2 = 98  n = 196

2群の出現率の差を1標本の検出差の2倍にしてあるのは計量尺度の場合と同じ理由です。 すると、やはり2群合計必要例数は1標本の必要例数とほぼ同じになります。 ちなみにα=β=δ*=0.2つまり有意水準を20%、検出力を80%、群1の母出現率を0.7、群2の母出現率を0.3、群1の例数と群2の例数の比を1にすると、次のように実施できそうな例数になります。


  n2 = 14  n = 28
(2) リスク比の検定

リスク比に関するχ2検定の原理を応用した、次のような計算式を用います。 (→3.4 2標本の計数値 (2)名義尺度)


π1、π2:群1と群2の母出現率   :リスク比   

有意水準を5%、検出力を80%、群1の母出現率を0.6、群2の母出現率を0.4、群1の例数と群2の例数の比を1として実際に計算すると次のようになります。


  n2 = 104  n = 208
(3) オッズ比の検定

オッズ比に関するχ2検定の原理を応用した、次のような計算式を用います。 (→3.4 2標本の計数値 (2)名義尺度)


π1、π2:群1と群2の母出現率   :オッズ比   

有意水準を5%、検出力を80%、群1の母出現率を0.6、群2の母出現率を0.4、群1の例数と群2の例数の比を1として実際に計算すると次のようになります。


  n2 = 100  n = 200

5.名義尺度・対応のある2標本の場合

(1) 変化パータンの出現率の検定

データが名義尺度で対応のある2標本とは、例えば薬剤投与前後で尿蛋白の定性試験を実施し、結果を正常・異常で判定したデータなどが相当します。 その結果を2×2の分割表にまとめると次のようになります。

表1.8.1 投与前後の尿蛋白の判定
投与前\投与後正常異常
正常(1-π1)(1-π2)(1-π12(1-π1)
異常π1(1-π2)π1π2π1
(1-π2)π21
π1:投与前の判定が異常になる確率  π2:投与後の判定が異常になる確率

この時、もし投与前と投与後で異常率が変わらなければπ12になり、正常→異常に変化する確率(1-π12と、異常→正常に変化する確率π1(1-π2)は等しくなるはずです。 そこで正常→異常と変化した症例と異常→正常と変化した症例だけを対象にして、これらの出現率がどちらも50%であるかどうかを符号検定によって検定することができます。

この時の必要例数の計算は、符号検定の正規近似手法であるマクネマーの検定の原理を応用して行います。 (→3.2 1標本の計数値 (2)名義尺度3.4 2標本の計数値 (2)名義尺度)

N:全体の例数
n = N{(1 - π12 + π1(1 - π2)} = N(π1 + π2 - 2π1π2):「正常→異常の例数」+「異常→正常の例数」 ← 検定の対象例数
「正常→異常」と「異常→正常」の出現率の差:(1 - π12 - π1(1 - π2) = π2 - π1
nを検定対象とした時の「正常→異常」と「異常→正常」の出現率の差:
nを検定対象とした時の「正常→異常」の出現率:
nを検定対象とした時の「異常→正常」の出現率:
このπ+とπ-を用いた時の符号検定の必要例数の計算式:
全体の必要例数:

有意水準を5%、検出力を80%、投与前の母異常出現率を0.6、投与後の母異常出現率を0.5として実際に計算すると次のようになります。

  π+ = 0.5 + 0.1 = 0.6  π- = 0.5 - 0. 1 =0.4
  

この場合、次表のように投与前と投与後のデータを対応のない2標本扱いし、π1とπ2を直接比較する出現率の検定を行うこともできます。 ただし対応のない2標本のデータはお互いに独立であり、関連性はありません。 しかし投与前後のデータには関連性があるので、出現率の検定を行うには関連性を考慮した計算式を用いる必要があります。

表1.8.2 投与前後別尿蛋白の判定
時期\判定正常異常
投与前(1 - π1)π11
投与後(1 - π2)π21
(1 - π1) + (1 - π2)π1 + π22

仮に関連性がないと仮定し、有意水準を5%、検出力を80%、投与前の母異常出現率を0.6、投与後の母異常出現率を0.5としてこの時の必要例数を計算すると、たまたま同じ388例になります。 符号検定はnを検定対象にするので例数が少なくなる代わりに検出差πdが拡大されます。 そのためたいていの場合は対応のない2標本扱した時よりも必要例数が少なくなりますが、条件によっては多くなる時もあります。

ただし対応のない2標本扱いすると、投与前の「正常」または「異常」の症例が投与後にどのように変化したかはわかりません。 そのため投与前後の変化の様子を分析したい時は対応のある2標本扱いする必要があります。 (→3.4 2標本の計数値 (2)名義尺度)

6.順序尺度・1標本の場合

(1) 符号付き順位平均値の検定

ウィルコクソンの符号付き順位検定の原理を応用した、次のような計算式を用います。 (→3.4 2標本の計数値 (1)順序尺度)

  

n + 1 ≒ n、(2n + 1) ≒ 2nと近似すると:
Ts=T+ - T-:符号付き順位和   rs=Ts/n:符号付き順位平均値   n:正群と負群の合計例数  K:同位の補正
同位がない時はK = 1とし、同位がある時はK = 0.8〜0.9として計算する

有意水準を5%、検出力を80%、符号付き順位平均値の例数に対する割合(rs/n)を20%、同位なしとして実際に計算すると次のようになります。 なお順序分類尺度のデータの場合はたいてい同位があるのでK=0.8〜0.9として、この例数の80〜90%程度の例数で良いことになります。

7.順序尺度・2標本の場合

(1) 順位平均値の差の検定

マン・ホイットニィのU検定の原理を応用した、次のような計算式を用います。 (→3.4 2標本の計数値 (1)順序尺度)




n1(s + 1) + 1≒n1(s + 1)と近似すると:
  U1:群1の母U値   :群1の母勝率   n1、n2:群1と群2の例数  K:同位の補正
同位がない時はK = 1とし、同位がある時はK = 0.8〜0.9として計算する

有意水準を5%、検出力を80%、群1の母勝率を70%、群1の例数と群2の例数は同じ(s=1)、同位なしとして実際に計算すると次のようになります。 この場合も順序分類尺度のデータではK=0.8〜0.9とし、この例数の80〜90%程度の例数で良いことになります。


n2 = 33  n = 66

この場合の基準値50%は値が変化しない定数です。 そのため計量尺度や名義尺度と違って検出差は1標本の場合のほぼ2倍にならず、1標本と同じ値になります。 すると、やはり順序尺度の場合も2群合計必要例数と1標本の必要例数はほぼ同じになります。

8.相関係数の場合

(1) 相関係数の検定

相関係数の検定の原理を応用した、次のような計算式を用います。 (→5.1 相関係数と回帰直線5.3 計数値の相関分析と回帰分析)


:フィッシャーのz変換   ρ:母相関係数
順位相関または四分点相関係数の場合

母相関係数は科学的知見または探索研究で求めた推定値を代入します。 有意水準を5%、検出力を80%、母相関係数を0.2として実際に計算すると次のようになります。

  
順位相関または四分点相関係数の場合

ちなみに群1と群2を「1:群1 0:群2」というダミー変数で表した時の相関係数の検定は2標本t検定に相当します。 また四分点相関係数は2×2分割表の相関係数であり、その検定はマンテル・ヘンツェルの検定に相当します。 そのため相関係数と平均値の間、そして四分点相関係数と出現率の間には次のような関係があります。 (→5.1 相関係数と回帰直線 (注4)5.3 計数値の相関分析 (注2))

(ただし s=1 の時)
:効果量(effect size、Cohen's d)
(ただし s=1 の時)

この式を利用すると、計量値の場合の必要例数も計数値の場合の必要例数も相関係数の必要例数を求める式によって同じように計算することができます。 例えば2番の計量値・2標本の計算例と、4番の計数値・2標本の計算例についてこの式を利用して計算すると、次のようにほぼ同じ例数になります。

○計量値・2標本の計算例:δ = 10  σ = 10

→ ρ ≒ 0.447   

∴n1 = n2 = 19

○計数値・2標本の計算例:π1 = 0.6  π2 = 0.4   π = 0.5

→ ρ = 0.2   
∴n1 = n2 = 99

9.傾向検定の場合

(1) 出現率に関する回帰係数の検定

コクラン・アーミテージの傾向検定の原理を応用した、次のような計算式を用います。 (→5.3 計数値の相関分析と回帰分析)

表1.8.3 説明変数と出現率
説明変数例数非出現例数出現例数出現率
x1n1s1r1p1
:::::
xinisiripi
:::::
xknkskrkpk
全体NSRp
           
  寄与率:
ここでn1 = … = ni = … = nk = nとすると
N = k n  

以上のように、各説明変数群の出現率から順位相関係数を計算することができます。 そしてその順位相関係数から5番で説明した方法で必要例数を計算し、それを説明変数の群数で割った値が1群の必要例数になります。 この方法では各説明変数群の例数が等しい時の必要例数しか計算できません。 しかし各説明変数群の出現率から必要例数を計算することができるので便利です。

なお多重比較の必要係数の計算式については第4章で、級内相関係数の必要係数の計算式については第5章で、生命表解析の必要例数の計算式については第11章で、クロスオーバーデザイン(生物学的同等性試験)の必要例数の計算式については第14章で説明します。 (→4.1 多標本の計量値 (注5)5.4 級内相関係数と一致係数 (注2)11.6 パラメトリック生命表解析 (注4)14.5 生物学的同等性試験 (注2))

10.探索型研究の場合

(1) 結果の信頼性

仮説を検証する検証型研究ではなく仮説を組み立てるためのデータを集める探索型研究の場合、原則として必要例数の計算はしません。 しかし集めたデータの信頼性を高くするためには、ある程度の例数が必要になります。

例えば、ある疾患のリスクファクターを探索する研究を行いたいとします。 そしてその疾患の一般的な発症率が10%と予想されたとすると、少なくとも10例以上は調査しないと疾患例が観測できない恐れがあります。 そしてリスクファクターを探索するためには、そのリスクファクターを持っている人と持っていない人の発症率を比べる必要があります。

例えば性がリスクファクターであることを検討するためには、男と女の発症率を比べ、一方が他方よりも高いかどうかを調べる必要があります。 そのため男女比を1対1とすると、少なくとも全体で20例以上はないと男女の発症率を比べることはできません。 ところがこれは必要最低限の例数ですから、発症率の信頼性を高くするためにはこの5〜10倍の例数が欲しいところです。

以上の考察から、ある疾患のリスクファクターを探索するには疾患の予測される発症率をπdとし、リスクファクターの予測される発現率をπfとすると、全体として次のような例数が必要になります。

例えばπd=0.1、πf=0.5とすると次のようになります。

またデータから計算した統計量の信頼性は例数の平方根に比例して高くなります。 そして多変量解析のように多くの変数を用いる解析法では、得られた統計量の信頼性は変数の数に反比例して低くなります。 そのため多変量解析で得られた統計量は、一般に次のような条件を満足していないと信頼性の高いものにはなりません。 (→7.2 重回帰分析の解釈 (注2))

n ≧ {(変数の数)2 または (変数の数)×10}の大きい方

例えば変数の数が10個とすると次のようになります。

n ≧ {102 または 10×10}の大きい方 = 100

多変量解析を用いる探索型研究では、こうして計算した例数と、前述の出現率に基づいて計算した例数の両方を考慮して試験例数を決定します。

(2) 出現率または平均値の区間推定

たとえ探索型研究でも、結果についてある程度の信頼度を確保したい時は信頼区間の原理に基づいて必要例数を計算します。

○計量値の場合

e:信頼度(1-α)での許容誤差=絶対精度(信頼区間幅の半分の値)  σ:母標準偏差
○計数値の場合

π:母出現率

許容誤差は科学的な誤差範囲であり、信頼区間の絶対精度は数学的な誤差範囲です。 したがって信頼区間の原理に基づく必要例数の計算は、数学的な誤差範囲を科学的な誤差範囲以内にする時の必要例数を求めていることになります。 そして計量値の計算式は許容誤差eを検出差にし、検出力を50%(βエラー=0.5)にした時のお座敷(式)に相当します。 信頼区間の必要例数と統計的仮説検定の必要例数の詳しい関係については第7節の(注2)を参照してください。

一方、計数値の計算式はπを2群の出現率の平均にし、許容誤差eを検出差つまり2群の出現率の差(π21)にし、検出力を50%(βエラー=0.5)にした時の2標本の計算式に相当します。 そして(1)で求めた必要最低限の例数の10倍の例数は、95%許容誤差eをπの半分にして求めた必要例数に近似します。 例えば母出現率を0.1とすると必要最低限の例数は10例であり、その10倍は100例です。 この時、95%許容誤差を0.05として必要例数を計算すると次のようになります。


ちなみに、ある特定の集団を対象にしたアンケート調査のように、全体の例数がNである有限母集団から標本を抽出する時の必要例数は、上記の計算式に有限(母集団)修正(finite population correction)を施した次のような計算式を用います。

○計量値の場合

○計数値の場合

※有限修正は次のようにして導出する

無限母集団の場合はC(xi,xj) = 0だが、有限母集団ではC(xi,xj) ≠ 0になる。
任意のxiとxj(i≠j)を得る確率:


:有限修正因子
(3) 回帰直線の区間推定

探索型研究では回帰直線もよく用いられます。 そして回帰直線では目的変数yの推測値の信頼区間を求めることができ、それは平均値の信頼区間を2次元に拡張したものに相当します。 そこでそれを利用して回帰直線の必要例数を求めることができます。

第5章第5節で説明するように、ある説明変数の値x0に対応するy推測値は次のようになります。 (→5.5 各種手法の相互関係 (注3))

○x=x0の時のy推測値の100(1-α)%信頼区間:
mx:xの標本平均  Sxx:xの平方和   VR:残差分散  t(n-2,α):自由度(n-2)のt分布における100α%点
○|x-mx|がxの標準偏差SDxと同じ時:

yの分散Vyと平方和Syyと寄与率r2の関係から、残差分散VRを次のように近似できます。 そしてこの近似式を用いて母残差分散σR2を推測することができます。

寄与率:
SR = VR(n - 2) = Syy(1 - r2) = Vy(n - 1)(1 - r2)
∴VR ≒ Vy(1 - r2)
母残差分散:σR2 ≒ σy2(1 - ρ2)
σy2:yの母分散  ρ2:母寄与率

この推測値と|x-mx|がxの標準偏差SDxと同じ時の絶対誤差eから必要例数は次のようになります。

絶対精度:
必要例数:
※x0 = mxの時の必要例数はこの半分になる。

この式から、回帰直線の必要例数は平均値の必要例数に2(1 - ρ2)をかけた値であることがわかります。 そこでy推測値の絶対精度eを指定し、先行研究や予備試験の結果などからyの母分散σy2と母寄与率ρ2を推測して必要例数nを求めることができます。 例えばyの推測値とyの平均値の絶対精度が同じなら、母寄与率ρ2=0.5の時、回帰直線の必要例数は平均値の必要例数とほぼ同じ値になります。

一般的な線形回帰分析、例えば重回帰分析の信頼区間も回帰直線と同じ原理で求めることができるので、必要例数も同じ原理で求めることができます。 ただし説明変数が多くなると必然的に寄与率が大きくなるので、回帰直線よりも必要例数が少なくなってしまいがちです。 そこでこの計算方法で求めた必要例数と、(1)で説明した多変量解析の統計量が信頼できるために必要な条件――n≧{(変数の数)2 または (変数の数)×10}の大きい方――から求めた必要例数の両方を考慮して試験の必要例数を決定するのが無難です。 (→7.2 重回帰分析結果の解釈 (注3))

(4) 副作用の出現確率の計算

薬剤の臨床試験は主に有効性について検討するので、試験の必要例数はたいてい有効性に関する統計的仮説検定の原理に基づいて求めます。 しかし薬剤の臨床試験では有効性だけでなく安全性つまり副作用発現率も検討するのが普通です。 ところが一般に副作用の発現率は有効率よりもかなり小さいので、有効性評価目的の臨床試験で得られた安全性評価の信頼性は有効性評価の信頼性よりもかなり低くなります。 つまり副作用発現率の信頼区間を求めると、その絶対精度がかなり大きくなってしまうのです。

それでも副作用が発現した時は、その発現率の信頼性を信頼区間によって評価できるので、ある程度は客観的な検討が可能です。 しかし副作用の発現率が非常に小さいと、有効性評価目的の臨床試験では副作用が観察されない可能性が高くなります。 そのため副作用が発現しなかったからといって「副作用が無い」とは言い切れません。 そのような時は発現率の小さい副作用が1例以上発現する確率を臨床試験の例数に基づいて求め、それを論文の考察部分に本研究の限界として記載することがあります。

その確率は二項分布(binomial distribution)を利用して求めることができます。 二項分布の詳しい説明は第3章・第2節を参照していただくことにして、例えば有効性評価目的の臨床試験の例数が100例の時、発現率の小さい副作用が1例以上発現する確率は次のようになります。 (→3.2 1標本の計数値 (2)名義尺度)

○副作用の母発現率がπの時、n例中で副作用が1例も発現しない確率:p = (1 - π)n
○副作用の母発現率:π = 0.05(5%)の時
 100例中で出現例が0例の時の確率:p = (1 - 0.05)100 = 0.00592053 → 副作用が1例以上発現する確率:1 - p = 0.994079(約99%)
○副作用の母発現率:π = 0.01(1%)の時
 100例中で出現例が0例の時の確率:p = (1 - 0.01)100 = 0.366032 → 副作用が1例以上発現する確率:1 - p = 0.633968(約63%)
○副作用の母発現率:π = 0.001(0.1%)の時
 100例中で出現例が0例の時の確率:p = (1 - 0.001)100 = 0.904792 → 副作用が1例以上発現する確率:1 - p = 0.0952079(約10%)

以上の計算結果より、100例の臨床試験を行った時、発現率5%の副作用はほぼ確実に観察できるものの、発現率1%の副作用は観察できるとは限らず、発現率0.1%の副作用はめったに観察できないと考えられます。

薬剤の使用上の注意では副作用の発現率が0.1%未満の時は「まれに」という副詞を付け、これが副作用発現率の最低ラインになります。 そのため新薬の市販後調査(新薬開発の第4相に相当)は発現率0.1%の副作用を精度良く観察できるような例数を集めます。 出現率の信頼区間の原理から、発現率0.1%の副作用が1例以上発現する確率が95%になる例数と、発現率0.1%の信頼区間の絶対精度が発現率以下になる時の例数を求めると次のようになります。

○副作用の母発現率がπの時、n例中で副作用が1例も発現しない確率:p = (1 - π)n
 ln(p) = n・ln(1 - π) → ln(p)/n = ln(1 - π) → exp{ln(p)/n} = 1 - π
 xが非常に小さい時、exp(x)≒1 + xと近似できるので 1 + ln(p)/n = 1 - π → -ln(p) = n・π
 例えば p = 0.05の時
 -ln(0.05) = 2.995732 ≒ 3 = n・π = n・(1/n0) (n0:副作用が1例発現するための最低例数)
 ∴n ≒ 3×n0
 したがって副作用発現率がπ=1/n0の時、n0の3倍以上の例数があれば95%以上の確率で副作用が1例以上発現するRule of 3
○副作用の母発現率:π = 0.001(0.1%)の時
 副作用が1例以上発現する確率が0.95になる例数 ≒ 3×1000 = 3000例
 95%信頼区間の絶対精度が0.001になる例数 ≒ 3840例
 95%信頼区間の絶対精度が0.0005になる例数 ≒ 15360例
 95%信頼区間の絶対精度が0.0001になる例数 ≒ 383770例

以上の計算結果より、市販後調査で発現率0.1%の副作用を精度良く観察するためには少なくとも4千例以上、できれば1万例以上の例数が必要であることがわかると思います。

(注2) 交差検証法には色々な手法がありますが、主なものは次のとおりです。

1.leave-one-out交差検証(LOOCV:leave-one-out cross-validation、1個抜き交差検証)

n例の標本から1例だけを取り出して検証用データにし、残りの(n-1)例を作成用データにします。 そして作成用データを用いて予測式――例えば判別関数――を作成し、その予測式を検証用データに適用して予測が的中しているかどうか――判別関数の場合は正しく判別されるかどうか――を検証します。 これをn例全部について行い、n回の結果を平均して予測精度――判別関数の場合は判別確率――を求めます。

この方法は予測精度を過小評価する割合が小さいので、最もよく用いられます。

2.K-分割交差検証(K-fold cross-validation)

n例の標本をK個の部分群に無作為に分割し、その中の1つの部分群を検証用データにし、残りの(K-1)個の部分群を作成用データにします。 そして作成用データを用いて予測式を作成し、その予測式を検証用データに適用して予測が的中しているかどうかを検証します。 これをK個の部分群全部について行い、K回の結果を平均して予測精度を求めます。

この方法はジャックナイフ推定値と密接な関係があるのでジャックナイフ法(jackknife method)と呼ばれることもあります。 この方法でKを例数nと同じにしたものが1番のleav-one-out交差検証です。

3.ホールドアウト検証(fold out validation)

n例の標本から無作為に標本を選択して検証用データにし、残りの標本を作成用データにします。 そして作成用データを用いて予測式を作成し、その予測式を検証用データに適用して予測が的中しているかどうかを検証します。 通常、検証用データの例数はnの3分の1以下にします。

本文中で説明した予測式の検証法はこの方法に相当し、医学分野でよく用いられます。 しかしこの方法は作成群と検証群の間でデータを交差させることがないので、厳密に言うと交差検証法ではありません。 そしてこの方法では信頼性の高い予測精度を求めることはできません。

なおジャックナイフ推定値(jackknife estimate)ロバスト推定値(robust estimate、外れ値の影響を受けにくい推定値)の一種であり、次のように定義されています。

θ0:任意の母数θについて、n個のデータx1、…、xnを用いて推定した推定値
θi:n個のデータをr個ずつのk=n/r個のグループに無作為分割し、第i番目のグループ以外の(n-r)個のデータを用いて推定した推定値
として
ジャックナイフ推定値:
ジャックナイフ推定値の分散:
推定(近似的):
検定(近似的):> t(k-1,α)の時、有意水準100α%で有意

ジャックナイフ推定値はグループの例数を1にすると信頼性が最も高くなるので、通常はr=1にします。 そしてその場合、平均値のように全てのデータを均等な重みで線形結合した母数に関するジャックナイフ推定値はθ0と一致します。

ジャックナイフ推定値はロバスト推定値の一種であると同時にリサンプリングによる推定値の一種でもあります。 リサンプリングは母数とその分散を理論的に求めるのが難しい時に、観察データを母集団扱いし、そこから少数例の標本集団を抽出して母数とその分散の推定値を強引に求める方法です。

それにはデータの重複を許して標本を抽出するブートストラップ法(bootstrap method)、データの重複を許さずに全てのデータの組み合わせを標本にする並べ替え法(permutation method)、そしてデータを複数のグループに分割し、グループの重複を許して標本を抽出するジャックナイフ法(jakknife method)などがあります。 また乱数を利用して特定の条件に従うデータを発生させ、それを用いて結果を推測するモンテカルロ法(Monte Carlo simulation)というシミュレーション法もあります。

リサンプリング法もシミュレーション法もコンピュータを利用した力まかせの方法です。 コンピュータの発展によって、現在、一部の研究分野でこれらの方法が流行しています。 しかしリサンプリングはコップの中で嵐を起こしているようなものであり、どんなにものすごい嵐でもそれがコップの外まで影響することはない――つまり結果が観測データに依存するので、母集団にまで適用できる普遍的な結果は得られません。 またシミュレーションは結果が設定条件に依存するので、条件をうまく設定することよって任意の結果を得ることができてしまいます。 そのためリサンプリングもシミュレーションも理論的なモデルから数学的に演繹される結果を確認するのに向いています。

こういった力まかせの方法を用いなくても、適切なモデルを選択して理論的に考えれば、たいていの場合は母数とその分散を数学的に推測することができます。 金と力にものをいわせて腕ずくで物事を解決しようというのは、何事においてもあまり誉められたことではないでしょう。