前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2-1 | 2-2 | 3 | 4-1 | 4-2 |
データが計量値で標本の数が2つの時に、2つの平均値を比較をするには1標本と同じくt検定とそれに対応する区間推定を適用します。 この手法はデータに対応があるかないかで内容が多少異なります。
通常、対応のある2標本のデータは差や比を求めて1標本にして扱います。 差と比のどちらが適当かは第2章で詳しく説明したのでそちらを見ていただくとして、ここでは一般的な差に変換することにしましょう。 (→2.4 差と比とパーセントの使い分け)
例として次のような問題について考えてみましょう。
まず第1節と同様にASTが低下するかどうかを評価するには平均値を評価指標にすることが医学的に妥当だとします。 そして母集団における薬剤A投与前のAST平均値つまり投与前の母平均をμb、投与後の母平均をμaとし、μbを基準値μ0にします。 さらに「ASTが変動したわけではない」と考えられる範囲つまり医学的な同等範囲を投与前の母平均±10未満とします。 そうすると検定の帰無仮説と対立仮説は次のように表されます。
これらのデータは前後で対応があり、差つまり変化量を計算することによって1標本にすることができます。 そこで薬剤投与前後におけるASTの変化量の母平均値を考え、それをδとすると上の仮説を次のように表すことができます。
これは1標本t検定において実測値の代わりに投与前後の変化量を用い、基準値をδ0=0、医学的な許容範囲を±10にしたものに相当します。 この手法を特に対応のあるt検定(paired t-test)と呼び、医学・薬学分野ではこの名称の方がよく用いられます。
検定を行う場合、帰無仮説と対立仮説を設定した後、本来なら有意水準と検出力を決め、試験の必要例数を求めてから試験を行います。 しかし第2節と同様に、説明を簡潔にするためにそれらの煩雑な手順は省略します。 そこで無作為に選んだ慢性肝炎患者10例に薬剤Aを投与して、その投与前後のASTを測定したところ表3.3.1のようになったとします。 このデータについて有意水準5%、信頼係数95%として、対応のあるt検定と推定を行うと次のようになります。 (注1)
No. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
投与前 | 56 | 60 | 49 | 47 | 65 | 46 | 35 | 55 | 41 | 46 |
投与後 | 47 | 45 | 37 | 32 | 55 | 44 | 38 | 31 | 42 | 29 |
変化量 | -9 | -15 | -12 | -15 | -10 | -2 | +3 | -24 | +1 | -17 |
ここで注意しなければならないことは検定や推定に用いるのは変化量の平均値とその標準誤差であって、投与前後の実測値の平均値とその標準誤差ではないということです。 医学論文などで図3.3.1のようなグラフをよく見かけます。 しかしこのグラフから変化量の標準誤差についての情報は得られず、検定結果や推定結果について見当をつけることはできません。
検定結果や推定結果について見当をつけるには、変化量の平均値とその95%信頼区間(95%CI)をプロットした図3.3.2のようなグラフを併用する必要があります。 このグラフを見れば変化量平均値の95%信頼区間が横軸から離れている、つまり95%信頼区間の中に0が入っていないので検定結果は有意水準5%で有意だとすぐにわかります。 図3.3.2のようなグラフで信頼区間の代わりに変化量の標準誤差をプロットすることがよくあります。 しかし標準誤差は検定結果も推定結果も直接的には反映しないので信頼区間の方が合理的です。
また、例えば表3.3.2のような2組のデータがあったとします。 これら2組のデータは前後の平均値、標準誤差、標準偏差は全く同一です。 しかし個々の変化量が異なっており、変化量の標準誤差と標準偏差が異なっています。 そのためtoが異なった値になり、検定結果と推定結果は異なったものになります。 このことは図3.3.3と図3.3.4を見れば一目瞭然だと思います。
データ1 | データ2 | |||||||
---|---|---|---|---|---|---|---|---|
No. | 前 | 後 | 変化量 | No. | 前 | 後 | 変化量 | |
1 | 10 | 9 | -1 | 1 | 10 | 11 | +1 | |
2 | 11 | 10 | -1 | 2 | 11 | 10 | -1 | |
3 | 12 | 11 | -1 | 3 | 12 | 9 | -3 | |
平均値 | 11 | 10 | -1 | 平均値 | 11 | 10 | -1 | |
標準偏差 | 1 | 1 | 0 | 標準偏差 | 1 | 1 | 2 | |
標準誤差 | 0.6 | 0.6 | 0 | 標準誤差 | 0.6 | 0.6 | 1.2 | |
to | -∞ | to | -0.866 |
この2組のデータについて図3.3.1のような実測値のグラフを描くと、両者は全く同じグラフになってしまいます。 そのため図3.3.2のような変化量のグラフを併用しないと内容を誤解する恐れがあります。 つまり投与前後における実測値の標準偏差はデータの外面的なバラツキ具合を表しているのに対して、変化量の標準偏差はデータの内部変動のバラツキ具合を表しているのです。 そして対応のあるt検定と推定はデータの内部変動を反映するのです。
表3.3.1のデータについては、検定結果と推定結果から次のような統計学的結論を採用することができます。
しかしこれは単なる統計的な結論であり、本当に大切なのは次のような点について検討して医学的結論を導くことです。
1番目の疑問は今までしつこく説明してきたように最も重要なものであり、これに答えられるのは統計学者ではなく医学研究者です。 この場合は事前に医学的な同等範囲を投与前の平均値±10未満にしたので、-10という変化量平均値は医学的に意義があるということになります。 ただし95%信頼区間の上限が-4なので、変化量平均値が医学的な同等範囲内である可能性があることも一応は考慮しておく必要があります。
2番目の疑問については、残念ながらこのデータだけから正確に答えることはできません。 例えば先行研究等から薬剤を使用しない時の自然変動がどの程度あるかわかっていれば、薬剤Aの効果を推測することができます。 しかし確実な答を得るためには、薬効のないプラセボ(偽薬)を投与した群を対照にした無作為化比較対照試験(RCT:Randomized Controlled Trial))を行う必要があります。 無作為化比較対照試験については第1章を参照していただくとして、ここでは目的に応じた正しい実験計画が重要であるということだけ強調しておきましょう。 (→1.9 科学的研究のデザイン (3)実験的研究)
3番目の疑問については、10例の症例が慢性肝炎患者全体から正しい手順で無作為抽出されたのなら答は「当てはめても良い」になります。 しかしそうでなければ答は「当てはめられない」になります。 一般的な臨床試験や臨床研究では正しい手順による無作為抽出は事実上不可能ですから、この結果をそのまま慢性肝炎患者全体に当てはめることはできません。 この結果を当てはめることができるのは性、年齢、重症度、その他モロモロ全て含めて10例の症例と同じような背景因子を持つ母集団つまり準母集団だけです。 そしてこのことはしばしば誤解の元になります。
先行研究を参考にしてそれと同じような試験を行った場合、先行研究と異なった結果になったり、時には矛盾する結果になったりすることがよくあります。 これは科学理論の欠陥やデータの誤差によるものではなく、対象にした症例の背景因子の違いによることが多いようです。 結果を当てはめるべき母集団が違うのですから、結果が違っていても不思議ではありません。
以上のことについて十分に検討した結果、-10という変化量平均値が医学的に意義があり、自然変動が無視できる程度であり、10例の症例が慢性肝炎患者全体から正しい手順で無作為に抽出されたとすると、次のような医学的結論を採用することができます。
対応のない2標本のデータは差や比を求めて1標本にすることができません。 そのためデータをそのまま用いて2標本t検定(two sample t-test)または対応のないt検定(unpaired t-test)またはステューデントのt検定(Student's t-test)と呼ばれる検定と、それに伴う推定を適用します。 この手法は標本の数が2つ(2標本)の時だけ適用し、標本の数が3つ以上(多標本)の時は第4章で説明する分散分析という手法を適用しなければなりません。 (→4.1 多標本の計量値 (1)データに対応がない場合)
例として次のような問題について考えてみましょう。
この場合も慢性肝炎患者と正常人のASTの違いを評価するには平均値を評価指標にすることが医学的に妥当だとします。 そして慢性肝炎群の母平均値をμH、正常群の母平均値をμNとし、μNを基準値μ0にします。 さらに「ASTに違いがあるわけではない」という医学的な同等範囲を正常群の母平均±10未満とします。 そうすると検定の帰無仮説と対立仮説は次のように表されます。
ここで対応のあるt検定と同じように2群の母平均値の差を考え、それをδとすると、上の仮説を次のように表すことができます。
これは対応のあるt検定と同様の仮説です。 しかし慢性肝炎群と正常群には対応がなく、対応のある時のように個々のデータの差を計算することができません。 したがって平均値の差は求められますが、差の標準偏差と標準誤差は求められず、t値を計算することができません。 そこで2群の標準偏差から平均値の差の標準誤差を求め、それを使ってt値を計算します。
この場合も必要例数の計算は省略し、上記の仮説を検定するために正常人10例と慢性肝炎患者10例を無作為に選び、そのASTを測定したところ表3.3.3のようになったとします。 このデータについて有意水準5%、信頼係数95%として、対応のないt検定と推定を行うと次のようになります。 (注2)
No. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
正常群 | 47 | 45 | 37 | 32 | 55 | 44 | 38 | 31 | 42 | 29 |
慢性肝炎群 | 56 | 60 | 49 | 47 | 65 | 46 | 35 | 55 | 41 | 46 |
対応のあるデータと同様に、この場合も図3.3.5のような実測値のグラフだけでなく図3.3.6のような平均値の差のグラフを併用すると便利です。 このグラフを見れば平均値の差の95%信頼区間が横軸から離れている、つまり95%信頼区間の中に0が入っていないので検定結果は有意水準5%で有意だとすぐにわかります。 図3.3.5のようなグラフだけでは検定結果と推定結果について見当をつけることは難しいと思います。
実は表3.3.3のデータは表3.3.1と同じ値であり、投与前を慢性肝炎群に、投与後を正常群にしただけです。 そのため上記の結果は同じ数値を対応のないデータとして扱い、基準値を逆にした時のものに相当します。 表3.3.1の結果は次のとおりでした。
両方の結果を比べると対応のないデータとして扱った時は平均値の差の標準誤差が大きくなり、検定も推定も精度が悪くなっていることがわかります。 対応のないデータは差の標準偏差つまり差のバラツキ具合を要約する値を求めることができません。 そのため平均値の差の標準誤差を2群の実測値の標準偏差から求めます。 しかしそれは効率の悪い計算方法なのでデータから求めた標準誤差よりも値が大きくなり、検定も推定も精度が悪くなってしまうのです。 このことは図3.3.2と図3.3.6を見比べれば一目瞭然です。
さらに対応のないデータはお互いに独立であり関連性はありません。 そのため2群の標準偏差から平均値の差の標準誤差を求める時、2群のデータが独立という前提で標準誤差を求めます。 しかし対応のあるデータは独立ではないので因果関係や相関関係があります。 そのため2群の標準偏差から平均値の差の標準誤差を求める時はそれらの関係を考慮して計算する必要があります。 したがって通常の2標本t検定の計算式をそのまま用いることはできず、2群の関連性を考慮した計算式に修正しなければなりません。 (注3)
このように対応のあるデータを対応のないデータとして扱い、対応のない統計手法を適用することは原理的には可能です。 しかし対応のないデータとして扱うとデータとデータの関連性を考慮した計算式に修正しなければならず、しかも標準誤差が大きくなって効率が悪くなります。 そのため検定と推定の計算式が複雑になる上に、結果の精度が悪くなってしまいます。
また表3.3.2のデータ1とデータ2を対応のないデータとして扱うと、どちらも全く同じデータになってしまい、時期変動の様子が異なっていることを検出できません。 そのため時期変動の様子を検討したい時は対応のあるデータとして扱う必要があります。
反対に対応のないデータを対応のあるデータとして扱い、対応のある統計手法を適用することはできません。 対応のあるデータは差や比を求めて1標本にして扱うので、ペアになっている必要があるからです。 そのためペアになったデータのどちらか一方が欠測値(missing data、欠損値)のものは、対応のあるデータとして扱うことはできません。 そこで欠測値が非常に多い時はデータの扱い方をよく検討する必要があります。 例えば表3.3.4のようなデータに対応のある手法は適用できません。
No. | 前 | 後 | 差 |
---|---|---|---|
1 | 20 | - | - |
2 | - | 10 | - |
3 | 40 | - | - |
4 | - | 30 | - |
平均値 | 30 | 20 | - |
SD | 14 | 14 | - |
SE | 10 | 10 | - |
こんな時は便宜的に対応のないデータとして扱い、対応のないt検定を適用することがあります。 しかしその結果については慎重な検討が必要です。 この場合、前後の平均値の差-10が前後という時期の違いによるものなのか、それとも(No.1+No.3)対(No.2+No.4)という症例の違いによるものなのか明確には判別できません。 したがって欠測値が非常に多い時は無理に統計手法を適用せず、データ不足として結論を保留するか、試験を再度行ってしっかりしたデータを手に入れてから統計手法を適用するのが賢明です。
表3.3.3のデータについては、対応のないt検定と推定の結果から次のような統計学的結論を採用することができます。
そして対応のあるt検定と同様に、この場合も次のような点について検討する必要があります。
1番目と3番目の疑問は対応のあるt検定と同じものです。 しかし2番目の疑問は初めて出てきたものであり、これは両群の背景因子の問題です。 原則として2つの群は慢性肝炎という疾患の有無を除いてほとんど同じような背景因子を持つ集団でなければなりません。
例えば慢性肝炎群は老人ばかりで正常群は若者ばかりだとしたら、ASTの差が疾患によるものなのか、それとも年齢によるものなのか区別できません。 もしASTが年齢によって影響を受けなければ年齢がある程度違っていてもかまいません。 しかし年齢が違うということは他の背景因子——例えば飲酒歴等——も異なっている可能性が高く、その因子がASTに影響を与えているかもしれません。
したがって2群の背景因子はほとんど同じであるのが理想であり、症例を選択する時はそのことに十分注意する必要があります。 それをうまく行うために考えられた試験方法が無作為化比較対照試験(RCT)です。
以上のことについて十分に検討した結果、10という平均値の差が医学的に意義があり、2群の背景因子がほぼ同等で、20例の症例が慢性肝炎患者全体と正常人全体から正しい手順で無作為に抽出されたものだとすると次のような医学的結論を採用することができます。
薬剤の効果を検討する時は実測値ではなく薬剤投与前後の変化量の平均値を評価指標にするのが普通です。 そのため2種類の薬剤の効果を比較する時は2標本t検定を用いて変化量の平均値を比較します。 その場合は変化量つまり差の平均値のさらに差が0かどうかを検定するので、サノサ(差の差)の検定または差分の差分分析(DID:Difference-in-differences design)と呼ぶことがあります。 薬剤の臨床試験では実測値よりも変化量を比較することが多いので、2標本t検定をサノサの検定に用いるのが普通です。 (→4.3 繰り返しのある多標本・多時期の計量値 (3) 繰り返し測定データによる薬効比較)
2群の母分散をσx2、σy2とすると、分散の性質から平均値の差の分散と標準誤差を求めることができます。 そしてそれらの値を利用して対応の無いt検定と平均値の差の推定を行います。
表3.3.3のデータについて実際に計算してみましょう。
両群の母分散が等しいかどうかは、厳密には等分散性の検定という手法で検討します。 この検定は検定統計量としてF値を利用するので等分散性のF検定とも呼ばれています。 そして分散の実質科学的な同等範囲をδsとすると、帰無仮説と対立仮説は次のようになります。 なおF検定については第1章で説明したので、そちらも参照してください。 (→1.6 統計的仮説検定の考え方 (5) F分布とF検定)
この場合、評価指標として分散そのものではなく分散比を用いることができます。 そしてF値は次のような分散比なので検定統計量であると同時に評価指標でもあります。 つまりF値が1に近ければ2群の母分散はほぼ等しく、1から離れるほど異なった値になるわけです。
F検定は片側検定が普通なので一般的なF分布表には分布の片側だけで累積確率がαになる時のF値が載っていて、それらは全て1以上の値です。 しかしこの場合は両側検定なので値が小さい方の母分散を分母にしてF≧1になるようにします。 そして分散の実質科学的な同等範囲δsを利用して分散比の同等範囲を求めます。 例えば実質科学的な同等範囲δsを小さい方の母分散と同じ値とすると、分散比F値が2未満ならほぼ等分散ということになります。
F(nA-1,nB-1,α/2)はF分布における100(α/2)%点の値であり、分子の分散の自由度(nA-1)を第1自由度、分母の分散の自由度(nB-1)を第2自由度と呼びます。 有意水準がα/2になっているのはこの検定が両側検定だからです。 そしてこれは統計的仮説検定ですから、当然、試験計画時に検定の必要例数を求める必要があります。 しかしδsを合理的に決めるのは現実的には困難なことが多いと思います。 そのため実際の研究現場では、往々にしてδs>0として統計的仮説検定ではなく有意性検定を行うことが多いと思います。 その場合の対立仮説は次のようになります。
そして検定結果が有意の時は「不等分散」と解釈し、有意ではない時は本来は結論保留ですが、普通は「消極的ながら等分散」と解釈します。 しかし2群の分散が厳密に一致することは有り得ないので、有意性検定は例数が多くなれば必ず有意になります。 そのためこの解釈は合理的ではありません。 したがってたとえ有意性検定を行うにしても、F値の信頼区間を参考にしながらF値が科学的に意義のある値――例えば4――未満であるかどうかを考慮して不等分散か等分散かを検討するのが合理的です。
それから対応の無いt検定も統計的仮説検定を行うので、試験計画時に検定の必要例数を求めなければなりません。 そしてそのためには有意水準と検出力つまりαエラーとβエラーの値だけでなく、平均値の差の科学的許容範囲または平均値の差の推測値と2群の分散の推測値が必要になります。 そうすると、当然、試験計画時には2群の分散が等しいかどうかが推測できていることになります。
したがって厳密にいえば等分散性の検定は対応の無いt検定によって平均値の差を検定する検証型試験を実施する前に実施しておく必要があります。 ところが前述のように等分散性の検定を行う時も試験計画時に検定の必要例数を求めなければなりません。 そして等分散性の検定の必要例数を求めるためには有意水準と検出力と分散比の同等範囲δsと2群の分散の推測値が必要になります。
そうすると探索型試験で平均値の差と2群の分散を推測しておき、まず2群の分散が予測どおりかどうかを検証するための検証型試験を実施します。 そしてその後で平均値の差が予測どおりどうかを検証するための検証型試験を実施しなければならないことになります。 これはものすごく面倒な手順であり、現実的ではありません。
そこで実際には探索型試験で平均値の差と2群の分散を推測しておき、それらの推測値を用いて等分散性の検定の必要例数と対応の無いt検定の必要例数を求めます。 そして多い方を検証型試験の必要例数にするか、検定の必要例数を求めなくても良いように等分散性の検定を有意性検定にします。 そして対応の無いt検定を実施する前に等分散性の検定を行い、その結果に応じて通常の等分散t検定を用いるか、それともすぐ後で説明する不等分散性を補正した手法を用いるかを決定するという手順を取ることが多いと思います。
しかしこの手順を取ると、往々にして平均値の差の検定結果が好都合な方を採用するために等分散性の検定結果を恣意的に解釈しがちです。 このように試験が終わってから都合の良い統計手法を恣意的に選択するのは後知恵であり、科学的にも倫理的にも大いに問題があります。
また2群の時は等分散性にやたらとこだわるのに、3群以上の場合に2群ごとに多重比較する時には何故か等分散性は問題にせず、暗黙のうちに全ての群が等分散と仮定して多重比較を行うのが普通です。 このあたりの整合性の無さも大いに問題でしょう。 (→4.1 多標本の計量値)
表3.3.3のデータについて実際に計算してみましょう。 この場合は検定結果が有意ではなく、F値の95%信頼区間の上限が5に近いものの、1から大きく離れているわけではないのでほぼ等分散と解釈して良いと思います。
2群の母分散が等しくない時、平均値の差は正確にはt分布しません。 そこでそのような場合の検定方法はベーレンズ・フィッシャー問題(Behrens-Fisher problem)と呼ばれて色々と議論されてきました。 その結果、厳密な検定方法は恐ろしく複雑で非実用的なことがわかったので、次のように色々な近似補正法が考えられています。
この手法ではt値は原理どおりに計算し、自由度を2群の分散で補正します。 補正された自由度φは本来の自由度(nA+nB-2)以下になり、検定結果は有意になりにくくなります。 この手法は計算が比較的簡単なので最も広く用いられています。
分散による補正の影響を検討するために、2群の例数が等しい時の分散比と補正された自由度の関係を導いてみましょう。
以上の計算例と図3.3.7および図3.3.8から、1群の例数が11例で補正前の自由度が20の時、 γがいくら大きくても補正自由度は10以下にはならないことがわかります。 そして補正自由度が10になっても有意確率pは0.014程度増えるだけです。 それに対してt値が2.0から0.1変化するとp値は0.01程度変化し、0.2変化するとp値は0.02程度変化します。 これらのことから分散比による補正はt値が0.2(10%)変化した時のp値の変化よりも小さいことがわかります。
t値は平均値の差をそのまま反映します。 そのため統計的仮説検定の検出差を10%未満とするつまり平均値の差が10%未満なら科学的に同等とすると、2群の分散がいくら異なっていても科学的に意義のある影響はないつまり不等分散による補正は無意味ということになります。
また1群の例数が26例以上で補正前の自由度が50以上になると、分散比によって自由度を補正した時のp値の変化は0.01未満になります。 このことから補正前の自由度が50以上なら不等分散による補正は不必要と考えて良いと思います。 (→付録2 中心極限定理のシミュレーション−平均値と中央値 5.2群の平均値の差の時)
この手法もt値は原理どおりに計算し、基準にするt値を両群の分散で補正します。
しかし(1)の計算例からわかるように、これらの手法による補正はごくわずかであり、実際には全て近似的に等分散と考えてしまって差し支えありません。 研究者たる者、枝葉末節なことは気にかけないで、結果を科学的に考察するといった本質的なことに注意を向けるようにしましょう。
したがって実測値xとyを強引に独立と仮定し、対応のあるデータを対応のないデータとして扱うと標準誤差が√2倍になり、それだけ検定と推定の精度が悪くなります。 そのため対応のあるデータを対応のないデータとして扱うことによって解析対象例数が2倍以上になれば、数学上は検定と推定の精度は落ちないことになります。 ただし対応のある症例のデータには関連性があるのが普通であり、ペアになっていないデータの背景因子が異なる可能性は否定できないので、そのような処理はできるだけ避けた方が賢明です。
なおこのことから対応のあるデータを用いて変化量平均値を検定する試験つまり群内比較試験と比べると、対応のないデータを用いて平均値の差を検定する試験つまり群間比較試験は1群の例数が2倍必要になり、全体として4倍の例数が必要になるように思えるかもしれません。
しかし群内比較試験の検出差は基準値である0と変化量平均値の差であるのに対して、群間比較試験の検出差は2群の実測値平均値の差です。 そして2群の平均値が離れると、2群の総平均値を中心にして2群の平均値が反対方向にほぼ同じ距離だけ離れます。 そのため群間比較試験の検出差は群内比較試験の検出差のほぼ2倍に相当します。 すると検出差が2倍になって標準誤差が√2倍になるので1群の必要例数は群内比較試験の半分になり、2群合計した必要例数は群内比較試験の必要例数とほぼ同じになります。
第1章の(注1)で説明したように、順位平均値でも出現率でもこれと同様の関係があります。 (→1.8 科学的研究の種類とデザイン (注1))