前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
ここで推定と検定の関係をあらためて整理しておきましょう。 第6節と同様に科学的に意味のある基準値をμ0、科学的な誤差範囲をδ*とします。 この時、検定結果と推定結果と科学的な判断との関係は図1.7.1のようになります。 この図から科学的判断の材料としては検定結果よりも推定結果の方が重要なだけでなく、検定結果だけから科学的な判断をするのは危険であることがわかると思います。
検定結果 | 推定結果 | 科学的な判断 | |
---|---|---|---|
(1) | 有意ではない | μ0 - δ* < μ < μ0+δ* | 母平均値は基準値とほぼ等しい |
(2) | 有意ではない | μ ≒ μ0 〜 μ0 + δ* | この結果だけでは判断できない、検出力をもっと高くする必要がある |
(3) | 有意 | μ0 < μ < μ0 + δ* | 母平均値は基準値と実質的に変わらない |
(4) | 有意 | μ ≒ μ0 + δ* | 母平均値は基準値と実質的に変わらない可能性が高い |
(5) | 有意 | μ ≒ μ0 + δ* | 母平均値は基準値よりも大きい可能性が高い |
(6) | 有意 | μ0 + δ* < μ | 母平均値は基準値よりも大きい |
図1.7.1の(1)は検定結果が有意水準5%で有意ではなく、95%信頼区間が科学的誤差範囲である(μ0-δ*)〜(μ0+δ*)にすっぽりと入っています。 そのためこの場合は科学的に「母平均値は基準値とほぼ等しい」と素直に判断できます。
しかし(2)は検定結果が有意ではなく、信頼区間が(μ0-δ*)〜(μ0+δ*)の外に出てしまっています。 このことから信頼区間は数学的な誤差範囲であり、これが科学的な誤差範囲であるδ*より大きいと科学的な判断はできないことがわかります。 第6節で説明した必要例数の計算式は信頼区間がδ*以下になる例数を求めていることに相当し、検出力分析は信頼区間がδ*以下かどうかを分析していることに相当します。 そのため検出力分析によって必要な検出力が確保されていることが確認された時は図1.7.1の(2)のような結果は発生しません。
また(3)の場合、検定結果は有意であり、信頼区間にμ0は含まれません。 しかし信頼区間が(μ0-δ*)〜(μ0+δ*)にすっぽりと入っています。 そのためこの場合の科学的判断は「母平均値は基準値と実質的に変わらない」つまり「検定結果は有意だが、推定結果から科学的に判断すると母平均値とμ0は実質的に差はない」というものになります。 この検定結果と科学的結論の食い違いを矛盾と感じるかどうかで有意症に罹患しているかどうか診断できます。
検定結果 | 推定結果 | 科学的な判断 | |
---|---|---|---|
(1) | 有意 | μ0 < μ < μ0 + δ* | 母平均値は基準値と実質的に変わらない |
(2) | 有意 | μ0 < μ < μ0 + δ* | 母平均値は基準値と実質的に変わらない |
(3) | 有意 | μ0 < μ < μ0 + δ* | 母平均値は基準値と実質的に変わらない |
(4) | 有意 | μ0 < μ < μ0 + δ* | 母平均値は基準値と実質的に変わらない |
(5) | 有意 | μ0 + δ* < μ | 母平均値は基準値よりも大きい |
(6) | 有意 | μ0 + δ* < μ | 母平均値は基準値よりも大きい |
例数が多いと信頼区間の幅が狭くなり、図1.7.6のように検定結果は6種類とも有意になり、推定結果は(1)と(2)と(3)と(4)は実質的に同じになり、(5)と(6)も実質的に同じになります。 その結果、検定結果は全て有意なので(1)〜(6)を区別できなくなり、科学的判断がしにくくなります。 それに対して推定結果は(1)〜(6)を明確に区別できるようになり、科学的判断がしやすくなります。 つまり例数が多くてデータの信頼性が高くなるほど、検定結果に基づくと科学的判断がしにくくなるのに対して、推定結果に基づくと科学的判断がしやすくなるわけです。 これが定性試験である検定と定量試験である推定の大きな違いです。
第4節の最初で推定は定量試験であり検定は定性試験だから推定の方がより重要であると説明しました。 それは以上のような理由によるものです。 つまり定量試験である推定を行ってしまえば定性試験である検定を行う必要はありません。 その上、定性試験である検定結果だけに基づいて科学的判断をするのは非常に危険なのです。
例えば、ある溶液をpH計で測定してpH2とわかれば、わざわざリトマス試験紙を用いて酸性であることをもう一度確認するヒマ人はいないでしょう。 またリトマス試験紙だけでは酸性の強さまではわかりません。 それと同様に第5節の体重測定の例のように母平均値が基準値50と等しいかどうかを検定したい時、95%信頼区間が58〜62の間に基準値50は含まれていないので、当然、有意水準5%で有意になります。 しかもこの信頼区間から基準値が50の時だけでなく55でも65でも、とにかく58〜62以外の値だったらどんな時でも有意水準5%で有意になることがわかります。
このように推定では母平均値の含まれる区間がわかるので、母平均値が特定の基準値だけでなく、信頼区間から外れるあらゆる値と等しくないということまで推測できます。 それに対して検定では、たとえ結果が有意になってもただ単に母平均値が基準値と等しくないということしか推測できません。 リトマス紙には簡便性という取り柄がありますが、検定は推定よりもむしろ複雑な手法であり決して簡便ではありません。 唯一の取り柄といったら○×式を偏愛するお役所受けが良いということだけでしょう。
それから図1.7.1の(5)と(6)の場合、有意確率p値がかなり小さくなります。 例えば(6)がp<0.001になったとすると、往々にして(6)を有意水準0.1%で有意と表現することがあります。 ところが有意水準0.1%には99.9%信頼区間が対応します。 すると(6)の信頼区間の幅が広がって破線で描いた99.9%信頼区間になり、(5)と同様に信頼区間に(μ0+δ*)が入ってしまいます。 その結果、(6)の科学的な判断は(5)と同様に「母平均値は基準値よりも大きい可能性が高い」という曖昧なものになってしまいます。 つまり95%の確率なら「母平均値は基準値よりも大きい」と言えるのに、99.9%の確率では「母平均値は基準値よりも大きい可能性が高い」という曖昧なことしか言えないのです。
このことから、たとえ検定結果がp<0.001になって「有意水準0.1%で有意」と表現したとしても、推定結果は95%信頼区間を用いるのが普通なので、検定結果と推定結果から総合的に判断した科学的な結論の信頼性は95%であることがわかると思います。 つまり検定結果と推定結果の信頼性は計画段階で必要例数を求めた時のαエラーとβエラーによって規定されるので、有意確率pがαよりかなり小さくなったとしても、検定結果と推定結果から総合的に判断した科学的結論の信頼性は(1-α)――有意ではない時は(1-β)――なのです。
現在の研究現場では検定ばかりが偏重されていて、推定を利用するにしても「信頼区間に基準値が含まれていないから有意だ」といった本末転倒な使われ方をしています。 このような検定偏重による弊害を無くすために、統計学専門家の中には検定廃止論を主張する人達がいて、何を隠そう私もその一人です。 研究現場から検定をいきなり廃止するのは難しいかもしれません。 しかし少なくとも定量試験である推定をもっと重要視して欲しいですし、推定結果を科学的に評価するという本来の使い方をして欲しいものです。
有意性検定の欠点を補うためにハンディキャップ方式の検定という手法が考えられています。 この手法は有意性検定に統計的仮説検定の考え方を一部だけ導入したものであり、推定とも関係が深いのでついでに説明しておきましょう。 通常の有意性検定は母平均値μと基準値μ0との差δが0かどうかを検定します。 しかしハンディキャップ方式の検定ではδが科学的に意味のある具体的な差δ*かどうかを検定します。
第6節で説明したようにαエラー、βエラー、検出差δ*を事前に決定し、試験の必要例数を確保した上で次のように検定します。
この検定方式で有意になった時は図1.7.1の(3)〜(6)のどれかに相当し、推定結果と組み合わせて科学的な判断を行います。 反対に有意にならなかった時は、βがα/2(片側検定の場合はα)と同じ値なら図1.7.1の(1)に相当し、科学的に同等ということになります。 βの値がα/2より大きい時は信頼区間がδ*よりも大きくなり、(2)の可能性もあります。 そのため結果が有意になった時と同じ程度の信頼性で「科学的に同等」と断言することはできません。 つまり結論の信頼性を一定以上の水準にするためにはβとα/2(片側検定の場合はα)を同じ値にするのが理想なのです。
この検定方式の中の対立仮説H1を帰無仮説H0の否定形にして実質的な対立仮説を省略し、帰無仮説の検証部分だけにした検定方式が有意性検定です。 有意性検定は母平均値と基準値が数学的に同値かどうかを検定するため、同等性検定に対して非同値検定と呼ぶことができます。
有意性検定つまり非同値検定はδ*を設定しないので、αエラーは決められるもののβエラーは決められません。 そのため必要例数の計算ができず、どんな例数で試験をしてもかまいません。 その代わり結果が有意になった時しか仮説を検証することができず、有意にならない時は結論を保留することになります。 したがって有意にならない時は実質的に試験失敗であり、再試験が必要ということになります。
統計的仮説検定では事前の探索試験などから母平均値μを推定し、その値と基準値μ0との差をδ*として設定し、検出力を決めて必要例数を計算することもできます。 ただしその場合はδ*が科学的に意味のある値になるとは限らず、対立仮説が意味のある仮説になる保証はありません。 そのため検定結果が有意ではない時は意味のある結論になるとは限りません。 つまり統計的仮説検定ではδ*が科学的に意味のある値でない限り、βエラーが科学的な意味を持つとは限らないのです。
αエラーとδ*を事前に決定し、次のように検定します。
この検定方式は同等性検定の対立仮説H1を帰無仮説H0にし、βエラーをαエラーにした有意性検定に相当します。 そして両側検定ではμがμ0+δ*よりも大きくて科学的に優れていること、またはμがμ0+δ*よりも小さくて科学的に非優越であることを検定します。 この検定方式では優越性または非優越性だけを検証する片側検定を行うことも可能であり、その場合は両側検定との整合性を保つために有意水準をα/2にします。
この検定方式で優越性が有意になった時は図1.7.1の(6)に相当し、科学的な優越性が検証できます。 反対に非優越性が有意になった時は(1)または(3)に相当し、科学的な非優越性が検証できます。 したがってこれは科学的な意味まで考慮した優れた検定方式です。 しかし非同値検定に比べて有意になりにくいので、実際の研究現場では残念ながらほとんど利用されていません。
それどころかこの検定方式の代わりに非同値検定のことを優越性検定と呼ぶ悪しき習慣が薬業界や医学界に蔓延していて、数学的な非同値性を科学的な優越性と取り違えている人達が多いのには全く困ったもんです。 (注1)
αエラーとδ*を事前に決定し、次のように検定します。
この検定方式は優越性検定または非優越性検定の反対であり、同等性検定のもうひとつの対立仮説H1を帰無仮説H0にした有意性検定に相当します。 そして両側検定ではμがμ0-δ*よりも小さくて科学的に劣性であること、またはμがμ0-δ*よりも大きくて科学的に非劣性であることを検定します。 優越性検定または非優越性検定と同様に劣性または非劣性だけを検証する片側検定を行うことも可能であり、その場合は両側検定との整合性を保つために有意水準をα/2にします。
この検定方式で劣性が有意になった時は図1.7.1の(6)のマイナス側に相当し、科学的な劣性が検証できます。 反対に非劣性が有意になった時は(1)または(3)のマイナス側に相当し、科学的な非劣性が検証できます。
この場合の非劣性検定は具体的な対立仮説を設定しない有意性検定なので、同等性検定と違って必要例数の設計ができず、ぶっつけ本番で試験を実施することになります。 そのため製薬企業で行う新薬開発のための臨床試験などで人気があります。 しかしこの検定方式では結果が有意になった時しか非劣性を検証することができず、有意にならない時は再試験が必要になります。 つまり同等性試験と比べるとハイリスク・ハイリターンな検定方式であると言えるでしょう。
非優越性検定と非劣性検定は同等性検定の対立仮説を帰無仮説にした片側検定であり、βをα/2にした同等性検定の対立仮説の検証部分に相当します。 つまりβとα/2を同じ値にした同等性の両側検定は、非同値検定と非優越性検定と非劣性検定を一度に行う検定方式ということになります。 こうすれば理論的に首尾一貫する上、検出力の設定と必要例数の計算ができる合理的な検定方式になります。
したがって製薬企業には人気がありませんが、非同値検定や非優越検定や非劣性検定を行うよりも、βとα/2を同じ値にした同等性の両側検定を行う方が科学的かつ合理的です。
以上のような3種類の検定方式と、μの100(1-α)%信頼区間の関係を模式図にしたものが図1.7.2です。 この図は図1.7.1をもう少し数学的にした模式図に相当します。 この図から、3種類の検定方式の結果はμの100(1-α)%信頼区間を用いれば全て予測できることがわかると思います。 つまり区間推定を行えば、上記のような複雑な検定を行う必要は全くないわけです。 このことからも定性試験である検定よりも定量試験である推定の方が重要であることと、検定廃止論の正当性が理解できると思います。 (注2)
一見するとこれらの主張は論理的なように思えますが、実は突っ込みどころ満載の欺瞞に満ちた主張です。 まず1番目の主張は医学的な優越性ではなく統計的な優越性つまり非同値性の検証にすぎません。 これはμ0をプラセボの母平均値として、次のような結果になったということです。
図1.7.3に示したようにこれは新薬の母平均値μがプラセボの母平均値μ0よりも大きいという意味であり、μがμ0+δ*よりも大きいという意味ではありません。 したがって新薬はプラセボと医学的に同等という可能性もあり、決して医学的な優越性を検証したわけではありません。 医学的な優越性を検証するためには、次のように本来の優越性試験で有意になる必要があります。
2番目の主張はこの主張だけなら間違いではなく、確かに新薬と標準薬は医学的に同等であるといえます。 しかし標準薬のプラセボに対する優越性が小さい場合、例えば標準薬の母平均値μs=μ0+δ*とすると、この標準薬に対する非劣性試験は新薬の母平均値μがプラセボの母平均値μ0と等しいかどうかを検定する非同値検定と同じものになります。 その結果、プラセボと医学的に同等の新薬でも次のように標準薬に対する非劣性試験で有意になることがあります。
この結果はμがμ0よりも大きいという意味にすぎません。 そのため新薬がプラセボと医学的に同等でも、標準薬に対する医学的な同等性が検証できてしまいます。 そしてこの新薬を標準薬として次の新薬を同じ手順で開発すると、次のように母平均値が標準薬の母平均値よりもδ*/2だけ低い新薬がまたしても標準薬と医学的同等と判断されてしまいます。
この手順を繰り返していくと、恐ろしいことに数回後にはプラセボよりも医学的に劣った新薬が堂々と開発されてしまうことになるのです!
もちろん1番目のステップで新薬がプラセボと同等以上であることを検証しておけば、こういった悪循環に陥るのを防ぐことはできます。 しかしその場合でもプラセボと医学的に同等の新薬が開発され、プラセボと医学的に同等の薬剤が標準薬になるという危険は避けられません。
そういった危険性を排除するためにはプラセボに対する新薬と標準薬の優越性を本来の優越性検定で検定し、それぞれがプラセボに対して医学的に優越であることを検証することが必要です。 そしていやしくも新薬を開発するためには、少なくとも標準薬に対して医学的に同等以上であることを非同値検定で検証することが必要でしょう。
3番目の主張にも問題があります。 「標準薬よりも副作用が少ない」とか「ある項目の改善率が標準薬よりも良い」といったことは、「優越性検定」と偽称した非同値検定で検定するのが普通です。 そのため図1.7.1の(3)のように標準薬と実質的に同等でも非同値検定で有意になることが有り得ます。 その結果、新薬の有効性は標準薬に対して非劣性のため同等であり、副作用は標準薬に対して優越のため少ないと言いながら、実は有効性でも副作用でも標準薬と実質的に同等ということが起こり得ます。
またたとえ副作用が標準薬よりも実質的に少なかったり、ある項目の改善率が標準薬よりも実質的に良かったとしてもまだ問題があります。 新薬と標準薬が医学的に同等であるということは、ある点で新薬にメリットがあれば必ずどこか別の点でデメリットがあるということです。 そのメリットとデメリットを十分検討し、デメリットに多少目をつぶってもメリットに医学的・社会的な価値があると考えられれば消極的ながら新薬の有用性を主張することができます。
ただしそのメリットがある特定項目の改善率が標準薬よりも良いといったことなら、「4.1 多標本の計量値」で説明する多重性の問題が生じます。 例えば20個の項目について新薬と標準薬の改善率を比較した場合、有意水準5%で検定すれば両者の薬効が全く同じ時でも1項目くらいは偶然に有意な結果になります。
この現象を防ぐためには検定手法として多重検定という手法を用いるか、それとも多変量解析を用いる必要があります。 ところが残念なことに現在の薬業界や医学界では項目別の検定に多重検定が用いられることはなく、多変量解析もほとんど用いられません。 そのため全く偶然に有意になった結果がメリットと判断され、標準薬とまるで変わらない新薬が開発されてしまう危険性があります。
また項目別の検討は試験の主目的ではなく、あくまでも副次的かつ探索的な目的にすぎません。 そのため項目別に医学的に意味のある差δ*を設定したり、項目別に必要例数の計算をしたりすることはなく、検定の信頼性が保証されません。 したがって本当に項目別の検討を指標としてメリットを検証したいのなら、それを目的にした検証試験をあらためて実施するべきです。
このような欺瞞に満ちた新薬開発法が薬業界でまかり通っているのは、画期的な新薬が開発しにくくなったことが大きな原因です。 つまり従来の薬剤よりも確実に優れた画期的な新薬を開発するのが難しくなったため、従来の薬剤とほとんど変わらない薬でも何とか誤魔化して新薬らしく開発してしまおうという、いわば製薬企業の苦肉の策なのです。 薬業界で飯を食っている人は仕方がないとして、薬業界とは無関係な人までがこのような苦肉の策に騙されてはいけません。
この試験は先発品と後発品を健常人に投与し、その血中濃度の時間的変化を比較することによって生物学的な同等性を検証します。 その場合、生物学的な同等性の範囲として、先発品と後発品の血中濃度の平均値の差が先発品の血中濃度の平均値の±20%以内という基準を用いています。
そして以前は推定よりも検定を優先し、同等性検定によって同等性を検証し、推定結果を参考程度に用いていました。 しかし近年は検定よりも推定を優先し、「平均値の差の90%信頼区間が同等性範囲内に収まる」つまり「平均値の差の90%信頼区間の下限と上限が同等性範囲に入る」ということで同等性を検証するようになっています。
90%信頼区間が±20%の同等性範囲内に収まるということは、α=0.1、β=α/2=0.05(検出力95%)、δ*=20%とした同等性検定の結果が有意ではないということと実質的に同じ意味です。 この条件では同等性検定の棄却域が-10%以下と10%以上になると同時に、90%信頼区間の幅がδ*と同じ20%になります。 そして平均値の差が±10%の範囲に入れば、検定結果が有意ではなくなると同時に90%信頼区間が±20%の同等性範囲内に収まります。
そして推定では、試験例数が少なくて検定の検出力が低くても――例えばβ=0.5(検出力50%)でも、先発品と後発品が全く同じ血中濃度で平均値の差が0なら、90%信頼区間が同等性範囲内に収まり同等性を検証することができます。 この条件では90%信頼区間の幅がδ*の2倍の40%になり、同等性範囲の幅と同じになるからです。 しかし同等性検定の場合は検出力が50%しかないため、検定結果が有意にならなかったとしても同等性を検証したとは評価されないでしょう。
ただし信頼区間の幅がδ*の2倍つまり同等性範囲と同じ時は、平均値の差が0でないと90%信頼区間が同等性範囲からはみ出してしまいます。 そこで実際には平均値の差が0でなくても、90%信頼区間が同等性範囲に収まるのに必要な例数を求めてから試験を行う必要があります。
例えば先発品と後発品の母平均値が同じで、母平均値の差が0だとします。 この時、母平均値たの差を基準値μ0=0とすると、標本平均の差mは図1.7.4のような正規分布をします。 そして信頼区間の下限が同等性範囲の下限μ0-δ*と一致する時の信頼区間を下端信頼区間、信頼区間の上限が同等性範囲の上限μ0+δ*と一致する時の信頼区間を上端信頼区間とします。
すると下端信頼区間の標本平均値mlから上端信頼区間の標本平均値muまでの標本平均値が含まれる範囲の確率――図1.7.4の正規分布の灰色の部分――が(1-β)になるように調整すれば、信頼区間は(1-β)の確率で同等性範囲に収まります。 つまり検出力100(1-β)%で同等性が検証できることになります。 この原理に基づいて、信頼区間を利用した同等性の検証に必要な例数nを次のようにして求めることができます。
この式から求めた必要例数は有意水準α、検出力(1-β/2)とした時の同等性の検定の必要例数に相当し、検出力を(1-β)とした時の検定の必要例数よりも少し多くなります。 また図1.7.4と図1.7.2を見比べると、この必要例数は母平均値の差がμ0=0である時に、μ0-δ*を基準値にして片側有意水準α/2の非劣性検定を行い、検出力(1-β)で有意になると同時に、μ0+δ*を基準値にして片側有意水準α/2の非優越検定を行い、検出力(1-β)で有意になる時の必要例数に相当することがわかると思います。 そのため同等性の検証のための必要例数はこの式で求めるのが合理的です。
母平均値の差が0ではなくδ(<δ*)の時は図1.7.5のようになり、下端信頼区間の標本平均値mlから上端信頼区間の標本平均値muまでの標本平均値が含まれる範囲――図1.7.5の正規分布の灰色の部分――がμ0+δを中心にして左右非対称になります。 この時の必要例数は次のようにして求めます。
この必要例数は実際的ではありますが、δがδ*に近いと必要例数が非常に多くなります。 そのため同等性の検証はδ=μ0=0を検証するためのものと割り切り、建前上は図1.7.4のようにδ=0とした時の必要例数を用いても良いと思います。 実際の生物学的同等性試験はクロスオーバーデザインで行うため、これらを少し修正した計算式を用いて必要例数を求めます。 それについては第14章の(注2)をご覧ください。 (→14.5 生物学的同等性試験 (注2))
同等性の検定では試験例数が多くて検出力が高くなるほど結果は有意になりやすくなり、同等性を検証できる可能性が低くなってしまいます。 本来は試験例数が多いほどより信頼性の高い結果が得られ、同等かどうか確実なことが言えるはずなのでこれは矛盾です。 しかし推定では試験例数が多ければ信頼区間幅が狭くなり、たとえ同等性検定の結果が有意になったとしても90%信頼区間が同等性範囲内に収まれば同等性を検証することができます。 これは定量試験である推定の特徴であり、定性試験である検定よりも優れた点です。
生物学的同等性試験だけでなく普通の試験でも、このような検定よりも推定を優先した利用法を積極的に用いて欲しいものです。