前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
次は検定について説明しましょう。 検定は○×式の定性試験ですから、最初に必ず基準値と問題を設定します。 またまた第1節の体重測定の例を取り上げて、次のような問題について調べてみることにしましょう。
ここでは仮に50kgが医学的に意味のある標準体重だと考えて、この値を基準値μ0にします。 基準値は、このように医学的な正常値とか対照群の平均値とか治療前値のような科学的に有意義な値にします。 この問題に対する答えは2つあり、次のように表現できます。
「H」はHypothesis(仮説)の意味であり、これらの回答がまだ仮説段階のものであることを表しています。 そしてたいていは実験結果が50kgとぴったり一致することはなく、H0は無に帰することが多くなります。 そのためH0は帰無仮説(null hypothesis)と呼ばれています。 それに対してH1はH0と対立する仮説ですから、対立仮説(alternative hypothesis)と呼ばれています。
これら2つの仮説のどちらが正しいかを検証するために母集団である日本人全体から100人の標本集団を無作為抽出して体重を測定したところ、平均値が60kg、標準偏差が10kgになったとします。 すると確かに平均値は50kgとは違いますから、普通の人間なら対立仮説の方が正しいと結論するでしょう。 ところがアニはからんや弟バカリ、数学者は普通の人間ではないので、
「これはあくまでも標本集団の結果だから、これだけで即断を下すのは早すぎる。 もし間違ったことをいったら人から後指を指されて学者生命が危うくなるだろう。 ここはひとつ、よほど確実に結論できない限りは何もいわずに誤魔化しておこう」
そこで対立仮説が正しい確率を求める方法を考えてみましょう。 第4節で説明したように、日本人の平均体重つまり母平均値の95%信頼区間を求めると次のようになります。
この推定結果から「母平均値は95%の確率で58〜62kgの間にある」つまり「母平均値は95%以上の確率で50kgではない」といえます。 したがって対立仮説H1を採用して次のように結論します。
この結論が正しい確率は95%以上であり、間違っている危険性は5%よりも小さくなります。 この状態のことを統計用語では次のように持って回った言葉で表現します。
有意水準(significance level)または危険率(critical rate)は、実験結果をそのまま素直に信頼して対立仮説を結論として採用した時に、その結論が間違っている確率——つまり危険性の確率——を表します。 そのためαエラーとか第1種のエラー(Type I error)などとも呼ばれています。 これは「どれほど小さな確率でなら間違ったことをいっても大目に見てもらえるのか」ということを表す一種の合格水準です。 そしてその具体的な値αは、実験を行う前に様々な事情を考慮して、例えばα=0.05というように決めておきます。
したがって有意とは、
「対立仮説が95%以上正しい」
つまり
「実験結果をそのまま素直に信頼して結論しても大丈夫、その結論は95%以上信頼できる」
それとは反対に、例えば95%信頼区間が、
この状態のことを統計用語では次のように表現します。
これは帰無仮説H0の採用つまり、
「実験結果をそのまま素直に信頼して結論すると間違ってしまう危険性が大きいので、はっきりした結論は保留する」
その曖昧さのせいで、「有意ではない」ということを「帰無仮説を採用する」と誤解してしまうことがよくあります。 つまり検定結果が有意にならなかった時は、ついつい「日本人の平均体重は50kgである」という帰無仮説を採用してしまうのです。 これは大きな間違いです。
例えば95%信頼区間が49〜51kgだとしたら、「母平均値は50kgだ」という帰無仮説を採用してもかまわないでしょう。 しかし上記のように95%信頼区間が49〜71kgだとすると、母平均値が50kgである確率は非常に小さくなります。 このような状態で帰無仮説を採用するのは、どう考えても無理があります。 そこで致し方なく結論を保留することになるわけです。
結論保留とは、何となくあやふやで非科学的な感じがするかもしれません。 しかし誤差の多い不確かなデータから得られた結果を解釈する時は、確定的なことを断言する方がかえって非科学的になります。 科学的とは得られたデータから結論を明確にすることではなく、得られたデータから結論できる限界を明確にすることなのです。
以上のように、問題に対する回答のうち対立仮説の正しい確率が非常に大きい時だけそれを統計学的結論として採用し、対立仮説の正しい確率が大きくない時は結論を保留する検定を有意性検定(test of significance)といいます。 (注1)
有意性検定は、前述のように基準値と推定結果を比較することによって行うことができます。 推定は定量試験であり検定は定性試験ですから、これは当然のことです。 そして推定を利用した検定の原理は現場の研究者にとってわかりやすいと思います。 しかし何しろ数学者は普通の人間ではないので、この方法では満足できません。 何故なら推定は標本集団のデータから母数を推測するので、標本集団のデータによって母数の値がコロコロと変わってしまうからです。
本来、母集団というものは確定した集団であり、母数は値が変動しない定数です。 そして母集団から無作為抽出した標本集団の方が不確定な集団であり、標本集団の要約値は値が確率的に変動します。 そこで数学者は確定した集団である母集団と、定数である母数を基準にして検定の原理を考えます。 そして次に説明するような手順で有意性検定を行います。
しかし現場の研究者にとっては標本集団のデータと標本集団の要約値こそが確定した現実的なデータであり、母集団とか母数といったものは内容がわからない謎の存在です。 そのためこの検定手順は数学的すぎてとっつきにくく、理解するのが難しいかもしれません。 しかし何事も慣れですから、少々我慢して内容を理解するよう努力してみてください。
まず最初に基準値と問題を設定します。 これは検定の基礎ですから数学的な手順でも変わりません。
これも検定の基礎ですから数学的な手順でも変わりません。
次に有意水準の値つまりαエラーの値を決めます。 通常、有意水準は5%にすることが多いのですが、後述するように本来は問題の内容に応じて臨機応変に変えるべきです。
実際の研究現場では標本集団の方が先にあり、その背景因子から準母集団を想定するのが普通です。 しかし数学的手順では、標本集団はあくまでも母集団から無作為抽出した集団ということにします。
体重の例では次のようになりました。 なおこの標準偏差は標本標準偏差ではなく、母標準偏差の推測値である不偏分散の平方根です。
帰無仮説が正しいと仮定した時の母集団を想定し、その母集団からn例の標本集団を無作為抽出して標本平均値を求め、それを無限回繰り返した時の標本平均値の分布を描きます。 これは第3節で標準誤差を求めた時の方法と同じです。
帰無仮説が正しいと仮定する理由は対立仮説を正しいと仮定すると具体的な母集団を想定することができないからです。 帰無仮説は「母平均値が基準値と等しい」という具体的な仮説であるのに対して、対立仮説は「母平均値が基準値と等しくない」という仮説です。 この仮説は母平均値の具体的な値を設定しないので具体的な母集団を想定することができないのです。
6)で求めた標本平均値の分布で、まず母平均値を中心にして標本平均値の(1-α)が含まれる範囲を求めます。 これは第4節で95%信頼区間を求めた時の方法と同じです。 つまり標本平均値の分布が漸近的に正規分布になることを利用して、標本平均値の(1-α)が含まれる範囲を次のようにして求めることができます。
上記のように母標準偏差を用いて標準誤差SEを求めた時、t値はt(∞,0.05)=1.96≒2を使います。 しかし母標準偏差を不偏分散の平方根で推測してSEを求めた時は、次のように自由度(n-1)の値であるt(99,0.05)を用います。 実際のデータでは母標準偏差は不明であり、不偏分散の平方根で推測してSEを求めるのでこちらが厳密な範囲になります。 そしてこれは推定の原理そのものなので、この範囲の幅は95%信頼区間の幅と同じになります。
標本平均値の分布において(1-α)が含まれる範囲から外れる左右の端の部分を棄却域(critical region)といい、左側を下側棄却域、右側を上側側棄却域といいます。 この部分を棄却域というのはこの部分に実際の標本平均値が入った時に帰無仮説を棄却するからです。 (→付録2 中心極限定理のシミュレーション−平均値と中央値)
実際の標本平均値が棄却域に入っているかどうかは、次のような方法で調べることができます。
最も直接的でわかりやすい方法です。 図1.5.3から、この方法は母平均値の信頼区間に基準値が入るかどうかを調べることと同じであることがわかると思います。
標本平均値と基準値の距離を標準誤差で割って標準誤差単位にした値のことをt値といい、図1.5.4でいえばt=(m-μ0)/SEになります。 標準誤差を母分散σ2を用いて計算すると、t値は標本平均値と同様に近似的に正規分布をします。 しかし不偏分散Vを用いて計算すると、Vは標本集団ごとに微妙に値が異なる変数なのでt値は近似的にt分布をします。 このt分布において実際の標本平均値mはtoになります。 ちなみにtoの添え字「o」は「observed」のことであり、観測値から計算されたt値を表します。
図1.5.4のt分布において下側棄却域の上限mLは(mL-μ0)/SE = -t(n-1,α)になり、上側棄却域の下限mUは(mU-μ0)/SE = t(n-1,α)になります。 このt(n-1,α)は信頼区間を求める時にSEに掛ける係数そのものです。 信頼区間を求める時、SEにt(n-1,α)を掛けるのは、図1.5.4のようなt分布を図1.5.3のような標本平均値の分布に戻すためなのです。
標本平均値をわざわざt値に変換する理由は、t値に変換することによってデータの単位や基準値とは無関係な無単位の値になり、普遍的になるからです。 つまりt(n-1,α)は自由度(n-1)とαエラーの値だけで決まる普遍的な値なので、どんなデータでも実際の標本平均値から求めたtoとこの値を比べるだけで標本平均値が棄却域に入っているかどうか調べることができるのです。
この方法では有意水準がαなのに面積をα/2と比べるのはわかりにくく、誤解を招く恐れがあります。 そこで実際には図1.5.4のt分布においてtoから右側の面積つまり確率(図の濃い灰色部分)を計算し、それを2倍した値を有意確率(significance probability)またはp値といい、この値がαよりも小さいかどうかを調べます。 このようにt値からp値を求めることをt値のp値変換といい、t分布を積分して求めます。
方法2と方法3のように、t値とt分布を利用した検定をt検定(t test)といいます。 t分布を利用する検定には平均値以外の要約値に関する手法もあります。 そのため平均値に関する検定のことを正式には平均値の検定と呼びます。 しかし実際の研究現場では平均値の検定のことを慣習的にt検定と呼んでいるので、ここでは平均値の検定のことをt検定と呼ぶことにします。
棄却域は帰無仮説が正しい時に標本平均値の100α%が含まれる領域です。 そのためここに実際の標本平均値が入った時、帰無仮説が正しい確率はαよりも小さくなり、対立仮説が正しい確率は(1-α)以上になります。 そこで有意水準αで有意とし、対立仮説を統計学的結論として採用します。
棄却域に実際の標本平均値が入っていない時は帰無仮説が正しい確率はα以上になり、棄却することができません。 そこで有意水準αで有意ではないとし、統計学的結論を保留します。
母平均値の推測値60kgは基準値50kgに比べて10kg重いことになります。 この差が医学的に有意義なら次のような医学的結論を下します。
母平均値の推測値60kgは基準値50kgに比べて10kg重いことになります。 この差が医学的に有意義だとしても、推測値60kgの信頼性が低いので確実なことはいえません。 そこで次のように医学的結論を保留します。
巷では「有意である」または「有意ではない」という表現よりも、「有意差あり」または「有意差なし」という表現の方がよく用いられていて、有意差という言葉がさも統計用語のような顔をしてのさばっています。 しかしこれはあまり適切な表現ではなく、本当は「差は有意である」または「差は有意ではない」という方が適切な表現です。
例えば体重測定の例では、検定結果が有意になったので対立仮説を採用しました。 これは対立仮説が95%以上の確率で正しい、つまり、
「基準値μ0と母平均値μの差δが0ではない」
「有意である」ということは「数学的に意味が有る」ということであり、簡単にいえば「実験結果の数字が信頼できる」ということです。 そのためこの場合は、
「基準値50kgと標本平均値60kgの差10kgは信頼できるから、基準値と母平均値の差はほぼ確実に0kgではない」
例えば体重測定の例で、図1.5.5のように標本平均値が50.01kgだったとします。 この場合、基準値と標本平均値の差はわずか0.01kgつまり10gです。 しかし信頼区間が非常に狭くて、この数字の信頼性が95%以上あれば有意になります。 しかしたった10gの差は医学的には無意味でしょう。
一方、検定結果が有意にならない時は結論を保留します。 「有意ではない」ということは「数学的に意味がない」ということであり、簡単にいえば「実験結果の数字は信頼できない」ということです。 そのためこの場合は、
「基準値μ0と母平均値μの差δが0ではない」
「基準値50kgと標本平均値60kgの差10kgは信頼できないから、基準値と母平均値の差はもしかしたら0kgかもしれない」
これは「同等である」とか「科学的に差はない」などと大それたことをいっているわけではなく、「実験結果の数学的な信頼性が低いから、はっきりとした結論は保留する」ということをいっているにすぎません。 科学的には十分に意味がある差でも数学的な信頼性が低ければ有意にはなりません。
例えば体重測定の例で、図1.5.6のように標本平均値が60kgだったとします。 この場合、基準値と標本平均値の差は10kgもあります。 しかし信頼区間が広くてこの数字の信頼性が95%未満なら有意にはならず、結論を保留します。 でも10kgという差は医学的には十分に意味があるので、もしこの数字の信頼性が94%程度あったとしたら「医学的に差はない」と結論しない方が賢明でしょう。
これらのことから、「有意差あり」または「有意差なし」という表現よりも「差は有意である」または「差は有意ではない」という表現の方が適切であることがわかると思います。 「有意差あり」という表現では「科学的に意味の有る差がある」という意味に誤解してしまいかねませんし、「有意差なし」という表現では「科学的に意味の有る差がない」つまり「科学的に同等である」という意味に誤解してしまいかねません。
しかし「差は有意である」という表現なら「差は数学的に意味がある」つまり「差は数学的に信頼できる」という本来の意味に解釈しやすく、「差は有意ではない」という表現なら「差は数学的に意味がない」つまり「差は数学的に信頼できない」という本来の意味に解釈しやすいと思います。
このような有意という言葉の本来の意味はt値の定義式に端的に表されています。 t値は標本平均値と基準値の差を標準誤差で割って、標本平均値と基準値の距離を標準誤差単位にした値です。 しかし別の見方をすると分子の標本平均値と基準値の差は意味のある値つまりシグナルであり、分母の標準誤差は意味のない値つまりノイズであると考えられます。 したがってt値を次のように解釈することもできます。
この値は通信工学などで用いられるS/N比(信号対ノイズ比)に相当します。 つまりt値が大きいほど、標準誤差というノイズに邪魔されずに標本平均値と基準値の差というシグナルをはっきりと検出することができるというわけです。 そして有意水準5%の時のt(n-1,0.05)の値は約2ですから、シグナルがノイズの約2倍以上あれば95%以上の確率で検出できるということになります。
t値が大きくなればS/N比が向上して実験結果が有意になります。 そしてt値を大きくするには、分子のシグナルつまり標本平均値と基準値の差がいくら小さくても分母のノイズつまり標準誤差を小さくすれば良いのです。 標準誤差は標準偏差を例数の平方根で割った値ですから、標準偏差が大きくても例数を増やせばいくらでも小さくなります。 したがって例数さえ多くすればどんな実験結果でも有意になる、つまり数学的に信頼できるようになるのです。
しかし非常に残念なことに「統計学的有意=科学的有意義」であり、「統計学的に有意になれば科学的にも意味がある」と思い込んでいる研究者が沢山います。 そして統計学的に有意になっただけで科学的にはまるで無意味な実験結果が大手を振ってまかり通っていたり、統計学的に有意にならなかったために科学的には十分意味のある実験結果が日の目を見ずに埋もれてしまったりしています。
このように統計学的有意と科学的有意義を混同する本末転倒な現象は一種の病気でして、有意症(significantosis)あるいは有意症症候群(significant syndrome)とでも呼ぶべき疾患です。 これは一度罹患するとなかなか治らない大変難治性の疾患であり、官公庁や各種学界や薬業界を中心にして大流行しています。 そして不幸なことにこの疾患に特効薬はなく、患者自身が統計学の本質をじっくりと理解する以外に治療法はありません。
推定や検定は、
「データを要約し、その要約値が『数学的に意味があるかどうか』すなわち『信頼できるかどうか』を確率的に評価する」
「求められた要約値が科学的に意味のあるものなのかどうかを評価する」
統計学は実験を上手に行うための道具にすぎず、実験の目的ではありません。
薬業界や各種学会には、有意水準は5%が正式であると頑なに信じ込み、1%なら「高度に有意」だといって鬼の首でも取ったように狂喜乱舞し、10%を「有意の傾向」があるなどと称して未練がましく横目で見ている人が沢山います。 しかし有意水準5%というのは数字のキリが良いから昔から用いられているにすぎず、本当はどんな値を用いても間違いではありません。 いや、むしろ5%にこだわらず状況に応じて適当に変更すべきものなのです。
こんなエピソードがあります(ただし真偽のほどは定かではありません)。
フィッシャーが推計学を開発した時、有意水準を決める段になってハタと考えた。 彼は当時30才だったが、50才までは現役で研究を続け、その後は釣りでもしながら悠々自適の余生を送ろうと常々考えていた。 そこで、
「農作物が相手だから、これから毎年1回ずつ実験をするとして20年間に20回できることになる。 まあ、一生に一度ぐらいは間違いを犯しても神様はお許し下さるだろう」
この話を人から聞いた当のフィッシャーいわく、
「なるほど、それはうまい話だ。 実は私も、なぜ5%をよく使うのか説明を求められて困っていたんだ。 これからはそう答えることにしよう!」
……とまあ、有意水準5%というのはこれくらいいい加減なものなのです。 有意水準は結論が間違っている確率ですから、本来はその結論が間違っていた時にどの程度の被害を被るのか、どれほど重要な実験なのかを十分に考慮して適切に決めるべきです。
「昔からの習慣だから…」
とか
「エライ人がそうしているから…」
例えば癌の薬の効果を検証する試験と風邪薬の効果を検証する試験では、本来は有意水準を適当に変えるべきでしょう。 また薬剤の有効性の検証試験と副作用の検証試験でも、やはり有意水準を適当に変えるべきでしょう。 しかし現在はどんな場合でも画一的に有意水準を5%にすることが多いようです。 これも有意症の代表的な症状のひとつであり、科学的または倫理的に大いに問題があります。
有意水準と同じように有意確率p値についても誤解が蔓延しています。 例えばp値が0.001(0.1%)の時は「帰無仮説が正しい」つまり「差がない」確率が0.1%で、「対立仮説が正しい」つまり「差がある」確率が99.9%である、という誤解が代表的です。 p値は標本平均値が棄却域に入っているかどうかを調べるための便宜的な値にすぎず、この値自体に実質的な意味はあまりありません。
帰無仮説が正しい時に実際の標本平均値が得られる確率は図1.5.3の標本平均値の分布において標本平均値がmの時の確率であり、これはp値よりもかなり小さな値です。 またmから右側の確率を積分して求めた値(図の濃い灰色部分)は「帰無仮説が正しい時に実際の標本平均値以上の標本平均値が得られる確率」であり、これはp値の半分の値です。 そしてそれを2倍したp値は有意水準αと比較するために2倍した便宜的な値にすぎません。
このp値を無理矢理解釈すれば、
「帰無仮説が正しい時に、標本平均値と母平均値の差の絶対値が実際の標本平均値と母平均の差の絶対値以上になる――つまり極端に小さいまたは極端に大きい標本平均値が得られる確率」
何故なら次節で説明するように、出現率を評価指標にし、標本度数の分布が離散分布になる二項検定やフィッシャーの正確検定では、「帰無仮説が正しい時に実際の標本度数以上に極端な標本度数が得られる確率」としてp値を求めると、実際の標本度数が棄却域に入っていない時つまり有意ではない時にp値がαよりも小さくなり、間違って「有意」と判定してしまうことがあるからです。 (→1.6 統計的仮説検定の考え方 (注3))
そして困ったことに既存の統計ソフトの中には、SASやRやSPSSのように二項検定やフィッシャーの正確検定のp値をこの原理に従って計算しているものがけっこうあります。 そのようなソフトで二項検定やフィッシャーの正確検定を行うと間違った結果が得られるので注意が必要です。
またこれらの値は「帰無仮説が正しい時にこのような標本平均値が得られる確率」つまり結果の確率であり、「このような標本平均値が得られた時に帰無仮説が正しいと推測される確率」つまり原因の確率(逆確率)ではありません。 (→1.4 推定、1.6 統計的仮説検定の考え方 (注2)、付録6 ベイズ統計学)
試験計画時に有意水準を5%、信頼係数を95%と設定したのなら、検定結果が有意になり、「差がある」という対立仮説を統計学的結論として採用した時は、p値が0.05でも0.001でも試験全体の結論が間違っている確率は5%になります。 何故ならp値がどんなに小さくても区間推定は95%信頼区間を求めるのが普通です。 そしてその信頼区間に母平均値が入っている確率――厳密には母平均値が入っている信頼区間を得る結果の確率――は95%、つまり推定結果の信頼性は95%だからです。
またp値が非常に小さい時は、例えば「有意水準0.1%で有意」などと表現することがよくあります。 しかし結果に合わせて有意水準を変えるのはサッカーでボールの動きに合わせてゴールマウスの位置を動かすようなものであり、ルール違反です。
有意水準0.1%に対応する信頼係数は99.9%です。 そのため検定結果を「有意水準0.1%で有意」と表現するのなら、推定結果は99.9%信頼区間を用いなければ整合性が取れません。 ところが実際には、たとえ「有意水準0.1%で有意」と表現しても信頼係数は95%を用いるのが普通です。 その理由は「有意水準0.1%で有意」と表現すると「信頼性が非常に高い」と受け取られるのに対して、99.9%信頼区間を用いると区間幅がかなり広くなって「信頼性が低い」と受け取られかねないからでしょう(あるいは単に慣習に従っているだけかも……(^^;))。
試験計画時に有意水準を5%、信頼係数を95%にしたのなら、それに基づいて試験例数を設定し、試験計画を立てます。 そのため試験が終わってから試験結果に合わせて有意水準と信頼係数を変えるのは試験計画違反です。 したがってp値がどんなに小さくても「有意水準5%で有意」と表現し、95%信頼区間を用いるべきです。 (→1.6 統計的仮説検定の考え方)
出現率は理論的に二項分布し、この分布は理論出現率の値によって分散つまり分布の広がり具合が異なります。 そして推定では実際のデータから得られた出現率――例えば0.8(80%)の二項分布を利用するのに対して、検定では帰無仮説が正しい時の基準出現率――例えば0.5(50%)の二項分布を利用します。 この2種類の二項分布は分散が異なるので、推定で用いる二項分布で求めた信頼区間――(1-α)の標本出現率が含まれる区間――の幅と、検定で用いる棄却域ではない区間――(1-α)の標本出現率が含まれる区間――の幅が異なります。
その結果、推定では95%信頼区間に基準出現率が含まれるにもかかわらず、検定では有意水準5%で有意になる、つまり実際のデータから得られた出現率が棄却域に入るという矛盾した現象が起こり得ます。 このように一般に検定結果と推定結果は一致するとは限りません。 (→3.2 1標本の計数値 (2)名義尺度 (注2)、4.2 2標本の計数値 (2)名義尺度 (注3))
両者の結果が食い違った場合、どちらの結果を信用したら良いかといえば、当然、推定結果です。 検定は単に「母平均値が基準値とは異なる」という定性的な結論が得られるだけであり、しかも例数が増えれば必ず有意になります。 これでは母平均値に関する科学的な検討はできませんし、わざわざ検定を行う必要はありません。 それに対して推定は「母平均値が58〜62の間である」という定量的な結論が得られるので、母平均値に関する科学的な検討ができます。
これらのことから、統計学専門家の中には検定廃止論を主張する人がいます。 何を隠そう、私もその1人です。 (→1.7 ハンディキャップ方式の検定)