前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2-1 | 2-2 | 3 | 4-1 | 4-2 |
この章では1標本の計量値と計数値の処理方法、2標本の計量値と計数値の処理方法の説明を通して、具体的な統計手法について各論的に解説します。
いよいよ統計手法の各論に入ります。 これからは多少退屈な話が続きますので、途中で睡魔が襲ってきたら遠慮なくお休みください。 ただしコンピュータの前で寝てしまうと涎でキーボードが汚れますし、体にも悪いので、しかるべき場所でお休みになるようお勧めします。
さてデータが計量値で標本の数が1つの時に、平均値について色々な推測をするには1標本t検定(one sample t-test)とそれに対応する区間推定を用います。 この手法は第1章で説明した検定と同じものであり、1標本の母平均がある基準値と等しいかどうかを調べる手法です。 この手法のように、検定統計量としてt値を利用する検定のことを一般にt検定と呼びます。 しかしt値を利用する検定には平均値以外の要約値——例えば相関係数や回帰係数等——に関するものもあります。 そのため平均値に関する検定のことを正式には平均値の検定と呼びます。 ところが実際の研究現場では平均値の検定のことをt検定と呼ぶ慣習(悪習?)があるので、ここではその慣習に従うことにします。 (→1.5 有意性検定の考え方、1.6 統計的仮説検定の考え方)
第1章の例を少し変形し、次のような問題について調べることにしましょう。
通常、脂質異常症はTCやトリグリセリド(TG)の値によって診断するので、この問題は少々ナンセンスです。 そして脂質異常症はTCの値が高いかどうかを問題にするのが普通なので、「TCの値が異常に高いか?」という問題を設定するのが自然です。 でも統計手法の説明をわかりやすくするために、あえて上記のような問題を設定しました。
今、TCが高いか低いかを評価するためには平均値を評価指標にすることが医学的に妥当だとします。 そして仮に170mg/dLをTCの正常値と考えて、これを基準値μ0にし、母集団である脂質異常症患者全体のTCの母平均をμとします。 さらに「TCが異常に高いまたは低いわけではない」といえる範囲つまり医学的な正常範囲を170±30mg/dL未満とします。 そうすると検定の帰無仮説と対立仮説は次のように表されます。
統計的仮説検定を用いるためには計画段階でこれらの仮説を検証するのに必要な例数を求めます。 例えば予備試験や先行研究の結果からTCの標準偏差推測値が約10mg/dLであることがわかっているとします。 そして有意水準5%、信頼係数95%、検出力80%として、検出差30mg/dL、標準偏差10mg/dLの時の必要例数を求めると3例になります。 (注1)
そこで無作為に選んだ高脂血症患者10例についてTCを測定したところ表3.1.1のようになったとします。 この表3.1.1のデータを度数分布と累積度数分布によってグラフ化すると図3.1.1と図3.1.2と図3.1.3のようになります。 図3.1.3は図3.1.2の累積度数分布を微分した仮想的度数分布であり、図3.1.1のようにデータを区間で区切らないので分布の形が一定になります。 なお縦軸は累積度数の微分値なので、実際の度数ではなく単なる目安にすぎません。
図中の破線で描いた青色の曲線はデータが正規分布する時の理論的分布曲線です。 この理想分布曲線と実際の分布を比べることによって正規分布からのズレの程度を評価することができます。 そして結果を解釈する時に正規分布からのズレの程度を考慮して医学的な考察を加えます。 (→2.3 ノンパラメトリック手法とパラメトリック手法)
No. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
TC | 219 | 221 | 221 | 222 | 222 | 224 | 225 | 227 | 231 | 238 |
表3.1.1のデータに1標本t検定と区間推定を適用すると次のようになります。 (注2)
実際の標準偏差は6であり、計画段階の推測値である10よりも小さくなっています。 そのためこのデータの検出力は十分だと思われますが、念の為に検出力分析をすると検出力は約100%になり十分であることがわかります。 (注3)
図3.1.1と図3.1.2を見ると、このデータの分布は正規分布にかなり近いようです。 そのため上記の検定結果と推定結果の信頼性はかなり高いと判断して良いと思います。 そこで次のような統計学的結論を採用することができます。
しかしこれは単なる統計学的な結論であり、本当に重要なのは次のようなことです。
「225という平均値が医学的にどれほどの意義を持つか?」
つまり
「正常値170よりも55高いということが医学的にどれほど異常であるか?」
この場合、母平均値の95%信頼区間の下限が221であり、信頼区間が医学的な正常範囲である170±30未満から高い方に完全に外れています。 そのため次のような医学的結論を採用することができます。
もし95%信頼区間が医学的な正常範囲内にすっぽりと収まっていたとしたら、次のような医学的結論を採用することになります。
この結果を論文化する時は統計学的結論だけでなく医学的結論まで記載し、さらに必要に応じて考察を加えます。 どこかのお役所のように、統計学的結論をそのまま医学的結論にするような無責任なことはしないようにしましょう。
表3.1.1のデータについて実際に計算してみましょう。