前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
この章では統計学の基本的な概念と簡単な歴史を説明し、統計学の2本柱である推定と検定の原理を解説します。 そして科学的研究の種類と科学的研究における統計学の役割についても説明します。
「これすなわち、読んで字のごとく統一して(統べて)計る学問であ〜る!」
……などと、いきなり禅問答じみたことを大上段にふりかざしましたが、統計学は沢山のデータを要約し、中に含まれている情報を把握しやすくするための手段です。 例えば「クイズ100人に聞きました!」ではありませんが、日本人100人について体重を測定したデータがあるとします。 そうすると、当然、データが100個あります。 この100個のデータを眺めて、
「ウン、このデータに含まれている情報はこれこれである!」
そこで情報を読み取りやすくするために、例えば平均値(mean)という値を求めます。 平均値はこれら100個のデータのほぼ真ん中を表す値であり、100個のデータを1つに要約した値です。 統計学ではこのような要約値のことを統計量といいます。 (注1)
さて、今、100個のデータの平均値が60kgになったとします。 そうするとこの値から、
「100個のデータは概ね60kgぐらいの値である」
つまり
「100人の日本人の体重はだいたい60kgぐらいである」
「”概ね”などとあやふやな情報では納得できん! それぞれのデータは60kgとどれくらい違っているんだ?」
そんな時は個々のデータが平均値からどの程度離れているのか、つまりデータがどのくらいバラついているのかを要約する値として標準偏差(SD:Standard Deviation)を求めます。 今、標準偏差が10kgになったとします。 そうすると、
「100個のデータはだいたい60±10kgの値である」
つまり
「100人の日本人の体重はだいたい50〜70kgである」
こうして100個のデータを平均値と標準偏差という2つの値に要約することによって、データに含まれている情報が把握しやすくなりました。 100個が2個に集約されたのですから、情報の濃縮率(?)としてはなかなか大したものであるといえるでしょう。 (注2)
このように統計学はデータを要約して中に含まれている情報を把握しやすくするための手段です。 したがって統計学を利用すると本当は結果が理解しやすくなるはずでして、
「統計学なんか使ったばっかりに、わけがわからなくなった!」
しかしながら普通の人はたいてい数字や数式が苦手です。 そしてそこへもってきて、数式が大好きという多少変態ぎみな性癖の持主である数学者達が自分達を偉くみせようとして、本当は至極簡単なことをやっているのにもかかわらず業界用語を多用してわざと難しく表現して見せるものですから、すっかりその手管に乗せられてしまって、「統計学とは難しいものだ…!」と思わされてしまっているのです。
かく申す私も数学にはさんざん泣かされた一人でして、折あらば何とか数学者に復讐し、大いに溜飲を下げたいと思っています。 さあ、一緒に統計学の本質を理解し、数学者達の裏をかいて彼等をオマンマの食い上げにしてやろうではありませんか!
統計学の教科書などでは確率変数を大文字で「X」などと表記し、実際に得られた観測値を小文字で「x」などと表記して区別することがよくあります。 しかし、ここではどちらも区別せずに小文字で表記することにします。
ちなみに統計資料が科学的であるために必要な5項目の情報をカウフマン(Kaufman)の5W(英語の場合は4W1H)といいます。 これ統計資料だけでなく、仕事の報告書などを書く時の基本としても有名です。