玄関雑学の部屋雑学コーナー統計学入門

第1章 統計学の基本概念

この章では統計学の基本的な概念と簡単な歴史を説明し、統計学の2本柱である推定と検定の原理を解説します。 そして科学的研究の種類と科学的研究における統計学の役割についても説明します。

1.1 統計学とは何ぞや?

「これすなわち、読んで字のごとく統一して(統べて)計る学問であ〜る!」

……などと、いきなり禅問答じみたことを大上段にふりかざしましたが、統計学は沢山のデータを要約し、中に含まれている情報を把握しやすくするための手段です。 例えば「クイズ100人に聞きました!」ではありませんが、日本人100人について体重を測定したデータがあるとします。 そうすると、当然、データが100個あります。 この100個のデータを眺めて、

「ウン、このデータに含まれている情報はこれこれである!」

などといい切れる人はテレビ局お得意の「ヤラセ」でもしない限りまずいないでしょう。

そこで情報を読み取りやすくするために、例えば平均値(mean)という値を求めます。 平均値はこれら100個のデータのほぼ真ん中を表す値であり、100個のデータを1つに要約した値です。 統計学ではこのような要約値のことを統計量といいます。 (注1)

図1.1.1 データと要約値

さて、今、100個のデータの平均値が60kgになったとします。 そうするとこの値から、

「100個のデータは概ね60kgぐらいの値である」
 つまり
「100人の日本人の体重はだいたい60kgぐらいである」

という情報を読み取ることができます。 これだけでも重要な情報ですが、中には口うるさい人がいて、

「”概ね”などとあやふやな情報では納得できん! それぞれのデータは60kgとどれくらい違っているんだ?」

などと文句を付けるかもしれません。

そんな時は個々のデータが平均値からどの程度離れているのか、つまりデータがどのくらいバラついているのかを要約する値として標準偏差(SD:Standard Deviation)を求めます。 今、標準偏差が10kgになったとします。 そうすると、

「100個のデータはだいたい60±10kgの値である」
 つまり
「100人の日本人の体重はだいたい50〜70kgである」

ということになります。

こうして100個のデータを平均値と標準偏差という2つの値に要約することによって、データに含まれている情報が把握しやすくなりました。 100個が2個に集約されたのですから、情報の濃縮率(?)としてはなかなか大したものであるといえるでしょう。 (注2)

このように統計学はデータを要約して中に含まれている情報を把握しやすくするための手段です。 したがって統計学を利用すると本当は結果が理解しやすくなるはずでして、

「統計学なんか使ったばっかりに、わけがわからなくなった!」

などとおっしゃるのは、実は本末転倒のおかしな話なのであります。

しかしながら普通の人はたいてい数字や数式が苦手です。 そしてそこへもってきて、数式が大好きという多少変態ぎみな性癖の持主である数学者達が自分達を偉くみせようとして、本当は至極簡単なことをやっているのにもかかわらず業界用語を多用してわざと難しく表現して見せるものですから、すっかりその手管に乗せられてしまって、「統計学とは難しいものだ…!」と思わされてしまっているのです。

かく申す私も数学にはさんざん泣かされた一人でして、折あらば何とか数学者に復讐し、大いに溜飲を下げたいと思っています。 さあ、一緒に統計学の本質を理解し、数学者達の裏をかいて彼等をオマンマの食い上げにしてやろうではありませんか!


(注1) 統計学では確率的に変動する個々のデータを確率変数といい、確率変数の関数として定義される値を統計量といいます。 普通、確率変数はxで、統計量はzで表記するので、zは次のように定義できます。 f(x)は連続関数とは限らず、離散関数の場合もあります。

z = f(x)

統計学の教科書などでは確率変数を大文字で「X」などと表記し、実際に得られた観測値を小文字で「x」などと表記して区別することがよくあります。 しかし、ここではどちらも区別せずに小文字で表記することにします。

(注2) データと情報は似ていますが、意味が少し異なります。 データ、情報、知識、知恵の関係を次のようなピラミッド型の階層構造にまとめたものをDIKWモデルといい、情報工学などで用いられています。 このモデルに従えば統計学はデータを情報に変換しやすくするための数学的な手段ということになります。 (Ackoff、1989年)

DIKWモデル

ちなみに統計資料が科学的であるために必要な5項目の情報をカウフマン(Kaufman)の5W(英語の場合は4W1H)といいます。 これ統計資料だけでなく、仕事の報告書などを書く時の基本としても有名です。