玄関雑学の部屋雑学コーナー閑話閑人
○統計のマジック

巷で”統計のマジック”とか”数字のマジック”と言われる裏技には色々なものがあり、データ解析屋はそれらに精通している必要があります。 それらの裏技のうち、マスコミの得意技であり、統計結果を恣意的に曲解させ、人にインパクトを与える手口を少し公開してしまいましょう。 (^_-)

ある病気がかかりやすい病気かどうかを表す場合、普通は1年あたりの発症率——1年間でその病気にかかった人数を、人口で割ってパーセントで表示した値——を指標にします。 例えば発症率が10%なら、1年間に人口の10%の人がその病気にかかることになります。 このため病気の発症率はその病気のかかりやすさを表す危険性の大きさ、つまりリスクと解釈することができます。

心臓病はタバコを吸っていない人の発症率よりも、タバコを吸っている人の発症率の方が高いため、「タバコは心臓病の危険因子(リスクファクター)である」と言われます。 仮にタバコを吸っていない人の発症率が10%で、タバコを吸っている人の発症率が20%だとしたら、タバコを吸うことによって心臓病になる危険性が10%上昇することになります。

ところが、心臓病の実際の発症率は非常に低くて1%以下です。 そしてタバコを吸うと発症率が2%弱に上昇します。 つまりタバコを吸っていない人が100人いると、その中の1人だけが心臓病にかかりますが、その100人全員がタバコを吸うと、心臓病にかかる人が1人増えて2人になるわけです。

これでは、いくら医者が、

心臓病にかかる危険性が1%高くなるから、タバコは止めなさい!

と警告しても、多分、効果は薄いでしょう。

そこで病気の発症率が低い時は発症率の比を計算し、それをリスク比とか相対危険度(相対リスク)と呼んでリスクファクターの指標にします。 心臓病の場合は、タバコを吸っている人の発症率2%をタバコを吸っていない人の発症率1%で割り、「タバコの相対危険度は2である」と表現します。

これならば、医者は、

心臓病にかかる危険性が2倍になるから、タバコは止めなさい!

と警告して、相手を脅すことができます。 どちらの警告も実は全く同じ内容ですが、相手に与えるインパクトの大きさはまるで違うでしょう。

この相対危険度に対して、最初に説明した発症率の差のことをリスク差とか絶対危険度(絶対リスク)と呼ぶことがあります。 発生率が低い現象の場合は、発生率がどの程度高くなるかを表す絶対危険度ではなく、発生率が何倍になるかという相対危険度を用いると人にインパクトを与えることができます。

また相対危険度が小さい時、例えば1.1の時は発症率が1.1倍つまり110%になるということで、

心臓病にかかる危険性が10%高くなる!

などと、とんでもない表現をすることがあります。 この場合、本当は心臓病の発症率が0.1%高くなる——1000人中1人だけ多く心臓病にかかる——だけなのに、まるで心臓病の発症率が10%高くなるように誤解してしまいます。

これは非常に誤解しやすい表現のため、特別な場合を除いて科学分野では禁じ手です。 しかし”科学分野の禁じ手はマスコミの常套手段(^^;)”ですから、相対危険度が小さい時はこの禁じ手を使うことがけっこうあります。

この発症率の増加率は、相対危険度が2以上になると100%以上になってしまいます。 例えば相対危険度が2.1の時、つまり心臓病の発症率が1.1%高くなる時は、

心臓病にかかる危険性が110%高くなる!

などと、怪しげな霊感商法のウソ臭い宣伝文句のようになってしまいます。 これでは、さすがに視聴者に「あれ、何か変だなぁ…?(?_?)」と思われ、カラクリを見破られる恐れがあるため、普通は相対危険度が2未満の時しか使われません。

また自殺や交通事故死のように発生率が非常に低い現象の場合は、発生率ではなく実数そのものを用いると人にインパクトを与えることができます。 例えば、

自殺率は0.02%である

と表現するよりも、

自殺者が3万人もいる!

と表現する方が人にインパクトを与えることができます。

このことから、マスコミが、

「××の人が○○名もいる!」

と大げさに問題視している時は、それは本当は発生率が非常に小さく、現実にはほとんど問題にならないと考えて良いことがわかると思います。 またマスコミが、

「△△すると××の危険性が○○倍にもなる!」

と警告している時は、それは発生率が小さく、あまり気にする必要はないと考えて差し支えないことがわかると思います。

ただし「××」が死亡や重篤な病気で、しかも警告しているのがマスコミではなく医者だったら、やっぱりある程度は気にした方が身のためでしょう。 (^^;)

○社会統計結果の誤解と曲解

1年間の自殺者が3万人を越すという事実に象徴されるように、今の日本は”生き甲斐”を見つけにくい、閉塞感のある社会である!

などというもっともらしい議論が、マスコミの社説などで主張されることがよくあります。

しかし「生き甲斐を見つけられないことが自殺者の増加の原因である」という主張は、実は社会統計結果の誤解または曲解に基づいた見当違いの主張です。

日本の総死亡率は明治後半から大正にかけて(1890〜1925年)は約2%(2000人/人口10万人)前後でしたが、昭和(1926年)に入ると徐々に低下し始め、第二次世界大戦後は急激に低下し、昭和50年(1975年)以後は約0.7%(700人/10万人)前後で比較的安定しています。

しかし自殺による死亡率は、明治後半から現在までの約100年間、多少の凸凹はあるものの、約0.02%(20人/10万人)前後であまり変わっていません。 人口の増加に伴って自殺者の実数は時代と共に増加していますが、自殺率は実はあまり変わっていないのです。

ただし第二次世界大戦後は昭和33年(1958年)前後、昭和61年(1986年)前後、そして平成15年(2003年)から現在(2010年)にかけて自殺者が多く、自殺率に3つのピークがあります。

自殺の最大原因は病気などの健康問題であり、次が経済問題、そしてその次が恋愛問題や家庭問題です。 そして、どの時代でも人には3つの自殺適齢期(^^;)があります。 最初は”若きウェルテルの悩み”に象徴される悩み多き青年期、次が仕事でも社会でも大きな責任を負わされる中年期、最後が健康問題で悩まされる老年期です。 自殺の原因は青年期ではやはり恋愛問題が多く、中年期は健康問題と経済問題、そして老年期は過半数が健康問題です。

昭和33年(1958年)前後のピークと61年(1986年)前後のピークは、戦後日本の好景気の合間の不景気な時期に相当します。 そしてそこに、他の世代を圧倒するほど人数が多い第1次ベビーブーム世代——いわゆる”団塊の世代”——の青年期と中年期が重なり、さらに61年(1986年)前後は団塊の世代の子供世代である第2次ベビーブーム世代の青年期が重なってピークになったものです。

そして平成15年(2003年)から現在(2010年)まで続いている第3のピークは、団塊の世代の老年期に、第2次ベビーブーム世代の中年期が重なったものです。 このピークは団塊の世代が自殺適齢期を過ぎるまで、つまりこの世代の大半の人達が死亡するまで続くと予想されています。

自殺率の増加は、単に人数が非常に多い第1次・第2次ベビーブーム世代が自殺適齢期になり、自殺者の絶対数が増えたことが原因であり、”生き甲斐のない社会”といった社会情勢とは実はあまり関係がないのです。

自殺率に限らず、人数が非常に多い団塊の世代がこういった社会統計結果に及ぼす影響は非常に大きいものがあります。 そのため一見するとまるで社会現象のように思える現象も、よく調べると単に団塊の世代がその現象の適齢期になっただけだった、ということがけっこうあります。

しかしマスコミはそこまで詳細な分析はせず、表面的な統計結果だけを見て、

「今の日本の社会にはこんな問題がある!」

などと、もっともらしい理屈をつけて社会問題として論じたがります。

このようにマスコミがもっともらしく論じる”社会問題”は、たいてい社会統計結果の誤解または意識的な曲解と思って間違いありません。 (^_-)

○ベイズの定理

昔々、あるところに百姓の甚兵衛さんがいました。 甚兵衛さんの田んぼでは稲100株あたり20株程度の割合で甘みのあるコメがなる稲ができ、40株程度の割合で大粒のコメがなる稲ができました。 そしてその甘い稲と大粒の稲の中に、両方の性質を持ち合わせた甘くて大粒の美味しいコメがなる稲が16株程度ありました。 甚兵衛さんは趣味で和算を習っていたので、この稲のでき具合を次のような図にしてみました。

稲のでき具合の便利図

この図を見ながら、甚兵衛さんは次のような関係が成り立つことに気づきました。

甘い稲の割合(確率):P(甘い) = 20/100 = 0.2   甘い稲の中の大粒の稲の割合(条件確率):P(大粒|甘い)=16/20=0.8
大粒の稲の割合(確率):P(大粒) = 40/100 = 0.4   大粒の稲の中の甘い稲の割合(条件確率):P(甘い|大粒)=16/40=0.4
大粒で甘い稲の割合:P(大粒 ∩ 甘い) = P(大粒)×P(甘い|大粒) = 0.4×0.4 = P(甘い)×P(大粒|甘い) = 0.2×0.8 = 0.16

そしてこの関係から、大粒で甘い稲ができる割合は、大粒の稲ができる割合と、大粒の稲の中の甘い稲の割合を調べてもわかるし、甘い稲ができる割合と、甘い稲の中の大粒の稲の割合を調べてもわかることに気づきました。 そこでこの図を便利図と名付け、大いに利用しました。

そんなある日、甚兵衛さんの村で稲を枯らしてしまう恐ろしい稲の伝染病が流行し、甚兵衛さんの田んぼもその病気にやられる恐れが出てきました。 甚兵衛さんは村のみんなから話を聞いて、その病気について次のようなことを知りました。

今のところ稲穂が変色した稲の中の病気の稲の割合はよくわからなかったので、村のみんなは変色した稲を片っ端から取り除いたり、変色していない稲まで捨てたりして、大きな損害を出していました。 そこで甚兵衛さんは、これらの情報を元にして得意の便利図を描いてみました。

稲の病気と変色の便利図

この便利図は甚兵衛さんがいつも描いている稲のでき具合の便利図と似ていたので、次のようなことに気づきました。

病気の稲の割合:P(病気) = 0.2 = 20/100   病気の稲の中の変色した稲の割合(感度):P(変色|病気)=0.8=16/20
変色した稲の割合:P(変色) = 0.4 = 40/100   変色した稲の中の病気の稲の割合:P(病気|変色)=?
変色した病気の稲の割合:P(病気 ∩ 変色) = P(病気)×P(変色|病気) = 0.2×0.8 = 0.16 = P(変色)×P(病気|変色)
変色した稲の中の病気の稲の割合(原因の確率):P(病気|変色) = P(病気)×P(変色|病気)/P(変色) = 0.2×0.8/0.4 = 0.4

この関係から、それまでよくわからなかった「変色した稲の中の病気の稲の割合(陽性予測値)」を計算することができ、甚兵衛さんはしかるべき対応作を考えることができました。 そしてまたこの関係から、稲が変色した後で、その原因が病気である確率を計算できる、つまり過去に起こった事柄に基づいて未来に起こるであろうことを確率的に予測するのではなく、現在起きている事柄に基づいて過去に起きたであろうことを確率的に検討するという、まるでタイムマシンのような計算ができることに気づいて、甚兵衛さんは大いに驚きました。

また「稲が病気にかかる割合は2割程度」というあやふやな情報(事前確率)に、稲穂の変色に関する情報を加味すると、「稲穂が変色したら、病気にかかっている確率が4割程度ある」という少し確実性のある情報(事後確率)に変わることにも気づきました。 そしてそのことから「事前確率(確実性低い)×情報→事後確率(確実性高い)」という、色々なところで応用できそうな原理を発見しました。

そこで甚兵衛さんはこの関係と原理を村のみんなに知らせるために、この便利図を算額にして村の神社に奉納しました。 そして村人達はその算額を見て、それを「甚兵衛さんの便利図の定理」と呼ぶようになりました。

やがてこの甚兵衛さんの便利図の算額は海を超えて遠く英吉利にまで伝わり、いつのまにかベン図(Venn diagram)ベイズの定理(Bayes's theorem)と呼ばれるようになり、病気の診断や迷惑メールの判別やベイズ統計学など、色々な分野で応用されるようになりましたとさ。(←一部ウソ!(^^;))

※図7.2の便利図とベイズの定理から、変色しない稲の中の病気ではない稲の割合(陰性予測値)を計算することができます。 興味のある方は是非計算してみてください。(^_-)