玄関小説とエッセイの部屋小説コーナーいつかどこかで

【4.標準偏差とは何ぞや?】

「位置母数はこれくらいにして、次は尺度母数の話だけど……」
「尺度母数って何だっけ? 随分前に聞いた言葉なんで、もう忘れちゃったよ」
「友則君が、話を脱線させてばっかいるからよ。 尺度母数ってのは、スカートの裾の広がり具合を表すものだったじゃないの」
「分布の広がり具合を表すものだよ! ほんとにもう……」

と、伴ちゃんはさすがに呆れ顔だ。

「そーだっけ? それで、その尺度母数にも色んな種類があるのかい?」
「うん。 代表的なのは『標準偏差』で、これ、聞いたことぐらいはあるよね?」
「かすかーにね。 もっちろん意味は知らんぜ、はっきり言って!」
「威張って言わなくてもいいよ、そんなこと」
「標準のくせに『ヘンさ』なんて居直ってて、気に入んないわねー、そいつ」と、ミミちゃん。
「データと平均との差を、『偏差』って言うんだよ。 つまりね……」

と言って、伴ちゃんはまたまた式を書いた。

d=x−

「……という値のことだよ。 それで、この偏差の平均を求めたいんだけど、偏差にはプラスとマイナスがあって、合計すると0になっちゃうから、偏差を平方したものを合計して、それを例数で割るんだよ」

と言いながら、続けて式を書いた。

SS=Sxx=Σd2=Σ(x−)2
V= S xx n = d 2 n = (x-x ) 2 n

「この値を『分散』っていって、『V』で表すんだけど、統計学上はこの分散が分布の広がり具合、つまりデータのバラツキ具合を表す値なんだよ。 でもね、分散は平方されちゃってるから、元のデータと単位が違ってて不便だよね? そこでこの分散をルートして……」

と、またまた続けて式を書いた。

SD= V = S xx n = d 2 n = (x-x ) 2 n

「……と、元のデータと同じ単位に戻したものを、『標準偏差』または『SD』と呼んで、もっぱらこっちの値を使っているんだよ」
「……グー…スー…グー……」
「頼むから眠らないでよ、ミミちゃん!」
「え? ここはどこ? あたしはだーれ?」
「あのねぇ……」
「オホホホホッ、冗談よ、冗談! 標準偏差でしょー? 分散でしょー? サインはVでしょー? ちゃんと聞いてましたわよ、コーチ、ソ連なんかに負けるもんですか!」
「そんな大昔のシャレを誰がわかると思っとるのかね、サンダース・ミミくん」と、すかさず僕が突っ込んで、「まだまだ、イナズマ攻撃の特訓が足らーんっ!」
「はいっ、すいません、コーチ! 苦しくったってェ〜、悲しくったってェ〜」
「……何だか知らないけど、二人で特訓してていいよ。 僕、ひとりで統計学の勉強してるから……」

と伴ちゃんがすねてしまったので、僕はバレーのコーチ役をやめて統計学の生徒役に戻った。

「その上に書いたSSってのは何だい、伴ちゃん?」
「これは『平方和』っていって、やっぱりバラツキ具合の要約値なんだけど、統計学者以外にはあんまり使われていないね」
「Sxxとイコールで結んであるけど、同じ意味なのかい?」
「うん。 SSは『sum of square』つまり『平方和』の略で、Sxxはxの偏差を2回掛けたって意味なんだよ」
「じゃあ、SDは何の略なんだい?」
「モチ、あたしと伴ちゃんの略よ」と、ミミちゃんが横から口を出した。
「ミミちゃんと伴ちゃんの……? なんで?」
「だって、SDはsteadyの略なんでしょー? ね、伴ちゃん?」
「おー、おー、ヌケヌケとステディなぞとほざきおって……」
「何、その、ステ…何とかっての?」と、相変わらず伴ちゃんは無邪気なもんだ。
「伴ちゃんは知らない方が身の為だよ。 熱病にかかって、うわ言を口走ってるだけなんだから、ミミちゃんは」
「熱病!? ミミちゃん、病気には見えないけど……?」
「心の病さ、立派に病人だよ。 ミミちゃんが早く正気に戻るよう願ってる野郎が大勢いるんだけど、僕の見たとこ、ますます悪化の一途をたどってるようだなぁ」
「そーなの、ほんと困っちゃうのよねー」などという言葉とは裏腹に、ミミちゃんは嬉しげな表情で、「もーほとんど完璧に不治の病ね、これは」
「変なの……。 ま、とにかく、SDはそんなんじゃなくて、『standard deviation』つまり『標準偏差』の略だよ」
「標準偏差って、あの悪名高い偏差値とよく似た言葉だけど、何か関係あんの?」と、うさん臭げにミミちゃん。
「うん、ある人のテストの点数と平均点の差、つまりその人の偏差を、全体の標準偏差で割った値が、偏差値のもとになっているんだよ」
「ますます気に入んないわねェ。 偏差値には、ウラミツラミが山ほどあるんだからー」
「まあね。 偏差値は数学者以外にはほとんど無意味だから、あんなものを教育に持ち込むなんて、ムチャクチャ間違ってるよね」
「そーだ、そーだっ! 聞いとるかァ、文部大臣に教育委員会の諸君!」

と言って、ミミちゃんが机代わりのコタツをドンと叩いたので、僕も声援を送った。

「いーぞ、いーぞ!」
「いーかっ、君達は間違っとるんだぞォー!」
「そのとおり、そのとおり!」
「あたしみたいな、か弱いレディーをあんなもんでイジメといて、いーと思っとるんかーっ!」
「か弱い、レディー……? どこがぁ?」

僕の言葉を無視し、ミミちゃんは一段と声を張り上げてシュプレヒコールを続けた。

「テメーたちゃ人間じゃねえ、たたっ切ってやるっ!!」
「ミミちゃん、あんた、一応、お嬢様なんだろ?」

僕はミミちゃんの可愛い横顔を眺めながら、ため息混じりに言った。 外見だけならどこぞのお嬢様ってな感じだし、実際にもかなりのお嬢様育ちらしいんだけど、生まれた時、お産婆さんか何かがうっかり手を滑らして頭から落としてしまったんだろう、可哀相によっぽど打ち所が悪かったんだと思うよ。

「あらまあ、あたくしとしたことが、はしたないお言葉をお使いあそばして、ごめんあそばせ、オホホホホー」
「無理して慣れん言葉遣いせんでもいーよ。 それにしても、ミミちゃんの親が聞いたら、さぞ嘆くだろーなぁ」
「もー、とっくの昔に諦めちゃってるわよ、うちの親なんて。 前はね、こー見えても、お茶やお花習わされたこともあったんだけどね」
「ぎょええーっ、ミミちゃんが、お茶にお花!? コ、コワイ……」
「どーして怖いのよ! でも、すぐ辞めちゃったけどね」
「やっぱりねぇ」
「何が、やっぱりよ!」と、ミミちゃんは憤慨した口調で、「あたしはやる気あったのよ、あたしはァ。 だのに、先生のほーから『辞めて欲しい』って言ってきたんだもんねー」
「何でまた、そんな。 何かやったのかい?」
「まーね。 でも、別にそー大したことじゃないのよ。 お茶の教室は、最初の日に茶碗割って、次の日にヤカンひっくり返しただけなのよォ。 そしたら、『もー明日から来なくていい』って、ほんっとあの先生、人間がミミッチーんだからァ」
「なるほど、ミミちゃんにしては、確かにそう大した失敗じゃないけどね。 で、花の方は?」
「お花の教室は、最初の日に花瓶割って、次の日は水こぼして教室中水浸しにして、それから、剣山で先生の着物破いちゃったのよね。 やっぱ、あれがまずかったのかなァー」
「そりゃあ辞めて欲しいわな、先生も……」
「女の暗い過去を暴露するのは止めて、統計学のお話しましょーよ。 で、伴ちゃん、標準偏差の他にも尺度母数ってあるわけ?」
「あるよ。 標準偏差以外でよく使われるのは、データの最大値と最小値の差の絶対値、つまり分布の幅を表す『範囲』って値だね。英語で言えばrangeだよ」
「じゃあ、電子レンジってのは、電子の広がり具合を表す言葉なのか!」と、僕はさも驚いたような顔をして、「知らんかったなー、僕はまた、料理用語だとばっかり思ってたんだけど、物理用語とはねぇ……」
「そう言えばそうだね、僕も、今まで気付かなかったけど。 ……そうか、電子レンジって、シュレディンガーの波動方程式と何か関係してるのかなぁ?」

と、伴ちゃんはマジに考え始めた。

「二人とも、おもいっきし長生きしてよね。 面会時間ってのがあったら、あたし、差し入れ持ってお見舞いに行ってあげっから」と、ミミちゃんは僕等に哀れみのまなざしを向け、「精神病院ってのは、一度入ったら二度と出られないってゆーしィ……」
「精神病院? どうして、僕等がそんなとこに入るの?」

と、伴ちゃんはキョトンとして邪心の無い目をミミちゃんに向けた。

「よーし、よし、ドードードー、なーんにも心配することなんて無いのよー。 興奮しないで、統計学の話を続けましょーねー」
「何かへんだなぁ……」と、割り切れない表情の伴ちゃんだったけど、すぐに思い直して、「ま、いいか。 それでさっき話した正規分布ではね、平均値も中央値も最頻値も、みんな同じ値になるし、例数と平均値と標準偏差の3つで、分布の形が完全に決まっちゃうから、普通はその3つの値でデータを要約するんだよ」
「なるほど、それでその3つの名前ぐらいは聞いたことがあったんだな、僕も」
「そうだと思うよ。 人間で言えば、例数は体重に、平均値は身長に、標準偏差はプロポーションに相当する、と思えばいいよね」
「ふぅ〜ん、何となくわかるけど、標準偏差は、もっと具体的に言うと何に相当するんだろーね? プロポーションと言っても、3つぐらい場所があるよ」

と言いながら、僕はミミちゃんをマジマジと眺めた。 小柄なくせに、ミミちゃんはなかなか見事なプロポーションの持ち主で、それがキュートな顔立ちをより一層引き立たせているんだ。 これで性格と男の好みがまともなら、ほんと、言うこと無いんだけどねぇ。

「そんな目で人のこと見ないでよっ、ヤラシーわねェ!」
「さっきは、聞かれもしないのに自分からスリーサイズを言ったり、スカートのスリットを見せびらかしたりしてたくせに」
「自分から言ったり、見せたりするのはいーのよ、別に。 でも、露骨に尋ねられたり、勝手にジロジロ見られたりするのはヤなのよね。 そこが女心の微妙さなのよねー」
「あ、あの、女心は置いといて、標準偏差の話なんだけど……」純情な伴ちゃん、顔を赤らめながら必死に話題を元に戻そうと、「ぼ、僕は、よく知らないけど、標準偏差は、やっぱり、ウ、ウエストあたりじゃないかと……」
「ウエスト?」
「うん、正規分布ではね、標準偏差は、平均値から分布の変曲点までの距離になるんだよ」
「変曲点って?」
「ほら、このグラフでね……」と、伴ちゃんは最初に描いた度数分布図を指でたどりながら、「分布の裾野から頂点に向かって登って行くと、途中で、へこんだカーブから膨らんだカーブに変わる所があるよね? ここが変曲点なんだよ」

彼が指を止めた所は分布の7合目あたりで、そこにSDの値を書き加えた。

標準偏差

「フゥーン、確かにカーブの様子が変わってるわねー。 でもこの分布、ちょっとフレアスカートに似てるから、ウエストってより腰骨あたりね」
「そう? 何のことかよくわからないけど、とにかくね、正規分布では、平均プラスマイナス標準偏差の間に、全データの68%が、平均プラスマイナス2倍の標準偏差の間には、95%のデータが含まれちゃうんだよ。 この性質、すごく重要なんだよね」
「へぇー、そんなもんかねぇ。 でもなんだね、正規分布ってあんまり魅力的なカーブじゃないし、プロポーションも1つの数字だけで決まっちゃうなんて、面白味が無いねぇ」
「そうかなぁ、僕は、正規分布の格好って、わりと好きだけど……」
「ほら聞いたかい、ミミちゃん?」と、僕は正規分布を指差しながら、「伴ちゃんは、こんな末広がりが好みなんだってさ。 ミミちゃん、無理にシェイプアップして、コーラ瓶みたいなスタイルになることはないよ」
「コーラ瓶とは何よ、レディに向かって失礼な! 友則君こそ、少しはシェイプアップしなくちゃ、今に一升瓶みたいなスタイルになっちゃうわよ」
「一升瓶とは何だい、ジェントルマンに向かって失礼な! 僕なんかまだいいよ、伴ちゃんみたいに、丸底フラスコみたいなスタイルじゃないから」
「瓶の話はどうでもいいけど、これからが大事な話なんだよ」と、伴ちゃんは僕等の瓶談義を遮り、「推測統計学では母集団の要約値、つまり母数が問題なんだけど、実際に計算できる要約値は標本集団の要約値、つまり統計量なんだよ、実は」
「そー言われればそーだね。 母集団って、たいてい無限にデータがあるわけだから、まともに計算できんこともあるだろーしね」
「うん、そうなんだよ。 そこで、標本集団の要約値から母集団の要約値を推測するわけなんだけど、その時、ちょっとした問題があるんだよ」
「問題って?」
「母平均は標本平均でそのまま推測できるんだけど、標準偏差はちょっとへそ曲がりで、標本集団の値そのままでは、母集団の値が推測できないんだよ」
「やっぱ、そーなのね? どーも、最初っから気に入んないヤツだと思ってたのよねー、標準偏差って」

と、ミミちゃんはさもありなんという表情だ。

「そう大したことじゃないけどね。 母集団の標準偏差を推測するには……」

と言って、伴ちゃんは次のような式を書いた。

SD= V = (x-x ) 2 n-1

「……と、例数の代わりに、例数から1を引いたもので平方和を割った方が、近似が良くなるんだよ」
「ヘェー、なぜ? どして?」
「それは、平均の定義式と関係しているんだよ。 例えば、この話の最初に、100人の体重を測定して、平均が60kgだったって例を出したよね?」
「100人の体重? そんな重そうな話、あったっけ?」
「あったよ、ミミちゃん」と、僕は横から口を出し、「ほら、ミミちゃんがダイエットするかしないかとか、寝グセがどーのこーのとか……」
「ああ、思い出したわ! このページから3ページほど前のページで話してたことで、ここをクリックすれば、そこにジャンプできるのよね」
「またそうやって、立場もわきまえずに、セリフの中にハイパーリンクを埋め込んだりして……」
「あら、友則君だって、前のページで自分のセリフの中に、【主な登場人物】なんてハイパーリンクを入れてたじゃない。 だいたい、これがHTMLの便利なとこなんだから、大いに利用しなくちゃー」

「それでね、平均が60kgに確定しっちゃったとすると、平均の定義式からわかるように、99個のデータは勝手に変化できるけど、最後の1個は、平均を60にするために勝手に変化できなくて、決まった値になっちゃうよね?」

と、伴ちゃんは僕等のハイパーリンク談義を無視して説明を続けた。

「え?え? それどーゆーこと? もう一度言ってみて」
「つまりね、100個全部のデータが勝手にばらついて、勝手な値をとったとしたら、平均も色々な値になっちゃうよね?」
「ン、ン、そこまではわかるわ。 それから?」
「だから、平均を60にするためには、全部のデータのうち、1個だけは勝手にばらつけなくて、値が決められちゃうことになるよね?」
「つまりそのデータは、自分の意志でバラついてるわけじゃなくて、他のわがままなデータの尻拭いのために、イヤイヤながらバラつかされてるってわけだね、伴ちゃん?」と、僕。
「まさしく、そのとおりなんだよ、友則」
「そっかァ! そん中に、友則君みたいなお人好しがいるわけね? そっか、そっか、どこの世界にも、そんな人ってひとりぐらいいるもんねー」
「誰がお人好しだってぇ?」と、僕。
「それでね、さっき説明したように、標準偏差は平方和というバラツキの合計を、そのバラツキの原因の数で割った、偏差の平均みたいな意味だったよね? だから本当は、例数じゃなくて、例数から1を引いた値で割った方が、正確な値になるんだよね」
「なるほど、バラツキの原因の数は、本当は例数マイナス1だもんな」
「そうなんだよ。 こういった、平均とデータの関係みたいなものを『一次従属』っていって、その中で自由に変化できるものを『独立変数』、独立変数によって値が決められちゃうものを『従属変数』、そして独立変数の数を『自由度』って呼ぶんだよ」
「じゃあ、例数から1を引いたものが、その自由度になるってわけ?」と、今度はミミちゃん。
「うん、そう、そのとおり。 つまり、バラツキの原因になるのは独立変数だから、その数である自由度で割った方が、理屈に合ってるってわけなんだよ」
「それじゃあ、推測統計学だと標本集団から母集団を推測するんだから、標準偏差は、例数じゃなくって自由度で割った方を使うのね?」
「そうだよ。 僕等のように、実験データばっかり相手にしている場合は、自由度で割った方を使わなくちゃならないんだよ。 欲しいのは、母集団についての情報だもんね」
「あっれー、ミミちゃん、珍しくまともな質問をするね。 どしたの、一体?」と、僕は驚いて尋ねた。
「なんか知んないけど、作者がやにあせってて、あたしに余計な口出しさせたくないみたいなのよねー。 話がややこしいので、説明をこんがらかしたくないんじゃない?」
「その言葉だけでも、十分こんがらがっちゃうと思うけどなぁ……」