前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 | 6 |
判別分析では尤度(ユウド、likelihood)という概念が重要になります。 尤度は条件付き確率の一種であり、特定の母数の「もっともらしさ」を表す値です。 例えばある母集団があり、そのTCは母平均値が200、母標準偏差が20の正規分布をしていたとします。 この母集団からひとつのデータをサンプリングした時、それが240である確率は理論的に計算することができます。 そしてこの場合、サンプリングしたデータの値は正規分布に従って確率的に変動するので確率変数になります。 それに対して母平均値と母標準偏差は定数であり変動しません。
しかし研究現場で我々が実際に手にすることができるのは標本集団のデータだけです。 そのため母集団の母数は、標本集団のデータに基づいてもっともらしい値をあれこれと推測するしかありません。 したがって我々にとっては標本集団のデータは値が変動しない定数であり、母数は値が変動する変数のように思えてしまいます。 そこで母数を色々と変化させた沢山の母集団を想定し、それらの母集団から実際に手にしている標本集団のデータが得られる条件付き確率を計算すれば、その確率はそれらの母数のもっともらしさを表す指標になるはずです。 これが尤度です。
例えば母平均値μが200で母標準偏差σが20である母集団から、240というデータが得られる確率が仮に0.1だとします。 これは数学的には「p(x=240|μ=200,σ=20)=0.1:μ=200、σ=20という条件下でデータx=240が得られる確率は0.1である」という条件付き確率で表現できます。 このことから実際に手にしているデータ240についてμ=200とσ=20の尤度は0.1ということになります。 また母平均値が250で母標準偏差が20である母集団から240というデータが得られる確率が仮に0.3だとすると、実際に手にしているデータ240についてμ=250とσ=20の尤度は0.3ということになります。 この2つの尤度を比べると後者の方が大きく、実際に手にしている240というデータは後者の母集団からサンプリングした可能性が高いと判断できます。
ただし尤度は母数が特定の値の時に実際に手にしているデータが得られる条件付き確率(結果の確率)であって、母数が特定の値である逆確率(原因の確率)ではないという点に注意する必要があります。 これについては第1章と付録6を参照してください。 (→1.4 推定の考え方、付録6 ベイズ統計学)
このように尤度が最も高い母数を推定する方法を最尤法(ML法、Maximun Likelihood method)といい、判別分析はこの最尤法を利用して群を判別します。 ちなみに最小2乗法は最尤法の特別な場合に相当し、データが正規分布する時、両者の推定値は一致します。 (注1)
我々が日常「確率」という言葉を使う時は、数学的な意味でいう本来の確率と、この尤度を混同していることが多いようです。 例えば悪性の遺伝病に犯された異常な性格の一家があり、その家の老婆が何とマンドリンで殴り殺されたとします。 警察は沢山の容疑者の中から長男に目をつけ、
「ホシは長男である確率が高い! なぜなら、ヤツには強力な動機があるからだ」
「問題は、凶器にふさわしい物が他にいくらでもあるにもかかわらず、なぜこの犯人はわざわざマンドリンを選んだのか、ということですよ。 というのも、マンドリンで人を殺せる確率など非常に低いと思われるからです」
ここで警察が使っている「確率」という言葉は、よく考えてみると本当は尤度(厳密にいえば逆確率)に近い意味です。 実際には犯人ははっきりと確定しているのですが、警察(あるいは読者?)にはまだ誰であるかわからないので、犯人があたかも変数のように思えてしまうのです(そのものずばり、犯人を未知数Xに見立てた推理小説としてクイーンの傑作推理小説『Xの悲劇』が有名です)。 そして警察は容疑者に関する色々なデータに基づいて、その人物が犯人である可能性を検討して犯人らしさが最も高い人物に目星(”ホシ=犯人”の語源)をつけたのです。
一方、名探偵が使っている「確率」という言葉はさすがに本来の確率に近く、沢山の人間を片っ端からマンドリンでブン殴った時、それによって死んでしまうような人間の数は、おそらくごくわずかしかいないだろうという推測に基づいています。
ちなみに、なぜこの犯人がマンドリンを凶器として選んだのか知りたい方は、クイーンの傑作推理小説『Yの悲劇』をお読みください。 ただし私見ながら、その理由は少々こじつけぎみであり、解答を読む前にそれを推理できる日本人の読者は1000人に1人いるかいないかだと思います。 また、たいていの推理小説は「最も犯人らしくない人物」が真犯人であることはご存知のとおりです。 そこで読者は尤度が最小の人物を探すことになり、「最(大)尤(度)法」ならぬ「最(小)尤(度)法」を適用しなければなりません。
このように確率も尤度も日常用語では「確率」または「可能性」という言葉で表現され、混同されることが多いのですが、数学的には別々の概念です。 そして数学者ではない我々一般人には、どちらかといえば尤度の方が馴染みやすいと思います。 というのも我々が実際に手にすることができるデータは全て標本集団に関するものばかりであり、母数は標本集団のデータからそれらしい値をあれこれ推測するしかなく、たいていの場合は永遠に謎のままのことが多いからです。
さて、いよいよ本題である群の判別について説明しましょう。 まず表9.1.1のTCを例にして、一番単純な変数が1つの時から考えてみます。 表9.1.1のTCは正常群と動脈硬化症群の母集団からサンプリングした標本集団のデータであると考えられます。 このデータに基づいて、それぞれの母集団のTCに関する母数を次のように推定します。
これらの母数推定値とデータが正規分布するという仮定から、特定のTCの値がそれぞれの母集団から得られる確率を計算することができます。 そしてその確率が特定のTCの値に対する2つの母集団の尤度になります。 そこで正常か動脈硬化か不明な被験者についてTCを測定し、その値に対する2つの母集団の尤度を比較することによって、どちらの群に属するか判別することが可能になります。
しかし、いちいち尤度を計算するのは面倒です。 もし2つの母集団に対する尤度が同じになるTCの値が計算できれば、その値を境界値にすることによって群の判別を簡単にすると同時に、感度や特異度を求めることもできそうです。 そこで計算を単純にするために、2つの群の母標準偏差が同じと仮定します。 そうすると2つの母集団に対する尤度が同じになるTCの値は2つの母平均値のちょうど真ん中になり、この場合は次のようになります。 (注2)
これらの結果は図9.3.1を見れば感覚的に理解できると思います。 誤判別確率は誤診率に相当し、判別分析では判別確率よりもこの誤判別確率を前面に出します。 これは検定における危険率と同じような扱い方であり、統計学では間違える確率の方を重視するという原則に基づいています。
この時の正診率は正常群と動脈硬化症群の例数が同じ、つまり動脈硬化症の有病率が50%の時の値であり、動脈硬化症の有病率が変われば正診率も変わります。 しかし2つの群の標準偏差が同じなら境界値は変わらず、判別確率と感度および特異度は変わりません。 そのため判別分析によって求めた境界値は「正診率を最大にする」という基準ではなく、感度と特異度のバランスを重視し、「感度と特異度の平均値を最大にする」という基準で求めた境界値ということになります。 この境界値の基準は第2節のDP-plotまたはROC曲線を利用した境界値の基準とほぼ同じであり、データが正規分布して2群の標準偏差が同じなら3種類の方法で求めた境界値は理論的に一致します。
図9.3.1において動脈硬化症群の尤度と正常群の尤度の比を取ると、データが境界値229以上の時は1以上になり、229未満の時は1未満になります。 そのため観測されたTCについて尤度比を求め、それを判別の指標として利用することができます。
しかし検査結果がTCのように計量値で得られるわけではなく、陽性か陰性かという定性的な結果しか得られない検査もあります。 そのような場合は疾患である人がその検査をして陽性になる確率つまり真陽性確率と、正常の人がその検査をして陽性になる確率つまり偽陽性確率がわかれば、検査結果が陽性の時に疾患である尤度と正常である尤度がわかり、尤度比を求めることができます。 真陽性確率はとりもなおさず感度のことであり、偽陽性確率は(1 − 特異度)のことなので、その検査の感度と特異度がわかれば尤度比を求めることができるわけです。 そして尤度比が大きいほど検査結果が陽性の時に疾患である確率が高くなり、高い確率で判別を行うことができます。
この原理を利用して、検査項目が診断に有用であるかどうかを表す指標として尤度比を用いたものが第2節で説明した陽性尤度比と陰性尤度比です。 陽性尤度比は検査結果が陽性である時の疾患の尤度と正常の尤度の比であり、陰性尤度比は反対に検査結果が陰性である時の疾患の尤度と正常の尤度の比です。 検査の感度と特異度が高いほど陽性尤度比は1より大きくなり、陰性尤度比は1より小さくなります。 そのため陽性尤度比と陰性尤度比を検査項目が診断指標として有用かどうかを表す指標として用いることができます。
この時、観測値x1、…、xnを固定して母数θを変数のように捉えた左辺ℒ(θ|x1,…,xn)をθの尤度といい、その内容である右辺を尤度関数といいます。 そして尤度を最大にするθの推定値を最尤推定量(maximum likelihood estimator)といい、最尤推定値を求める手法を最尤法といいます。 最尤推定値は次のような統計学的に好ましい性質を持っています。
尤度関数は確率密度関数の積で表されるので、最尤法では扱いやすいように対数変換します。 そしてその対数尤度関数をθで微分し、それを0と置いた微分方程式を解くことによって最尤推定量を求めます。 ただし多くの場合はその方程式を直接解くことができないので、ニュートン(Newton)法などを利用して近似解を求めます。
母数が複数ある時は、対数尤度関数を母数ベクトルθで偏微分して0ベクトルと置いた連立偏微分方程式を解きます。
この時、モデルの数学的な良し悪しを表す指標として赤池の情報量基準AIC(Akaike's Information Criterion)という値を計算することができます。
原則としてモデルの適合度は尤度が大きいほど良くなり、適合度の良いモデルは数学的に良いモデルと考えられます。 しかし通常は真のモデルは不明なので、最尤法ではデータから求めたモデルを利用して尤度を求めます。 そのため母数が多くなるとモデルとデータが過剰に適合しすぎる過剰適合(overfitting)が起き、尤度が過剰に大きくなってしまいます。 そこで最尤法による尤度を最大尤度とすると、真のモデルを用いた時の期待尤度は最大尤度を過剰適合による尤度で補正したものになるはずです。
この過剰適合による対数尤度がモデルの母数の数と比例することを赤池が証明し、期待対数尤度に(-2)を掛けた値をAICとして提唱しました。 簡単にいえば、できるだけ母数の少ない単純なモデルで、しかも尤度の大きいモデルが良いモデルであり、とりあえず真のモデルに近いだろうと考えたのです。 したがってAICを最小にするモデル(=期待尤度を最大にするモデル)が数学的に最も好ましいモデルであり、真のモデルの有力な候補であるということになります。 またAICは第1章第8節で説明した交差検証法(cross validatin method)と漸近的に同等であることが証明されています。 (→1.8 科学的研究の種類)
回帰関数y = f(x|θ) + εにおいて、回帰誤差εが正規分布に従うとすると次のような確率密度関数が得られます。
そしてn個の観測値から求めたεiに最尤法を適用すると次のようになります。
この式から、L(θ|ε)を最大にするには次のようにすれば良いことになります。
特にσi2 = σ2(等分散)の時は次のようになります。
これは重み付け最小2乗法または普通の最小2乗法の原理に他なりません。 このように最尤解は誤差εが正規分布する時は最小2乗解と一致し、BLUE(最良線形不偏推定量)解になります。 この最小2乗法の原理に基づいた重回帰分析では、AICは次のようになります。 (→5.1 相関係数と回帰直線、5.3 計数値の相関分析と回帰分析 (注4)、7.1 重回帰モデル (注1))
この式の最初の2つの項は定数であり、AICの大小には影響を与えないので省略することがあります。 また母数の数が(k + 2)になっているのは、母数としてk個の説明変数以外に目的変数が1個と誤差分散が1個あるからです。 そこでこれも省略して母数をkにしてしまい、次のような簡略な式を用いることがあります。
さらにAICは例数が無限大と仮定した時の漸近的理論式なので、例数が少ない時は有限修正を施した次のような式を用いて「AICc」または「c-AIC」で表すことがあります。
またベイズ統計学(ベイジアン統計学、Bayesian Statitics)では、AICを少し修正したベイズ情報量基準BIC(Bayesian Information Criterion、シュワルツのベイジアン情報量基準)を用いることがあります。 (→付録6 ベイズ統計学)
判別をもう少し簡単に行うために、2つの尤度を対数にしてその差をzとすると次のようになります。
ここで2群の母分散が等しく、σ12=σ22=σ2とすると次のようになります。
この式でz = 0と置いて、xの境界値xcを求めると次のようになります。
以上のように2群の母平均値の中点が境界値xcになります。 最尤法などという大袈裟な手法を使いながら結果はしごく単純であり、「大山鳴動して鼠一匹」という感じです。 まあ真理というものは、えてしてこんなものでしょう。
2群の母分散が等しくない時は以下のようになります。 ただしこの時は感度と特異度そして正診率が同じ値になるとは限りません。
ちなみにこの境界値は2群の例数が等しい時つまり疾患の有病率πD=0.5の時に、正診率を最大にする境界値になります。 感度をSN、特異度をSPとすると、πD≠0.5の時に正診率ACを最大にする境界値は次のようになります。 これは理論的DP-plotにおけるAC-pointに相当します。 (→9.2 群の判別と診断率 (注3))
または感度と特異度が等しくなる時の境界値は次のようになります。 これは理論的DP-plotにおけるSS-pointに相当し、感度と特異度と正診率が同じ値になります。 そしてこの式から、2群の母分散が等しい時の境界値は2群の母平均値の中点になることがわかります。 (→9.2 群の判別と診断率 (注3))