前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 | 6 | 8 | 9 |
理論確率π = 0.5の二項分布の極限として導かれた分布で、実験の測定誤差など大部分のデータはそのまま、あるいは適当な変数変換により正規分布をします。 統計学で最も広く応用される基本的な分布であり、平均値μ、分散σ2の正規分布をN(μ,σ2)と書きます。
確率密度関数(pdf:probability density function)は確率変数xの行動を規定する関数であり、それを積分したものが確率分布関数(df:disribution function)です。 xが計量尺度の時の確率分布ではxが特定の値の時の確率は理論的に0(無限小)になり、x = -∞ 〜 xまでの累積確率がF(x)になります。 そして確率密度関数f(x)のxに特定の値を代入した時の関数値はf(x)を(x - 0.5σ)〜(x + 0.5σ)について積分した値つまりxのσ単位当たり確率密度に相当します。 (→2.2 データの分布と統計手法 (注1))
μ = 0、σ2 = 12となるようにxを標準化したzを正規偏位(NED、normal deviate)といいます。 そしてこの時の正規分布を標準正規分布といい、N(0,12)またはφ(z)と書きます。
erf(x)は誤差関数(Error function)と呼ばれる関数であり、標準正規分布においてデータがの間に含まれる確率を表します。 ただしerf(x)は奇関数なのでxが負の場合は関数値が負になります。 また相補誤差関数(Complementary Error function)と呼ばれる関数erfc(x)も定義されていて、これはデータが-z 〜 zの間に含まれない確率を表します。
対数変換した変数y = ln(x)が正規分布に従う時、変数xの従う分布を対数正規分布またはジブラ分布(Gibrat's distribution)といいます。 yの平均値をμy、分散をσy2とすると、その確率密度関数と確率分布関数は次のようになります。
xの平均値をμx、中央値をμx'、幾何平均値をμx*、分散をσx2、変動係数をCVxとすると、これらのパラメーターとyのパラメーターの間には次のような関係があります。
ここでexの級数展開による近似式より、CVx ≪ 1の時は次のように近似できます。
y'' = log(x)と常用対数を用いた時は次のようになるので注意が必要です。
原理的には変動係数が一定のデータすなわち比例尺度のデータは対数正規分布に従い、標準偏差が一定のデータすなわち間隔尺度のデータは通常の正規分布に従います。
正規分布N(μ,σ2)に従う母集団からn個の標本変量xiを取り出した時、そのxiを標準化した正規偏位ziの2乗和はχ2分布に従います。
この時、お互いに独立なziの個数を自由度(degree of freedom)といい、自由度nのχ2分布をχ2(n)と書きます。 μが未知の時は標本平均値で代用して次のようになります。 これは自由度(n-1)のχ2分布に従います。
定義より、自由度1のχ2分布は標準正規分布の平方に一致します。
χ2の式を次のように変形すると、不偏分散Vにを掛けた式になります。 このことから、不偏分散にを掛けたものは自由度(n-1)のχ2分布をすることがわかります。
・φ = 1の時
・φ=2の時
ガンマ関数(gamma function)Γ(x)は階乗関数n!を実数にまで拡張した関数であり、次のように定義されています。
・φ:偶数の時
・φ:奇数の時
Γx(y)は不完全ガンマ関数(incomplete gamma function)であり、次のように定義されています。
正規分布N(μ,σ2)に従う母集団からn個の標本変量xiを取り出し、標本平均値mを求めて標準化すると次のようになります。
このzは標準正規分布N(0,12)に従う正規偏位です。 一方、zとは独立で、かつ自由度(n-1)のχ2分布に従う値χ2を用いて次のような値tを作ると、このtは自由度(n-1)のt分布に従います。
χ2分布のところで説明したように、不偏分散Vにを掛けた値はχ2になります。 そこで上式のχ2を不偏分散の式にすると、次のように標本平均値mを不偏分散Vを用いて標準化した値になります。 σ2が未知の時はこのように不偏分散を用いてmを標準化し、その値tは自由度(n-1)のt分布に従います。
「図 付録1.8 t分布の両側p値」からわかるようにnが50以上になるとt分布は標準正規分布で近似可能であり、n → ∞の時は標準正規分布と一致します。
・φ = ∞の時
ベータ関数(beta function)Β(x,y)はガンマ関数を組み合わせた関数であり、次のように定義されています。 これは組み合わせ数(二項係数)の逆数を実数にまで拡張した関数に相当します。
・φ:奇数
・φ:偶数
・φ:奇数
・φ:偶数
互いに独立にχ2分布に従うχ12(φ1)、χ22(φ2)について、それぞれを自由度で割って比を取った値は第1自由度φ1、第2自由度φ2のF分布に従います。
正規分布N(μ,σ2)に従う母集団から互いに独立に2組の標本変量xi、xi'を取り出して正規偏位の2乗和を作ると、それぞれχ2分布に従います。
μが未知の時は各群の標本平均値m1とm2で代用して次のようになります。
これらを自由度で割って比を取ると、次のように不偏分散V1とV2の比になります。 したがって不偏分散の比は第1自由度(n1 - 1)、第2自由度(n2 - 1)のF分布に従います。
F分布には次のような性質があります。
・φ1 = 1の時
・φ2 = ∞の時
Βγ(x,y)は不完全ベータ関数(incomplete beta function)であり、Iγ(x,y)は不完全ベータ関数とベータ関数の比である不完全ベータ関数比(正則ベータ関数:regularized beta function)です。 不完全ベータ関数は次のようなものです。
ここで次のように置きます。
・φ1:奇数、φ2:奇数
・φ1:奇数・偶数、φ2:偶数
・φ1:偶数、φ2:偶数・奇数
1回の試行で2種類の事象のどちらかが起き、しかもその事象が起きる確率が常に一定である試行のことをベルヌーイ試行(Bernoulli trial)と呼びます。 そして事象Aが起きる理論確率がπのベルヌーイ試行をn回行い、事象Aがr回起こる確率の分布を二項分布と呼びます。 これは二項検定や符号検定(π = 0.5とした二項検定)に用いられます。 nが大きい時、二項分布は正規分布N(nπ,nπ(1-π))によって近似できます。
二項分布の階乗関数をガンマ関数に変え、変数をrからt = πに変えるとベータ分布(beta distribution)になります。 そのためベータ分布は二項分布を実数にまで拡張した分布に相当します。
また互いに独立にχ2分布に従うV1(自由度:φ1)とV2(自由度:φ2)について、次の値は第1自由度m1=φ1/2、第2自由度m2=φ2/2のベータ分布に従います。
V1とV2を一元配置分散分析における不偏分散VAとVRにすると、この値は寄与率に相当します。 このことからベータ分布のtは出現率だけでなく寄与率と解釈することもできます。 そして寄与率と分散比の関係から、出現度数の分布である二項分布と、寄与率の分布であるベータ分布と、分散比の分布であるF分布の間には次のような関係があります。
この関係を数学的に証明することもできますが、二項分布の累積確率を漸化式を利用して求める式と、F分布の確率分布を求める式の中のφ1とφ2がどちらも偶数の時の式が最終的に同じ式になることから、直感的にも理解できると思います。 この関係を利用して二項検定の有意確率を求めたり、出現率の信頼区間を求めたりすることができます。 (→3.2 1標本の計数値 (2)名義尺度 (注1))
つぼの中に白球S個、赤球F個が入っていて、そこから非復元抽出法でm個取り出した時、白球a個、赤球(m - a)個になる確率の分布を超幾何分布と呼びます。 これは2×2分割表において、A1群とA2群のB1の出現率が同じ時に第3章の表3.4.15のような結果を得る確率に相当し、フィッシャーの正確検定に用いられます。 (→3.4 2標本の計数値 (2)名義尺度(分類データ) (注2))
群\分類 | B1 | B2 | 計 |
---|---|---|---|
A1 | a | b | m |
A2 | c | d | n |
計 | S | F | N |
まずS ≦ F、n、mかつad ≧ bcとなるように原表を置きなおします。
理論確率πの二項分布において、λ = r = nπと置き、λを一定に保ちながらn → ∞、π → 0とした極限では次のような関係が成り立ちます。 これをポアソンの小数の法則(Poisson's law of small numbers)といいます。
この関係を利用した極限分布がポアソン分布です。 交通事故の発生件数のような稀に発生する事象の個数はこの分布をします。 この分布はnが大きくてλがあまり大きくない時(0 < λ ≦ 5)は二項分布に近似し、λが大きくなると正規分布に近似します。
単位時間あたりの平均事象発生回数をとしたポアソン過程において、時刻tよりも前に発生した事象の回数をrとすると、その確率p(r)はポアソン分布になります。
一方、事象の発生回数がrになるまでの時間tの分布はガンマ分布(gamma distribution)になります。 そしてガンマ分布の確率密度関数はポアソン分布の確率密度関数の階乗関数r!をガンマ関数Γ(r)に変えたものなので、ガンマ分布はポアソン分布を実数にまで拡張した分布に相当します。 (→11.6 パラメトリック生命表解析)
ガンマ分布において、r = 1の時は指数分布になります。 つまり最初の事象が発生するまでの時間tの分布は指数分布になるのです。
またα = 2、φ = 2r、χ2 = tと置くと、ガンマ分布は自由度φのχ2分布になります。
これらの関係から、ポアソン分布の確率分布は自由度φ = 2(r+1)、χ2 = 2λとしたχ2分布の上側確率つまり有意確率p値で計算できることがわかります。
確率変数xj(j = 1,…p)が正規分布N(μj,σj2)に従い、お互いに相関関係があるとします。 この時、次のような確率変数ベクトルxはp次元正規分布に従います。 (→9.4 多変量の場合 (注1))
μj = 0、σjj = σj2 = 1の時はp次元標準正規分布N(0,∑)になります。
通常はこの重積分をまともに計算せず、もっと簡単な積分にしてから計算します。 その方法については多変量t分布の解説を参照してください。
互いに独立に標準正規分布N(0,12)に従う確率変数z1、z2、…、zaがあり、それらとは独立で、かつ自由度φのχ2分布に従う確率変数χ2がある時、次のような確率変数q(a;φ)の分布のことを群数a、自由度φのステューデント化範囲の分布と呼びます。
テューキー型多重比較における検定統計量は次のとおりでした。 (→4.1 多標本の計量値 (注4))
mi(i = 1,…,a)は正規分布N(μi,σ2/r)に従うので、これらを標準化したziは標準正規分布に従います。
一方、残差分散と残差自由度とχ2の間には次のような関係があります。
これらの関係から、テューキー型多重比較における検定統計量とq(a;φ)の関係を導くことができます。
テューキー型多重比較の場合、miと他の群の平均値の比較が複数あるので、それらのqoはお互いに独立ではなく関連性があります。 そして各群の例数が不揃いの時はqoごとに関連性の強さが異なります。 しかしqoが関連性を持つ時の有意確率は独立の時の有意確率よりも小さくなる、つまりqoが関連性を持つ時の帰無仮説の棄却域は独立の時の棄却域よりも狭くなります。 そこでq(a;φ)の分布を利用して有意確率を求めておけば、多重比較のファミリーとしての危険率をα以下に抑えることができます。 したがって各群の例数が不揃いでも、q(a;φ)の分布を利用してテューキー型多重比較の有意確率を求めることができます。
F(q)は標準正規分布の累積確率の差に相当するhq(z;q,s)のべき乗を標準正規分布Φ(z)で重み付けして積分し、さらにそれをχ2分布に相当するg(s2)で重み付けして積分したものになります。 そのためΦ(z)が非常に小さな値(10-16〜10-14程度)になる時のzの値(10程度)を事実上の∞の値と考え、さにらg(s2)の値が小さな値(10-16〜10-14程度)になる時のs2の値(100程度)を事実上の∞の値と考えて定積分を求めれば近似値を求めることができます。
F(q)は解析的に計算できないので、次のようにガウス・ルジャンドル(Gauss-Legendre)積分を用いて近似的に計算します。
a = 2の時、上側有意確率は自由度φのt分布の両側有意確率に一致し、さらに自由度が無限大の時は標準正規分布の両側有意確率に一致します。
p次元標準正規分布に従う確率変数zj(j = 1,…,p)と、それらとは独立で、かつ自由度φのχ2分布に従う確率変数χ2がある時、次のような確率変数tjはp次元t分布に従います。 p = 1の時、多変量t分布は単変量t分布つまり普通のt分布になり、φ = ∞の時はp次元標準正規分布になります。
ダネット型多重比較における検定統計量は次のとおりでした。 (→4.1 多標本の計量値 (注4))
残差分散と残差自由度とχ2の関係から、検定統計量do( = to)は自由度φRの(1-a)次元t分布に従います。
ダネット型多重比較の場合、対照群の平均値m1と他の群の平均値を比較するので、doはお互いに独立ではなく相関関係を持ちます。 そしてその相関係数は次のようになります。
この相関係数をΣの要素にした自由度φRの(1-a)次元t分布をd(a;φ,Σ)と表すと、この分布を利用してダネット型多重比較の有意確率を求めることができます。 ただし(1-a)次元t分布は解析的に計算できないので、ステューデント化範囲の分布と同様にガウス・ルジャンドル積分を用いて近似的に計算します。
F(d)は標準正規分布の累積確率の差に相当するhd(z;d,s)のべき乗を標準正規分布Φ(z)で重み付けして積分し、さらにそれをχ2分布に相当するg(s2)で重み付けして積分したものになります。 そのためΦ(z)が非常に小さな値(10-16 〜 10-14程度)になる時のzの値(10程度)を事実上の∞の値と考え、さにらg(s2)の値が小さな値(10-16 〜 10-14程度)になる時のs2の値(100程度)を事実上の∞の値と考えて定積分を求めれば近似値を求めることができます。
ただし例数が不揃いの時の計算式は少々ややこしいので、対照群以外の群の例数が揃っている時について説明しましょう。 その場合、ρij = λ1jとなって相関係数が全て等しくなり、計算式が簡単になります。
この時のd(a;φ,ρ)と両側確率のグラフを描くと次のようになります。 これらのグラフから相関係数の影響は自由度や群数よりも小さいので、各群の例数が不揃いでも検定結果はあまり変わらないことがわかります。
ちなみにtj(j = 1,…,a-1)がお互いに独立の時、この中の最大絶対値max(|tj|)の分布のことをステューデント化された最大絶対値の分布(Studentized maximum modulus distribution)と呼びます。 この分布はρ = 0の時の多変量t分布に相当します。 またΦ = ∞の時の多変量t分布は多変量正規分布になり、ρ = 1の時は普通のt分布と一致します。
標準正規分布N(0,12)に従うお互いに独立な変数z1,…,zi,…,zφと定数λ1,…,λi,…,λφがあり、
Σの後の{}の中はパラメータ(λ/2)のポアソン分布の確率密度に相当します。 そのため非心χ2分布の確率分布関数F(χ2,φ,λ)は、通常のχ2分布の確率分布関数F(χ2,φ+2j)をパラメータ(λ/2)のポアソン分布の確率密度で重み付けして合計したものになります。 そして重み付けした項が非常に小さな値(10-10 〜 10-8)になった時に計算を打ち切ることによって、累積確率を求めることができます。
標準正規分布N(0,12)に従う変数zと、zとは独立で、かつ自由度φのχ2分布に従う変数χ2 = V/σ2と、定数λ = μ/σを用いて次のような値tを作ると、このtは自由度φ、非心度λの非心t分布に従います。 非心t分布は検出力を求める時などに利用され、非心度λが0の時は通常のt分布つまり中心t分布(central t distribution)になります。
Φ(-λ)は標準正規分布における-∞ 〜 -λまでの累積確率になりますが、この値は非心t分布における-∞ 〜 0までの累積確率になります。 そしてΦ(-λ)の次の項が非心t分布における0 〜 tまでの累積確率になります。 その項の中の不完全ベータ関数比は不完全ベータ関数とベータ関数の比であり、F分布の確率分布関数でも用いています。 この不完全ベータ関数比It2/(t2+Φ)(1/2,Φ/2)は、自由度Φのt分布を平方した第1自由度1、第2自由度ΦのF分布の確率分布関数に相当します。
そしてこの不完全ベータ関数比の前の部分は、パラメータ(λ2/2)のポアソン分布の確率密度に似たものになります。 そのためこの項はt分布を平方したものをポアソン分布の確率密度に似た値で重み付けして合計したものになります。 そこで非心χ2分布と同様に、重み付けした項が非常に小さな値(10-10 〜 10-8)になった時に計算を打ち切ることによって累積確率を求めることができます。
図 付録1.28のように-λ < 0の非心t分布の確率密度関数は、p軸(縦軸)を中心にしてλ > 0の非心t分布と線対称になります。 そのためt < 0かつλ < 0の時の確率分布関数は、t ≧ 0かつλ ≧ 0の時の分布関数F(t|t ≧ 0,λ ≧ 0)の上側確率つまり{1 - F(t|t ≧ 0,λ ≧ 0)}になります。
自由度Φの通常のt分布を平方したものが第1自由度1、第2自由度Φの通常のF分布に相当するように、自由度Φ、非心度λの非心t分布を平方したものは第1自由度1、第2自由度Φ、非心度λ2の非心F分布に相当します。 そして非心F分布の分布関数F(t2,1,Φ,λ2)の値は、非心t分布における-t 〜 tの間の累積確率になります。 そこで-∞ 〜 tまでの累積確率になるF(t|t≧0,λ≧0)からF(t2,1,Φ,λ2)を引けば-∞ 〜 -tまでの累積確率になり、t < 0かつλ ≧ 0の時の分布関数F(t|t<0,λ≧0)になります。
t < 0かつλ < 0の時と同様に非心t分布のp軸線対称性から、t ≧ 0かつλ < 0の時の確率分布関数は、t < 0かつλ ≧ 0の時の分布関数F(t|t<0,λ≧0)の上側確率つまり{1 - F(t|t<0,λ≧0)}になります。
自由度φ1、非心度λの非心χ2分布に従う変数χ12と、それとは独立に自由度φ2のχ2分布に従う変数χ22について、それぞれを自由度で割って比をとった値Fは第1自由度φ1、第2自由度φ2、非心度λの非心F分布に従います。 非心F分布はF値の信頼区間を求める時などに利用され、非心度λが0の時は通常のF分布つまり中心F分布(central F distribution)になります。
これは不完全ベータ関数比をパラメータ(λ/2)のポアソン分布の確率密度で重み付けして合計したものになります。 そして不完全ベータ関数比は通常のF分布の確率分布関数に相当するので、結局のところ通常のF分布の確率分布関数をパラメータ(λ/2)のポアソン分布の確率密度で重み付けして合計したものになります。 そこで非心χ2分布と同様に、重み付けした項が非常に小さな値(10-10 〜 10-8)になった時に計算を打ち切ることによって累積確率を求めることができます。
主な分布の関係を模式的に表すと次のようになります。
各種分布のパーセント点を計算するには、ニュートン(Newton)法を利用してp値から逆算します。 分布の値をz、それをp値に変換する関数をp(z)とすると、その手順は次のとおりです。
実際にはp(z)が指数関数的なので対数変換したln{p(z)}を直線で近似します。 それには次のようにテイラー(Taylor)展開を利用します。
ln{p(z)}の微分係数が求められない時は次のような差分法を用いて計算します。
この結果、z1はz*に近づくはずなので、z0をz1で更新して収束するまで(ii)以後をくり返します。