玄関雑学の部屋雑学コーナー統計学入門

付録

付録1 各種の確率分布

(1) 正規分布(normal distribution)

理論確率π = 0.5の二項分布の極限として導かれた分布で、実験の測定誤差など大部分のデータはそのまま、あるいは適当な変数変換により正規分布をします。 統計学で最も広く応用される基本的な分布であり、平均値μ、分散σ2の正規分布をN(μ,σ2)と書きます。

○正規分布の確率密度関数

 (-∞ < x < ∞、-∞ < μ < ∞、σ > 0)
平均値:
分散:
歪度:  尖度:β2 = 3

○正規分布の確率分布関数

確率密度関数(pdf:probability density function)は確率変数xの行動を規定する関数であり、それを積分したものが確率分布関数(df:disribution function)です。 xが計量尺度の時の確率分布ではxが特定の値の時の確率は理論的に0(無限小)になり、x = -∞ 〜 xまでの累積確率がF(x)になります。 そして確率密度関数f(x)のxに特定の値を代入した時の関数値はf(x)を(x - 0.5σ)〜(x + 0.5σ)について積分した値つまりxのσ単位当たり確率密度に相当します。 (→2.2 データの分布と統計手法 (注1))

○標準正規分布の確率密度関数

μ = 0、σ2 = 12となるようにxを標準化したzを正規偏位(NED、normal deviate)といいます。 そしてこの時の正規分布を標準正規分布といい、N(0,12)またはφ(z)と書きます。

  正規偏位:

○標準正規分布の確率分布関数


※実際の計算は となった時に打ち切る。

erf(x)は誤差関数(Error function)と呼ばれる関数であり、標準正規分布においてデータがの間に含まれる確率を表します。 ただしerf(x)は奇関数なのでxが負の場合は関数値が負になります。 また相補誤差関数(Complementary Error function)と呼ばれる関数erfc(x)も定義されていて、これはデータが-z 〜 zの間に含まれない確率を表します。



ここでと置いて置換積分を適用すると


erf(x) + erfc(x) = 1

○有意確率

片側有意確率:
両側有意確率:p
図 付録1.1 標準正規分布(確率密度関数) 図 付録1.2 標準正規分布(確率分布関数) 図 付録1.3 正規分布の両側p値

○対数正規分布

対数変換した変数y = ln(x)が正規分布に従う時、変数xの従う分布を対数正規分布またはジブラ分布(Gibrat's distribution)といいます。 yの平均値をμy、分散をσy2とすると、その確率密度関数と確率分布関数は次のようになります。

 (x > 0、-∞ < μy < ∞、σy > 0)
 Φ(z):標準正規分布の確率分布関数
図 付録1.4 対数正規分布(確率密度関数)

xの平均値をμx、中央値をμx'、幾何平均値をμx*、分散をσx2、変動係数をCVxとすると、これらのパラメーターとyのパラメーターの間には次のような関係があります。

 (定義)
  

     σy2 = ln(CVx2 + 1)

ここでexの級数展開による近似式より、CVx ≪ 1の時は次のように近似できます。


∴|x| ≪ 1 の時 ex ≒ 1 + x
CVx2 = exp(σy2) - 1 ≒ 1 + σy2 - 1 = rσy2
∴σy ≒ CVx

y'' = log(x)と常用対数を用いた時は次のようになるので注意が必要です。

  y = ln(10) y'' ≒ 2.3026 y''   μy = ln(10) μy'' ≒ 2.3026 μy''
σy2 = {ln(10) σy''}2   σy = ln(10) σy'' ≒ 2.3026 σy''

原理的には変動係数が一定のデータすなわち比例尺度のデータは対数正規分布に従い、標準偏差が一定のデータすなわち間隔尺度のデータは通常の正規分布に従います。

(2) χ2分布(chi-square distribution)

正規分布N(μ,σ2)に従う母集団からn個の標本変量xiを取り出した時、そのxiを標準化した正規偏位ziの2乗和はχ2分布に従います。

   (i = 1,…,n)

この時、お互いに独立なziの個数を自由度(degree of freedom)といい、自由度nのχ2分布をχ2(n)と書きます。 μが未知の時は標本平均値で代用して次のようになります。 これは自由度(n-1)のχ2分布に従います。

     

定義より、自由度1のχ2分布は標準正規分布の平方に一致します。

χ2の式を次のように変形すると、不偏分散Vにを掛けた式になります。 このことから、不偏分散にを掛けたものは自由度(n-1)のχ2分布をすることがわかります。

○χ2分布の確率密度関数

 (χ2 ≧ 0、φ:整数 > 0)
平均値:E(χ2) = φ  分散:V(χ2) = 2φ   歪度:   尖度:

・φ = 1の時


φ(χ):標準正規分布の確率密度関数

・φ=2の時

ガンマ関数(gamma function)Γ(x)は階乗関数n!を実数にまで拡張した関数であり、次のように定義されています。


Γ(x + 1) = x・Γ(x)  Γ(n + 1) = n! (n:整数)
Γ(1) = Γ(2) = 1  Γ(0) = ∞

・φ:偶数の時

 (φ/2 個)

・φ:奇数の時

 ((φ + 1)/2 + 1 個)

○χ2分布の確率分布関数


※実際の計算はとなった時に打ち切る。

Γx(y)は不完全ガンマ関数(incomplete gamma function)であり、次のように定義されています。

 (x > 0)

○有意確率

上側有意確率:
※実際の計算はとなった時に打ち切る。
両側有意確率:2p
図 付録1.5 χ2分布(確率密度関数) 図 付録1.6 χ2分布の片側p値

(3) t分布(t distribution、Student distribution)

正規分布N(μ,σ2)に従う母集団からn個の標本変量xiを取り出し、標本平均値mを求めて標準化すると次のようになります。

  

このzは標準正規分布N(0,12)に従う正規偏位です。 一方、zとは独立で、かつ自由度(n-1)のχ2分布に従う値χ2を用いて次のような値tを作ると、このtは自由度(n-1)のt分布に従います。

χ2分布のところで説明したように、不偏分散Vにを掛けた値はχ2になります。 そこで上式のχ2を不偏分散の式にすると、次のように標本平均値mを不偏分散Vを用いて標準化した値になります。 σ2が未知の時はこのように不偏分散を用いてmを標準化し、その値tは自由度(n-1)のt分布に従います。

「図 付録1.8 t分布の両側p値」からわかるようにnが50以上になるとt分布は標準正規分布で近似可能であり、n → ∞の時は標準正規分布と一致します。

t(∞) = N(0,12)   {t(∞)}2 = {N(0,12)}2 = χ2(1)

○t分布の確率密度関数

 (-∞ < t < ∞、φ:整数 > 0)
平均値:E(t) = 0 (φ > 1)   分散: (φ > 2)
歪度: (φ > 3)   尖度: (φ > 4)

・φ = ∞の時


φ(t):標準正規分布の確率密度関数

ベータ関数(beta function)Β(x,y)はガンマ関数を組み合わせた関数であり、次のように定義されています。 これは組み合わせ数(二項係数)の逆数を実数にまで拡張した関数に相当します。


Β(x,y) = Β(y,x)  
 (n,m:整数)  Β(1,1) = 1

○t分布の確率分布関数

・φ:奇数


  a0 = 1   
φ = 1の時:
φ = 3の時:

・φ:偶数


  b0 = 1   
φ = 2の時:

○有意確率

片側有意確率:
両側有意確率:p

・φ:奇数

φ = 1の時:
φ = 3の時:
φ > 3の時:

・φ:偶数

φ = 2の時:p = 1 - sin(θ)
φ > 2の時:
図 付録1.7 t分布(確率密度関数) 図 付録1.8 t分布の両側p値

(4) F分布(F distribution)

互いに独立にχ2分布に従うχ121)、χ222)について、それぞれを自由度で割って比を取った値は第1自由度φ1、第2自由度φ2のF分布に従います。

正規分布N(μ,σ2)に従う母集団から互いに独立に2組の標本変量xi、xi'を取り出して正規偏位の2乗和を作ると、それぞれχ2分布に従います。

  

μが未知の時は各群の標本平均値m1とm2で代用して次のようになります。

  

これらを自由度で割って比を取ると、次のように不偏分散V1とV2の比になります。 したがって不偏分散の比は第1自由度(n1 - 1)、第2自由度(n2 - 1)のF分布に従います。

F分布には次のような性質があります。

F(1,φ2) = {t(φ2)}2   F(1,∞) = {t(∞)}2 = {N(0,12)}2 = χ2(1)
  

○F分布の確率密度関数

 (F ≧ 0、φ12:整数 > 0)
平均値:2 > 2)   分散:2 > 4)
歪度:2 > 6)   尖度:2 > 8)

・φ1 = 1の時


f(t):t(φ2)分布

・φ2 = ∞の時

f(F) = φ1f(χ2)
f(χ2):χ21)分布、ただしχ2 = φ1F

○F分布の確率分布関数

  

Βγ(x,y)は不完全ベータ関数(incomplete beta function)であり、Iγ(x,y)は不完全ベータ関数とベータ関数の比である不完全ベータ関数比(正則ベータ関数:regularized beta function)です。 不完全ベータ関数は次のようなものです。

(0 < γ < 1)

ここで次のように置きます。

  φ = φ1 + φ2   

・φ1:奇数、φ2:奇数

F(F) = A + B


φ2 = 1の時:   φ2 = 3の時:
φ1 = 1の時:B = 0

・φ1:奇数・偶数、φ2:偶数

・φ1:偶数、φ2:偶数・奇数

○有意確率

上側有意確率:p = P(F ≧ F) = 1 - F(F)
両側有意確率:2p
図 付録1.9 F[2,φ2]分布(確率密度関数) 図 付録1.10 F[2,φ2]分布の片側p値
図 付録1.11 F[3,φ2]分布(確率密度関数) 図 付録1.12 F[3,φ2]分布の片側p値

(5) 二項分布(binominal distribution)

1回の試行で2種類の事象のどちらかが起き、しかもその事象が起きる確率が常に一定である試行のことをベルヌーイ試行(Bernoulli trial)と呼びます。 そして事象Aが起きる理論確率がπのベルヌーイ試行をn回行い、事象Aがr回起こる確率の分布を二項分布と呼びます。 これは二項検定や符号検定(π = 0.5とした二項検定)に用いられます。 nが大きい時、二項分布は正規分布N(nπ,nπ(1-π))によって近似できます。

○二項分布の確率密度関数

 (0 ≦ r:整数 ≦ n、n:整数 > 0、0 < π < 1)
・π = 0.5の時
 (左右対称)
平均値:
分散:
歪度:   尖度:

○二項分布の確率分布関数

○有意確率

f0 = 1      とすると
上側有意確率:  ただし
両側有意確率:2p (2p > 1 なら1にする)

図 付録1.13 二項分布[n=10,p=0.3] 図 付録1.14 二項分布[n=10]の片側p値

○二項分布とベータ分布とF分布の関係

二項分布の階乗関数をガンマ関数に変え、変数をrからt = πに変えるとベータ分布(beta distribution)になります。 そのためベータ分布は二項分布を実数にまで拡張した分布に相当します。

 (0 ≦ t ≦ 1、m1,m2 > 0)

また互いに独立にχ2分布に従うV1(自由度:φ1)とV2(自由度:φ2)について、次の値は第1自由度m11/2、第2自由度m22/2のベータ分布に従います。

V1とV2を一元配置分散分析における不偏分散VAとVRにすると、この値は寄与率に相当します。 このことからベータ分布のtは出現率だけでなく寄与率と解釈することもできます。 そして寄与率と分散比の関係から、出現度数の分布である二項分布と、寄与率の分布であるベータ分布と、分散比の分布であるF分布の間には次のような関係があります。

二項分布の確率分布関数:

:分散比F → 寄与率πの変換式
:寄与率π → 分散比Fの変換式
f(t;m1,m2):変数t、第1自由度m1、第2自由度m2のベータ分布の確率密度関数、t = π、m1 = r + 1、m2 = n - r
f(F;φ12):変数F、第1自由度φ1、第2自由度φ2のF分布の確率密度関数、φ1 = 2m1 = 2(r + 1)、φ2 = 2m2 = 2(n - r)
F(F;φ12):f(F;φ12)の確率分布関数

この関係を数学的に証明することもできますが、二項分布の累積確率を漸化式を利用して求める式と、F分布の確率分布を求める式の中のφ1とφ2がどちらも偶数の時の式が最終的に同じ式になることから、直感的にも理解できると思います。 この関係を利用して二項検定の有意確率を求めたり、出現率の信頼区間を求めたりすることができます。 (→3.2 1標本の計数値 (2)名義尺度 (注1))

(6) 超幾何分布(hypergeometric distribution)

つぼの中に白球S個、赤球F個が入っていて、そこから非復元抽出法でm個取り出した時、白球a個、赤球(m - a)個になる確率の分布を超幾何分布と呼びます。 これは2×2分割表において、A1群とA2群のB1の出現率が同じ時に第3章の表3.4.15のような結果を得る確率に相当し、フィッシャーの正確検定に用いられます。 (→3.4 2標本の計数値 (2)名義尺度(分類データ) (注2))

表3.4.15 2×2分割表
群\分類B1B2
A1abm
A2cdn
SFN

○超幾何分布の確率密度関数

 (0 ≦ a:整数 ≦ min(m,S)、N,m,n,S,F:整数 > 0)
平均値:   分散:
歪度:
尖度:

○超幾何分布の確率分布関数

○有意確率

まずS ≦ F、n、mかつad ≧ bcとなるように原表を置きなおします。

f0 = 1      とすると
上側有意確率: ただし
両側有意確率:2p (2p > 1 なら1にする)

図 付録1.15 超幾何分布[S=n=10,F=m=20] 図 付録1.16 超幾何分布[S=n=10,F=m=20]の片側p値

(7) ポアソン分布(Poisson distribution)

理論確率πの二項分布において、λ = r = nπと置き、λを一定に保ちながらn → ∞、π → 0とした極限では次のような関係が成り立ちます。 これをポアソンの小数の法則(Poisson's law of small numbers)といいます。

この関係を利用した極限分布がポアソン分布です。 交通事故の発生件数のような稀に発生する事象の個数はこの分布をします。 この分布はnが大きくてλがあまり大きくない時(0 < λ ≦ 5)は二項分布に近似し、λが大きくなると正規分布に近似します。

○ポアソン分布の確率密度関数

 (r:整数 ≧ 0、λ > 0)
平均値:λ  分散:λ  尖度:   歪度:

○ポアソン分布の確率分布関数


f(0) = exp(-λ)    (r ≧ 1) とすると
図 付録1.17 ポアソン分布の確率密度関数[λ=5] 図 付録1.18 ポアソン分布の確率分布関数

○ポアソン分布とガンマ分布とχ2分布の関係

単位時間あたりの平均事象発生回数をとしたポアソン過程において、時刻tよりも前に発生した事象の回数をrとすると、その確率p(r)はポアソン分布になります。

 (r:整数 ≧ 0、α > 0、t ≧ 0)

一方、事象の発生回数がrになるまでの時間tの分布はガンマ分布(gamma distribution)になります。 そしてガンマ分布の確率密度関数はポアソン分布の確率密度関数の階乗関数r!をガンマ関数Γ(r)に変えたものなので、ガンマ分布はポアソン分布を実数にまで拡張した分布に相当します。 (→11.6 パラメトリック生命表解析)

 (t ≧ 0、α > 0、r:実数 > 0)
… rを実数にまで拡張したポアソン分布に相当

ガンマ分布において、r = 1の時は指数分布になります。 つまり最初の事象が発生するまでの時間tの分布は指数分布になるのです。

またα = 2、φ = 2r、χ2 = tと置くと、ガンマ分布は自由度φのχ2分布になります。

これらの関係から、ポアソン分布の確率分布は自由度φ = 2(r+1)、χ2 = 2λとしたχ2分布の上側確率つまり有意確率p値で計算できることがわかります。


χ2(2λ,2(r+1)):自由度φ = 2(r+1)のχ2分布におけるχ2 = 2λの有意確率p値
F(χ2,φ):変数χ2,自由度φのχ2分布の確率分布関数

(8) 多変量正規分布(multivariate t distribution)

確率変数xj(j = 1,…p)が正規分布N(μjj2)に従い、お互いに相関関係があるとします。 この時、次のような確率変数ベクトルp次元正規分布に従います。 (→9.4 多変量の場合 (注1))

○p次元正規分布の同時確率密度関数


確率変数ベクトル:   母平均値ベクトル:
母(分散)共分散行列:
μj:xjの母平均値   σjj = σj2:xjの母分散   σij = σji:xiとxjの母共分散
Σ=Σ' (対称行列)   |Σ|:Σの行列式   Σ-1Σの逆行列

μj = 0、σjj = σj2 = 1の時はp次元標準正規分布N(,)になります。


正規偏位ベクトル:=-μ   母相関係数行列:

○p次元標準正規分布の同時確率分布関数

通常はこの重積分をまともに計算せず、もっと簡単な積分にしてから計算します。 その方法については多変量t分布の解説を参照してください。

図9.4.1 2次元正規分布

(9) ステューデント化範囲の分布(Studentized range distribution)

互いに独立に標準正規分布N(0,12)に従う確率変数z1、z2、…、zaがあり、それらとは独立で、かつ自由度φのχ2分布に従う確率変数χ2がある時、次のような確率変数q(a;φ)の分布のことを群数a、自由度φのステューデント化範囲の分布と呼びます。

 (i,j = 1,…,a)
max():最大値を返す関数

テューキー型多重比較における検定統計量は次のとおりでした。 (→4.1 多標本の計量値 (注4))

mi:特定のi群の平均値  mj:特定のj群の平均値   r:両群の例数(同一)
a:群数  VR:残差分散  φR:残差自由度
平均値の差:md = mi-mj
平均値の差の標準誤差:
検定統計量:

mi(i = 1,…,a)は正規分布N(μi2/r)に従うので、これらを標準化したziは標準正規分布に従います。

(i = 1,…,a)

一方、残差分散と残差自由度とχ2の間には次のような関係があります。

これらの関係から、テューキー型多重比較における検定統計量とq(a;φ)の関係を導くことができます。


テューキー型多重比較の帰無仮説より:μi = μj

※群の例数が不揃いの時:テューキー・クレーマー(Tukey-Kramer)の方法

テューキー型多重比較の場合、miと他の群の平均値の比較が複数あるので、それらのqoはお互いに独立ではなく関連性があります。 そして各群の例数が不揃いの時はqoごとに関連性の強さが異なります。 しかしqoが関連性を持つ時の有意確率は独立の時の有意確率よりも小さくなる、つまりqoが関連性を持つ時の帰無仮説の棄却域は独立の時の棄却域よりも狭くなります。 そこでq(a;φ)の分布を利用して有意確率を求めておけば、多重比較のファミリーとしての危険率をα以下に抑えることができます。 したがって各群の例数が不揃いでも、q(a;φ)の分布を利用してテューキー型多重比較の有意確率を求めることができます。

○ステューデント化範囲の分布の確率密度関数


  
の確率密度関数(χ2分布)
:標準正規分布の確率密度関数   :標準正規分布の確率分布関数

○ステューデント化範囲の分布の確率分布関数


全ての群の例数が等しい時:
さらにΦR = ∞の時:

F(q)は標準正規分布の累積確率の差に相当するhq(z;q,s)のべき乗を標準正規分布Φ(z)で重み付けして積分し、さらにそれをχ2分布に相当するg(s2)で重み付けして積分したものになります。 そのためΦ(z)が非常に小さな値(10-16〜10-14程度)になる時のzの値(10程度)を事実上の∞の値と考え、さにらg(s2)の値が小さな値(10-16〜10-14程度)になる時のs2の値(100程度)を事実上の∞の値と考えて定積分を求めれば近似値を求めることができます。

○有意確率

上側有意確率(q ≧ 0なので両側有意確率に相当する):p = 1 - P(q(a;φ) ≦ qo) = 1 - F(q)

F(q)は解析的に計算できないので、次のようにガウス・ルジャンドル(Gauss-Legendre)積分を用いて近似的に計算します。

ΦR = ∞の部分の近似定積分:

xk:ガウス・ルジャンドル積分の積分点   wk:ガウス・ルジャンドル積分の重み係数
※ガウス・ルジャンドル積分は定積分区間zl〜zuをn個に分割し、次のような式で積分値を近似的に求める手法。 積分点xkと重み係数wkの値は数値計算に関する一般的な解説書に記載されている。

※F(qs)については-∞ ≒ zlow( = -10程度) 〜 ∞ ≒ zup( = 10程度)をm( = 10程度)個に分割し、それらの区間の定積分値をn = 16程度にしたガウス・ルジャンドル積分で求めて、それらの合計をF(qs)の近似値にする。
F(q)の近似定積分:   
※F(q)については0 〜 ∞ ≒ sup2( = 25〜100程度、ΦRによって適当に変更)をM( = 50程度)個に分割し、それらの区間の定積分値をn = 16程度にしたガウス・ルジャンドル積分で求めて、それらの合計をF(q)の近似値にする。 ΦR = ∞の時はs = 1としたF(qs)がF(q)になる

a = 2の時、上側有意確率は自由度φのt分布の両側有意確率に一致し、さらに自由度が無限大の時は標準正規分布の両側有意確率に一致します。

図 付録1.19 q(3;φ)の上側p値 図 付録1.20 q(a;∞)の上側p値

(10) 多変量t分布(multivariate t distribution)

p次元標準正規分布に従う確率変数zj(j = 1,…,p)と、それらとは独立で、かつ自由度φのχ2分布に従う確率変数χ2がある時、次のような確率変数tjp次元t分布に従います。 p = 1の時、多変量t分布は単変量t分布つまり普通のt分布になり、φ = ∞の時はp次元標準正規分布になります。

○多変量t分布の同時確率密度関数


確率変数ベクトル:      母相関係数行列:
ρij = ρji:xiとxjの母相関係数   Σ = Σ' (対称行列)   |Σ|:Σの行列式   Σ-1Σの逆行列

○多変量t分布の同時確率分布関数

○有意確率

ダネット型多重比較における検定統計量は次のとおりでした。 (→4.1 多標本の計量値 (注4))

m1:対照群の平均値  mj:特定のj群の平均値   r:両群の例数(同一)
a:群数  VR:残差分散  φR:残差自由度
平均値の差:md = mj - m1
平均値の差の標準誤差:
検定統計量:

残差分散と残差自由度とχ2の関係から、検定統計量do( = to)は自由度φRの(1-a)次元t分布に従います。

  
※群の例数が不揃いの時:

ダネット型多重比較の場合、対照群の平均値m1と他の群の平均値を比較するので、doはお互いに独立ではなく相関関係を持ちます。 そしてその相関係数は次のようになります。

   (i ≠ j)   各群の例数が等しい時:ρij = 0.5

この相関係数をΣの要素にした自由度φRの(1-a)次元t分布をd(a;φ,Σ)と表すと、この分布を利用してダネット型多重比較の有意確率を求めることができます。 ただし(1-a)次元t分布は解析的に計算できないので、ステューデント化範囲の分布と同様にガウス・ルジャンドル積分を用いて近似的に計算します。

両側有意確率:p = 1 - P(|d(a;φ,Σ)| ≦ |do|) = 1 - F(d)
※両側有意確率は|d|の分布を利用するので、多変量t分布の同時確率分布関数である重積分の代わりにステューデント化範囲の分布と似た次のような式で求めることができる。

ρijが全て等しい時:
さらにΦR = ∞の時=多変量正規分布:
の確率密度関数(χ2分布)

:標準正規分布の確率密度関数   :標準正規分布の確率分布関数

F(d)は標準正規分布の累積確率の差に相当するhd(z;d,s)のべき乗を標準正規分布Φ(z)で重み付けして積分し、さらにそれをχ2分布に相当するg(s2)で重み付けして積分したものになります。 そのためΦ(z)が非常に小さな値(10-16 〜 10-14程度)になる時のzの値(10程度)を事実上の∞の値と考え、さにらg(s2)の値が小さな値(10-16 〜 10-14程度)になる時のs2の値(100程度)を事実上の∞の値と考えて定積分を求めれば近似値を求めることができます。

ただし例数が不揃いの時の計算式は少々ややこしいので、対照群以外の群の例数が揃っている時について説明しましょう。 その場合、ρij = λ1jとなって相関係数が全て等しくなり、計算式が簡単になります。

ΦR = ∞の部分の近似定積分:
  xk:ガウス・ルジャンドル積分の積分点   wk:ガウス・ルジャンドル積分の重み係数
※F(ds)については-∞ ≒ zlow( = -10程度) 〜 ∞ ≒ zup( = 10程度)をm( = 10程度)個に分割し、それらの区間の定積分値をn = 16程度にしたガウス・ルジャンドル積分で求めて、それらの合計をF(ds)の近似値にする。
F(d)の近似定積分:   
※F(d)については0 〜 ∞ ≒ sup2( = 25〜100程度、ΦRによって適当に変更)をM( = 50程度)個に分割し、それらの区間の定積分値をn = 16程度にしたガウス・ルジャンドル積分で求めて、それらの合計をF(q)の近似値にする。 ΦR = ∞の時はs = 1としたF(ds)がF(d)になる

この時のd(a;φ,ρ)と両側確率のグラフを描くと次のようになります。 これらのグラフから相関係数の影響は自由度や群数よりも小さいので、各群の例数が不揃いでも検定結果はあまり変わらないことがわかります。

図 付録1.21 2次元t分布 図 付録1.22 d(3;φ,0.5)の両側p値
図 付録1.23 d(a;∞,0.5)の両側p値 図 付録1.24 d(3;∞,ρ)の両側p値

ちなみにtj(j = 1,…,a-1)がお互いに独立の時、この中の最大絶対値max(|tj|)の分布のことをステューデント化された最大絶対値の分布(Studentized maximum modulus distribution)と呼びます。 この分布はρ = 0の時の多変量t分布に相当します。 またΦ = ∞の時の多変量t分布は多変量正規分布になり、ρ = 1の時は普通のt分布と一致します。

(11) 非心χ2分布(noncentral chi-square distribution)

標準正規分布N(0,12)に従うお互いに独立な変数z1,…,zi,…,zφと定数λ1,…,λi,…,λφがあり、

  ≧0  (φ:整数>0、λi≧0)

と置いた時、このχ2の分布がλを通してのみλ1,…,λi,…,λφに依存するなら、自由度φ、非心度λの非心χ2分布に従います。 非心χ2分布はχ2値の信頼区間を求める時などに利用され、非心度λが0の時は通常のχ2分布つまり中心χ2分布(central chi-square distribution)になります。

○非心χ2分布の確率密度関数

 (χ2 > 0、φ:整数 > 0、λ ≧ 0)
:次数aの第1種修正ベッセル関数
期待値:E(χ) = φ + λ  分散:E(χ) = 2(φ + 2λ)   歪度:   尖度:

○非心χ2分布の確率分布関数


F(χ2,φ+2j):自由度(φ+2j)のχ2分布の確率分布関数

Σの後の{}の中はパラメータ(λ/2)のポアソン分布の確率密度に相当します。 そのため非心χ2分布の確率分布関数F(χ2,φ,λ)は、通常のχ2分布の確率分布関数F(χ2,φ+2j)をパラメータ(λ/2)のポアソン分布の確率密度で重み付けして合計したものになります。 そして重み付けした項が非常に小さな値(10-10 〜 10-8)になった時に計算を打ち切ることによって、累積確率を求めることができます。

図 付録1.25 非心χ2[3,λ]分布の確率密度関数 図 付録1.26 非心χ2[3,λ]分布の確率分布関数

(12) 非心t分布(noncentral t distribution)

標準正規分布N(0,12)に従う変数zと、zとは独立で、かつ自由度φのχ2分布に従う変数χ2 = V/σ2と、定数λ = μ/σを用いて次のような値tを作ると、このtは自由度φ、非心度λの非心t分布に従います。 非心t分布は検出力を求める時などに利用され、非心度λが0の時は通常のt分布つまり中心t分布(central t distribution)になります。

  -∞ < < ∞  φ = n - 1 > 0

○非心t分布の確率密度関数

 (-∞ < t < ∞、φ:整数 > 0、-∞ < λ < ∞)
期待値: (φ > 1)   分散: (φ > 2)
歪度: (φ > 3)   尖度: (φ > 4)

○非心t分布の確率分布関数

・t ≧ 0、λ ≧ 0の時

Φ(z):標準正規分布の確率分布関数
:不完全ベータ関数比  (0 < γ < 1, x > 0, y > 0)

Φ(-λ)は標準正規分布における-∞ 〜 -λまでの累積確率になりますが、この値は非心t分布における-∞ 〜 0までの累積確率になります。 そしてΦ(-λ)の次の項が非心t分布における0 〜 tまでの累積確率になります。 その項の中の不完全ベータ関数比は不完全ベータ関数とベータ関数の比であり、F分布の確率分布関数でも用いています。 この不完全ベータ関数比It2/(t2+Φ)(1/2,Φ/2)は、自由度Φのt分布を平方した第1自由度1、第2自由度ΦのF分布の確率分布関数に相当します。

そしてこの不完全ベータ関数比の前の部分は、パラメータ(λ2/2)のポアソン分布の確率密度に似たものになります。 そのためこの項はt分布を平方したものをポアソン分布の確率密度に似た値で重み付けして合計したものになります。 そこで非心χ2分布と同様に、重み付けした項が非常に小さな値(10-10 〜 10-8)になった時に計算を打ち切ることによって累積確率を求めることができます。

・t < 0、λ < 0の時
F(t) = F(t|t < 0,λ < 0) = 1 - F(t|t ≧ 0,λ ≧ 0)

図 付録1.28のように-λ < 0の非心t分布の確率密度関数は、p軸(縦軸)を中心にしてλ > 0の非心t分布と線対称になります。 そのためt < 0かつλ < 0の時の確率分布関数は、t ≧ 0かつλ ≧ 0の時の分布関数F(t|t ≧ 0,λ ≧ 0)の上側確率つまり{1 - F(t|t ≧ 0,λ ≧ 0)}になります。

・t < 0、λ ≧ 0の時
F(t) = F(t|t < 0,λ ≧ 0) = F(t|t ≧ 0,λ ≧ 0) - F(t2,1,Φ,λ2)
F(F = t2,1,Φ,λ2):第1自由度1、第2自由度Φ、非心度λ2の非心F分布の分布関数

自由度Φの通常のt分布を平方したものが第1自由度1、第2自由度Φの通常のF分布に相当するように、自由度Φ、非心度λの非心t分布を平方したものは第1自由度1、第2自由度Φ、非心度λ2の非心F分布に相当します。 そして非心F分布の分布関数F(t2,1,Φ,λ2)の値は、非心t分布における-t 〜 tの間の累積確率になります。 そこで-∞ 〜 tまでの累積確率になるF(t|t≧0,λ≧0)からF(t2,1,Φ,λ2)を引けば-∞ 〜 -tまでの累積確率になり、t < 0かつλ ≧ 0の時の分布関数F(t|t<0,λ≧0)になります。

・t ≧ 0、λ < 0の時
F(t) = F(t|t ≧ 0,λ < 0) = 1 - F(t|t < 0,λ ≧ 0)

t < 0かつλ < 0の時と同様に非心t分布のp軸線対称性から、t ≧ 0かつλ < 0の時の確率分布関数は、t < 0かつλ ≧ 0の時の分布関数F(t|t<0,λ≧0)の上側確率つまり{1 - F(t|t<0,λ≧0)}になります。

図 付録1.27 非心t[20,λ]分布の確率密度関数 図 付録1.28 非心t[20,λ]分布の確率分布関数

(13) 非心F分布(noncentral F distribution)

自由度φ1、非心度λの非心χ2分布に従う変数χ12と、それとは独立に自由度φ2のχ2分布に従う変数χ22について、それぞれを自由度で割って比をとった値Fは第1自由度φ1、第2自由度φ2、非心度λの非心F分布に従います。 非心F分布はF値の信頼区間を求める時などに利用され、非心度λが0の時は通常のF分布つまり中心F分布(central F distribution)になります。

 (φ1 > 0, φ2 > 0)

○非心F分布の確率密度関数

 (F ≧ 0、φ12:整数 > 0、λ ≧ 0)
f(F|φ1,φ2):第1自由度φ1、第2自由度φ2のF分布の確率密度関数
期待値: (φ2 > 2)   分散: (φ2 > 4)

○非心F分布の確率分布関数


これは不完全ベータ関数比をパラメータ(λ/2)のポアソン分布の確率密度で重み付けして合計したものになります。 そして不完全ベータ関数比は通常のF分布の確率分布関数に相当するので、結局のところ通常のF分布の確率分布関数をパラメータ(λ/2)のポアソン分布の確率密度で重み付けして合計したものになります。 そこで非心χ2分布と同様に、重み付けした項が非常に小さな値(10-10 〜 10-8)になった時に計算を打ち切ることによって累積確率を求めることができます。

図 付録1.29 非心F[3,30,λ]分布の確率密度関数 図 付録1.30 非心F[3,30,λ]分布の確率分布関数

(14) 分布間の関係

主な分布の関係を模式的に表すと次のようになります。

図 付録1.32 分布間の関係

(15) 各種分布のパーセント点の近似計算(有意確率p値からの逆近似計算)

各種分布のパーセント点を計算するには、ニュートン(Newton)法を利用してp値から逆算します。 分布の値をz、それをp値に変換する関数をp(z)とすると、その手順は次のとおりです。

(i) 与えられた有意確率p*から、次のような近似式を用いて初期値z0を求める。

○正規分布N(0,12)

・ロジット変換

・ヘスティング(Hessting)の最良近似式


ただし

c1 = 2.515517  c2 = 0.802853   c3 = 0.010328  d1 = 1.432788   d2 = 0.189269  d3 = 0.001308

○χ2分布

z0 = χ2(1) ≒ u(p*)2
u(p*):正規分布の100p*%点(前述の近似式を利用して求める)
z0 = χ2(2) = -2・ln(p*) … 近似ではなく正確な値

・φ > 2の時:ウィルソン・ヒルファーティ(Wilson-Hilferty)の近似式


u:p* ≦ 0.5 なら u = u(2p*)、p* > 0.5 なら u = -u(2(1 - p*))
u(p):正規分布の100p%点(前述の近似式を利用して求める)

○t分布

… 近似ではなく正確な値
… 近似ではなく正確な値

・φ > 2の時


u(p*):正規分布の100p*%点(前述の近似式を利用して求める)

○F分布

z0 = F(1,φ2) ≒ {t(φ2,p*)}2   
t(φ,p*):t(φ)分布の100p*%点(前述の近似式を利用して求める)

・φ1、φ2 > 1の時


  a1 = 1 - a     b1 = 1 - b
u:p* ≦ 0.5 なら u = u(2p*)、p* > 0.5 なら u = -u(2(1-p*))
u(p):正規分布の100p%点(前述の近似式を利用して求める)

(ii) p0 = p(z0)を計算し、p*値とほぼ等しいかチェックする。

p0 ≒ p* すなわち |p0 - p*| < ε = 10-8〜10-6

なら計算を終了し、収束したz0を100p*パーセント点z*にします。 収束しない時は次の手順を実行します。

(iii) z0付近における関数p(z)を直線で近似する。

実際にはp(z)が指数関数的なので対数変換したln{p(z)}を直線で近似します。 それには次のようにテイラー(Taylor)展開を利用します。


近似直線の傾き:
p0 = p(z0)

ln{p(z)}の微分係数が求められない時は次のような差分法を用いて計算します。

  ⊿z ≒ z0×10-2 〜 z0×10-4

(iv) p(z)の近似直線を利用してp*からz*を近似的に逆算する。

ln(p)≒ln(p0) + b(z-z0)

この結果、z1はz*に近づくはずなので、z0をz1で更新して収束するまで(ii)以後をくり返します。

図 付録1.31 ニュートン法によるp値の逆計算