前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 |
表6.1.1のデータの中で、脂質異常症の重症度は他の2つとは性質が多少異なるデータです。 このデータは他の2つのデータつまりTCとTGを主治医が要約して概括評価したものであり、平均値と同じような要約値の一種です。 医学や薬学分野では、このような概括評価項目にしばしばお目にかかります。
概括評価を行なうには色々な方法があり、個人によってその評価規準が異なっていて当然です。 しかし評価規準がバラバラでは何かと都合が悪いので、主観に頼らない客観的な評価規準を設定するひとつの方法として表6.1.1のTCとTGを数学的に要約して概括評価相当の値を作る方法を考えてみましょう。
一番単純なものは次のように2つのデータを合計する方法です。
この合計点をそのまま重症度としても、あるいは50刻みに分類するなど何らかの規準を設けてグレード分類し、それを重症度としてもかまいません。 いずれにせよ、それらは一種の脂質異常症総合重症度と呼び得る値です。 (注1)
多少手のこんだものとして、次のようにTGの値を半分にして合計する方法が考えられます。
これは、脂質異常症の判定では食事などの影響で値が変動しやすいTGよりも値が変動しにくいTCの方が重要なので、TGの重みを相対的に軽くして評価した方が実際的であるということを考慮した方法です。 この意味からすればz1はTCとTGをどちらも等しい重みで評価した値であるといえます。
次にちょっと変わったもので、TCとTGの差をとる方法を考えてみましょう。
この値は一体どういう意味を持つ要約値でしょうか? この値が正の大きな値になった時はTCが高くてTGが低く、負の大きな値になった時は逆にTCが低くてTGが高いことを表します。 したがってこの値は脂質異常症のタイプあるいはプロフィールまたはシェイプを表す要約値であると考えられます。 これはz1のような総合重症度とは別の情報を要約した相補的関係にある値であり、場合によっては非常に役立つものです。
例えばz1がある値以上の時を脂質異常症と判定し、そのような症例についてz3を計算したとします。 するとこの値によって脂質異常症のタイプを次のように大雑把に分類することができます。
以上のことを目に見えるようにグラフ化してみましょう。 表6.1.1のTCをX1軸に、TGをX2軸にしてデータをプロットすると図6.2.1のようになります。
幾何学的に見るとTCとTGを合計した値z1は、45度の傾きを持つ直線x2 = x1に各プロットから垂線を下し、原点からその点までの距離に√2をかけた値になります。 またTCとTGの差をとった値z3は、-45度の傾きを持つ直線x2 = -x1に各プロットから垂線を下し、原点からその点までの距離に√2をかけた値になります。 図6.2.1からz1とz3が全く別の情報を要約したものであり、互いに相補的関係にあることが何となく理解できると思います。 (注2)
人間が概括評価を行なう時も、これと同じように各々のデータに適当な重みをつけて総合していることが多いと思います。 そしてその時の評価規準すなわち各データの重みは、その人間の頭脳に蓄えられた知識や経験に基いた「勘ピュータ」によって設定されます。 一言でいえば多変量解析は勘ピュータによって設定された評価規準の構造を分析したり、データに基いて数学的に評価規準を決めたりする手法です。
多変量解析は計算量が多いので、ほとんどの場合はコンピュータによって計算します。 でもいかんせんコンピュータは機械的思考オンリーの石頭ゆえ、客観的ではあるものの、医学・薬学的見地から見て科学的とはいえない評価規準を選びがちです。 そんな時にはコンピュータを責めずに元のデータをもう一度吟味し、データに含まれているゴミを取り除くなり、勘ピュータによってデータを要約し直すなりしましょう。
一般に信じられている迷信とは反対に、コンピュータが人間の勘ピュータにとうてい太刀打ちできないことはコンピュータ研究者には周知の事実です。 コンピュータは単にプログラマーが命じたプログラム通りに動く情報処理装置にすぎず、想像力とか洞察力のような知的能力を持っているわけではありません。
「チェスでコンピュータがチャンピオンに勝った!」というのは、本当は「(チェス名人の協力を得て)プログラマが作ったチェスプログラムがチャンピオンに勝った!」という意味であり、基本的には人間対人間の戦いです。 それを「人間がコンピュータに負けた!」といって大騒ぎする人達は、おそらくコンピュータの作動原理とプログラムというものの存在を知らないか、それとも自らの頭で物事を考え出す能力よりも、命じられたことを機械的に忠実に行う能力の方がより知的で優れていると思っているのでしょう。
…というわけで「ベクトルと行列」を読んでいただいたことにして、多変量解析の準備として基本統計量をベクトルと行列を用いて表現しておきましょう。 n例の症例についてp個の項目を測定したデータがあった時、それらはp個の項目ベクトルとも、n個の症例ベクトルともとらえることができ、次のようなデータ行列として表現することができます。
図6.2.1のようなグラフではデータをp次元ベクトル空間におけるn個の症例ベクトルととらえることが多く、症例を点でプロットします。 しかし多変量解析では主としてn次元ベクトル空間におけるp個の項目ベクトルととらえます。 その理由は、p個の項目にはお互いに関連性があるのが普通なのでp次元ベクトル空間の座標軸が直交しないのに対して、n例の症例はお互いに独立であるのが普通なのでn次元ベクトル空間の座標軸が直交して数学的な取り扱いが簡単になるからです。
そこでn次元ベクトル空間におけるp個の項目ベクトルという観点で、ある項目のデータとその合計および平均値をベクトルで表現すると次のようになります。
このように合計はベクトル1nとデータベクトルxの内積になり、平均値はそれをベクトル空間の次元数nで割ったもの、つまり1n/nとxの内積になります。 「ベクトルと行列・第4章」で説明しているように、ベクトルxとyの内積はxとyのなす角をθとすると‖x‖‖y‖cosθになります。 そして「ベクトルと行列・第6章」で説明しているように、xをyに正射影したベクトルはyを定数倍したayになり、その係数aは2つのベクトルの内積x'yを‖y‖2で割った値になります。 この係数aはxをyに正射影した時の影の長さ‖x‖cosθを‖y‖で割った値であり、yを座標軸と考え、‖y‖を1単位とした時のxの座標値に相当します。
例えばxを1nに正射影したベクトルは、次のように1nを平均値m倍した平均値ベクトルmnになります。
図6.2.3を見るとわかるように、1nは全ての直交座標軸と45度で交わる1次元部分空間上のベクトルです。 そしてこの1次元部分空間は「もし全てのデータが同じ値だとしたらどんな値になるか?」という具体的な意味を持つ空間です。 つまり平均値を求めるという操作はxと1nの内積を求めて、それをベクトル空間の次元数で割るという操作であると同時に、xを1nが存在する1次元部分空間に正射影して平均値ベクトルmnを求める操作にも相当するわけです。
また1nはxの各成分であるデータxiの出現度数に相当するので出現度数ベクトルと解釈できます。 それに対して1n/nはxiの出現確率に相当するので出現確率ベクトルと解釈できます。 第1章・第3節で説明したように、平均値はデータにその出現確率を掛けて合計した期待値E(x)に相当します。 そして各データの出現度数や出現確率が異なる時は、一見すると出現度数ベクトルや出現確率ベクトルは1nが存在する1次元部分空間上には存在しないように思えるかもしれません。 (→1.3 データの要約方法 (注3))
しかし例えばk種類のデータがあり、出現度数がそれぞれ異なっているとします。 この時、全ての出現度数の合計度数をnとすると、データは全部でn個あり、その中で同じ値のデータがk組あると解釈できます。 その場合、出現度数ベクトルの成分は全て1でn個あり、データベクトルxの成分もn個あり(ただし同じ値の成分の組がk個ある)、これらのベクトルはn次元ベクトル空間上に存在します。
すると出現度数ベクトルはやはり1nに、出現確率ベクトルは1n/nになり、どちらも1nが存在する1次元部分空間上に存在します。 したがってデータの出現度数または出現確率が異なっていても、平均値つまり期待値を求めるという操作はxを1nが存在する1次元部分空間に正射影してmnを求める操作に相当します。
またデータが無限個ある時の期待値は母平均値に相当します。 その場合は無限次元のヒルベルト空間(Hilbert space)上に、確率関数p(x)と無限の成分を持つデータベクトルxが存在することになります。 そしてp(x)は無限個の⊿p(無限小の確率値)に分解できて、やはり1∞が存在する1次元部分空間上に存在します。 (→「ベクトルと行列・第10章 フーリエ展開」)
次に偏差ベクトルdは次のようになり、これは平均値ベクトルmnと直交します。 したがってデータの平均値と偏差を求めることは、データベクトルxを平均値ベクトルmnと偏差ベクトルdに直交分解していることに相当します。
この時、偏差ベクトルdが存在する部分空間は平均値ベクトルmnが存在する1次元部分空間の直交補空間になり、次元数が(n - 1)になります。 前述のようにmnが存在する1次元部分空間は「もし全てのデータが同じ値だとしたらどんな値になるか?」という具体的な意味を持つ空間です。 しかしdが存在する(n - 1)次元部分空間は、偏差の原因がわからない限り具体的な意味を持たない誤差空間または残差空間です。
さらに平方和と分散は次のようになります。
このように分散は偏差ベクトルdの大きさの平方を部分空間の次元数で割った値になります。 これは次のようにdを部分空間の正規直交基底z1、…、zi、…、zn-1で直交分解した時の、各分解ベクトルの大きさの平方を平均したものになります。
またmnとdはxを直交分解したベクトルなので、次のようなことが成り立ちます。
このことからベクトルの大きさの平方は平方和に、ベクトル空間の次元は自由度に相当し、平方和の相加性は三平方の定理に基づいていることがわかります。 不偏分散を計算する時、平方和を例数ではなく自由度で割る理由は、平方和がベクトルの大きさの平方に相当し、自由度がベクトル空間の次元に相当し、ベクトルの大きさの平方を1次元あたりの値にしたものが分散に相当するからです。 またベクトルはデータの集まりなので情報と考えると、ベクトルの大きさの平方は情報量に相当し、ベクトル空間の次元は情報の担い手の数に相当し、分散は1担い手あたりの情報量つまり情報密度に相当すると解釈できます。
標準偏差は次のようにdの大きさを部分空間の次元数の平方根で割った値になります。 このように統計学では平方した値と例数が比例し、元の値は例数の平方根と比例することがしばしばあります。 これは三平方の定理からわかるようにベクトルの大きさが次元数の平方根に比例するからです。 またデータxを標準化すると、偏差ベクトルdを‖d‖で割って大きさを1に規準化し、それを次元数の平方根倍したものになります。
検定統計量tとFは次のようになり、tは1次元あたりのmnの大きさを1次元あたりのdの大きさで割った値になります。 そして平均値の検定はt値が2以上あれば有意水準5%で有意になるので、1次元あたりの平均値ベクトルの大きさが1次元あたりの偏差ベクトルの大きさの2倍以上あれば、平均値は数学的に95%以上信頼できると判断していることになります。
また積和と共分散、そして相関係数は次のようになります。
このように積和は2つの偏差ベクトルの内積になり、共分散はそれを次元数で割って1次元あたりの値にしたものになります。 そして2つの標準化ベクトルzxとzyの共分散つまり相関係数は大きさを1に規準化した偏差ベクトルの内積になり、これは2つの規準化された偏差ベクトルをお互いに正射影した時の影の長さ、つまり2つの偏差ベクトルがなす角θの余弦(cosθ)になります。 したがって相関係数が0の時、dxとdyは直交します。
このことから独立または無相関のことを直交すると表現する時があります。 ただし相関係数が0でも独立または無相関とは限らないので、厳密にいうとこの表現は正確ではありません。 (→5.1 相関係数と回帰直線)
一方、xからyを推定する時の回帰直線の回帰係数と、yからxを推定する時の回帰直線の回帰係数は次のようになります。 この式から回帰係数は一方の偏差ベクトルを他方の偏差ベクトルに正射影した時の影の長さを、他方のベクトルの大きさで割って1単位あたりにした値と考えることができます。
またこの式から2つの偏差ベクトルの大きさが同じ、つまりxとyの分散が同じなら回帰係数と相関係数は一致することがわかります。 そしてxとyの標準化ベクトルは大きさが同じなので、xとyを標準化した時の回帰係数つまり標準回帰係数は相関係数と一致します。 したがって相関係数は2つの標準化したデータの回帰係数に一致し、それは2つの規準化された偏差ベクトルをお互いに正射影した時の影の長さ(cosθ)に相当すると考えることができます。 これらのことは、図6.2.5を見れば何となく感覚的にとらえることができると思います。
ちなみに余弦定理から、dxとdyとその差ベクトル[dx - dy]と和ベクトル[dx + dy]について次のような関係が成り立ちます。 そしてこれらの式の両辺を(n - 1)で割ることによって、合成変量の分散の式を導くことができます。 (→1.3 データの要約方法 (注4))
さらにエーベルの級内相関係数は次のようになります。
このようにr11はdxとdyが一致している程度を表す指標、つまり偏差ベクトルが一致している程度を表す指標と解釈することができます。 そしてこの値の相関係数rの後ろのrVは‖dx‖2と‖dy‖2の幾何平均と算術平均の比になっています。 この値はdxとdyの大きさが等しい時だけ1になり、等しくない時は1よりも小さな値になり、一方の大きさが0の時は0になります。 したがってrVは偏差ベクトルの大きさの平方、つまり平方和の一致度を表す値と解釈することができます。 ただしこの場合、2つの偏差べクルトの次元数が等しく、この値は分散の一致度を表す値にもなるので分散一致係数と呼ぶことにします。
このようにエーベルの級内相関係数r11は、2つの偏差ベクトルのなす角の一致度を表す相関係数rと、2つの偏差ベクトルの大きさの平方の一致度を表す分散一致係数rVの積として表すことができます。 (→4.ベクトル空間 3) 内積の幾何学的解釈、5.4 級内相関係数と一致係数 (注1)、12.6 周期共分散分析 (注2))
またxとyに影響を与える第3のデータベクトルzがあると、もう少し複雑な相関関係が考えられます。 この場合、xとyの相関係数を求めた時の偏差ベクトルdxとdyに、さらに偏差ベクトルdzを考えると、これらの偏差ベクトルは全て1nの直交補空間Rn-1上にあります。 そしてdxとdyのなす角θdx-dyの余弦(cos)がxとyの相関係数になります。
ここでdxとdyをdzに正射影したベクトルdxzとdyzはdxとdyの直交分解に相当し、dzからdxとdyを推測する回帰ベクトルになります。 そしてdxとdyをdzの直交補空間R⊥zn-2に正射影したベクトルdx⊥zとdy⊥zは、dxとdyからdzの影響を取り除いたベクトルに相当します。 そのためdx⊥zとdy⊥zのなす角θdx⊥z-dy⊥zの余弦はdxとdyからdzの影響を取り除いた時のxとyの相関係数に相当します。 これをxとyの偏相関係数(partial correlation coefficient)といい、rx/z・y/zと書きます。 偏相関係数はxとyの両方に影響を与える変数zがある時、zの影響を取り除いてxとyの相関関係を検討する時に有効な指標です。
さらにdx⊥zとdyのなす角θdx⊥z-dyの余弦はxだけからzの影響を取り除いた時のxとy相関係数に相当します。 これをxとyの部分相関係数(part correlation coefficient)といい、rx/z・yと書きます。 図6.2.6からわかるようにθdx⊥z-dyは必ずθdx⊥z-dy⊥z以上の角度になるので、部分相関係数は必ず偏相関係数以上の値になります。 部分相関係数はxだけに直接的な影響を与え、yには直接的な影響は与えない変数zがある時に、xからzの影響を取り除いてyとの相関関係を検討する時に有効な指標です。