玄関雑学の部屋雑学コーナー統計学入門

2.4 差と比とパーセントの使い分け

(1) 差と比の違い

薬剤の投与前後で血圧を測定した時のように、対応のある2標本データの要約をする場合は前後の差を計算して変化量にしたり、差を前値で割って100を掛け、前値に対する変化率にするなどして1標本データに還元して扱います。 変化量にしろ変化率にしろ、わりと無造作に計算していますが、実はここにも統計学の落とし穴が潜んでいます。 差や差のパーセントを計算するということがどういった意味を持っているのか、ここでもう一度しっかりと考えてみましょう。

差を計算して変化量に変換するのは個々のデータの変化量を比較したり、変化量の平均値を求めて全体としてどの程度変化したかを要約したりするためです。 しかしもし変化量が前値によって影響を受けるとすると、一体どういうことになるでしょうか?

例えば血圧は前値の大きな人ほどよく低下するとします。 そうすると同じように10mmHg低下したとしても、前値が180mmHgの時と140mmHgの時とでは意味が違います。 つまり同じ低下量なら前値が低いほど実質的によく低下したと考えられるわけです。 また前値がバラバラの集団では低下量を平均することも通常とは違った意味になります。 したがって変化量が正確な意味を持つのは前値が変化量に影響を与えないデータつまり間隔尺度的な変化をするデータだけということになります。

では変化率についてはどうでしょうか? 変化率は前値に対する変化量の率を表すもの、すなわち「もし前値が100だったら変化量はいくつになるか?」を意味する値です。 つまり前値がバラバラでは比較しにくいから、無理矢理同じにしてしまおうという乱暴な値なのです。 前値が同じになれば比較は簡単になり、一見、成程と納得しやすいでしょう。 しかしこれが変化率の思うツボ、その目論見が成功するには前値が10の時1低下するなら100の時は10低下するという確証が必要です。

したがって変化率が正確な意味を持つのは前値と変化量が比例するデータつまり比例尺度的な変化をするデータだけということになります。 後値を前値で割った比や、それに100を掛けたパーセントについても原理的には変化率と全く同様です。 (注1)

データがどちらの種類なのかおおよその見当をつけるには、やはりグラフを利用するのが一番です。 今、X軸を前値x、Y軸を後値yとして、ペアになった個々のデータをプロットした散布図が図2.4.1または図2.4.2のようになったとします。 通常、前値と後値は因果関係があるのでプロットは直線的に並び、xとyとの関係は次のような式で近似的に表されます。 これは第5章で説明する回帰直線です。 (→第5章 相関分析と回帰分析)

y = α + βx
図2.4.1 比に変換するデータ 図2.4.2 差に変換するデータ

差dを計算するということは、上式より次のようになります。

d = y - x = (α + βx) - x = α + (β-1)x

この式から、前値xと差dの回帰直線の傾きは前値と後値の回帰直線の傾きβから1を引いた値になることがわかります。 そのため普通は前値xが差dに影響するものの、β≒1の時はほとんど影響しなくなります。 つまり前値と後値の回帰直線の傾きがほぼ45°の時、データは間隔尺度的な変化するので差を計算しても良いことになります。

また前値と後値の比rは次のようになります。

この式から、前値の逆数(1/x)と比rの回帰直線の傾きは前値と後値の回帰直線の定数αになることがわかります。 そのため普通は前値xが比rに影響するものの、α≒0の時はほとんど影響しなくなります。 つまり前値と後値の回帰直線がほぼ原点を通る時、データは比例尺度的な変化をするので比を計算しても良いことになります。

さらに差dをパーセントに変換した変化率d(%)は次のようになり、結局、比rに帰着します。

回帰直線が原点を通らず、傾きも45°ではない時は、回帰直線を利用して前値の影響を取り除いてから差を計算する共分散分析という手法を用いる必要があります。 この手法は非常に便利であるにもかかわらず、残念ながらいまひとつ知名度が低くてあまり利用されていません。 (→第8章 共分散分析)

一般に血圧のように一定の正常域がある臨床検査値は、前値が異常な値であるほどより強く正常な状態に戻ろうとする傾向いわゆる初期値の法則があります。 そのためこれらの臨床検査値は比例尺度的な変化に近いかと思うと、これがさにあらず、正常域の付近では前値とは無関係に変化することが多くなり、間隔尺度的な変化に近くなったりします。 はなはだ始末の悪いデータですが、こんなタチの悪いデータの場合には理解しやすくて危険の少ない差を計算しておくのが無難でしょう。 (注2)

(2) 差の平均値と平均値の差の違い

次にまた面倒な話ですが、差の平均値と平均値の差は意味が違い、変化率の平均値と平均値の変化率は意味も値も違うということもあまり知られていません。 一般にデータを変換してから要約したものと、データを要約してから変換したものは意味も値も異なります。 (←あぁ、ややこしい!)

たまたま差の平均値と平均値の差は同じ値になるものの、その意味するところは多少違います。 差の平均値は個々のデータの変化量を要約した値であり、差の標準偏差を求めることによって変化量のバラツキ具合まで要約することができます。 しかし平均値の差はすでに要約されている値を用いた全体的な比較であり、差の標準偏差を求めることはできません。 つまり差の平均値に比べて差の標準偏差の分だけ情報量が少ないのです。 その代わり個々のデータがわかっていなくても平均値さえわかっていれば計算できるので、対応のないデータでも求めることができます。

変化率の平均値は個々のデータの変化率を要約した値です。 つまり全てのデータの前値を100に統一したら全体としていくつぐらい変化したかを表していて、前値による変化量の補正が主な目的です。 この値は前後のデータを前値に対するパーセントに変換した時の、差の平均値に相当します。

前値(%) = 前値 前値 ×100 = 100    後値(%) = 後値 前値 ×100
変化率(%) = 後値−前値 前値 ×100 = 後値(%)−前値(%) = 後値(%)−100

この時、前値をパーセントに変換した値は必然的に100になり、その平均値も100になります。 そして変化率の平均値はパーセントに変換した前値の平均値とパーセントに変換した後値の平均値の差、つまりパーセントに変換した後値の平均値から100を引いた値になります。

それに対して平均値の変化率は次のような式で計算する値であり、個々のデータの前値が全て一定の時は変化率の平均値と一致します。

平均値の変化率(%) = 後値の平均値−前値の平均値 前値の平均値 ×100

この値は前後の平均値しかわかっていない時に変化率の平均値の代わりに使用する単なる目安にすぎず、個々のデータがわかっている時は変化率の平均値を用いるべきです。 もちろん、変化率の平均値も平均値の変化率も比例尺度のデータでしか意味を持たないので注意が必要です。

以上の値を表2.4.1のデータについて実際に計算してみましょう。

表2.4.1 平均値の差と平均値の変化率
前値後値前値(%)後値(%)変化率(%)
109-110090-10
1020+10100200+100
10090-1010090-10
10090-1010090-10
100101+1100101+1
平均値6462-2100114.2+14.2
平均値の差 = -2平均値の変化率 = -3.125%

ご覧のように差の平均値と平均値の差は同じ値になり、変化率の平均値はパーセントに変換した前値と後値の平均値の差と同じ値になっています。 しかし変化率の平均値と平均値の変化率では値どころか符号まで違っています。 そして元のデータの平均値は後値の方が小さいにもかかわらず、パーセントに変換したデータの平均値は後値の方が大きくなっています。

「何だ、これは? 前後で値は上ったのか下がったのか、一体どっちなんだ!?」

とお思いでしょう。 しかしこれらは同じ情報を別の値で表現したものではなく、それぞれ意味の違う情報を要約した目的の異なる値です。 そのため結果が違っても不思議ではないのです。

このあたりが統計学のややこしいところですが、もしこのデータが比例尺度的な変化をするならパーセントに変換したデータと変化率の平均値が正確な意味を持ち、前後で値は上ったと考えられます。 しかし間隔尺度的な変化をするなら実測値のままのデータと差の平均値が正確な意味を持ち、前後で値は下がったと考えられます。 また平均値の変化率は前後の平均値しかわかっていない時に変化率の平均値の代わり用いる単なる目安ですから、この場合はあまり意味を持ちません。

データの種類がどちらかはっきりしない時は実測値のままのデータと差の平均値を採用して、一応、前後で値は下がったと考えておくのが無難でしょう。


(注1) 比と割合と率は混同されて使われることの多い用語ですが、厳密には全て異なる概念です。 これらは次のように定義されています。

例えば血圧の変化率は初期値に対する単位量あたりの変化量に相当するので、この定義に従うと率(rate)になります。

(注2) 元のデータが正規分布する時、差に変換したデータは正規分布をしますが、比に変換したデータは正規分布しません。 そして比の分散は次のように平均値の関数になり、はなはだ扱いにくいものになってしまいます。


E(x)、E(y):x、yの期待値  V(x)、V(y):x、yの分散  C(x,y):xとyの共分散

しかし現実のデータで厳密に正規分布するものはないので、細かいことは気にかけず、普通は比に変換したデータも近似的に正規分布すると考えてしまって差し支えありません。 (こんなことをいうと数学者などの口うるさい連中が目の色を変えて文句をいうかもしれませんが、馬耳東風と無視しておきましょう)

ちなにみに、この比の分散はデルタ法(delta method)によって近似的に求めたものです。 デルタ法は確率変数xの期待値と分散がわかっている時、xの関数f(x)の期待値と分散を近似的に求める手法です。 この手法はf(x)をテーラー展開して一次式で近似し、その期待値と分散を近似的に求めます。

E(x) = μ、V(x) = σ2 として、y = f(x)を1次の項までテーラー展開すると
y = f(x) ≒ f(μ) + (x-μ)f'(μ)
E(y) ≒ f(μ)   V(y) ≒ V(f(μ) + (x-μ)f'(μ)) = V((x-μ)f'(μ)) = V(x){f'(μ)}22{f'(μ)}2
※期待値については2次の項までテーラー展開すると近似が良くなる。

デルタ法を用いて比の分散を近似的に求めると次のようになります。 比の信頼区間を近似的に求める時はこの分散を用います。 ただし比の信頼区間をより正確に求めたい時はフィーラー(Fieller)の式を利用します。 (→5.5 各種手法の相互関係 (注3))

  
zを1次の項までテーラー展開すると:

デルタ法を用いると2つの確率変数の積の分散も近似的に求めることができます。 その計算は比較的簡単ですから、是非、チャレンジしてみてください。 (→1.3 データの要約方法 (注4))