No.1961 - 1978 / 18 件表示
- 1978. Re[1977]:[1976]:中心極限定理と正規近似 投稿者:F.Y.Edgeworth 投稿日:2024/08/27 (Tue) 19:57:58
- 早速のレス,ありがとうございます.
>「統計学は応用数学ではなく数学応用学だ」
これは推測統計が数学の主張を統計手法の利用者の主観によるモデル化と解釈(interpretation)で挟んだものなので,数学の立場からは評価できないという意味でしょうか?
>数学応用学的な観点からは、このシミュレーションの誤差程度なら、中心極限定理による正規近似を現実のデータに十分応用できると考えています。
であれば,そのことを「正規近似の根拠は中心極限定理ではなくシミュレーションと利用者の主観である」のように述べるのが適当な気がします.
極限についての数学の定理があり,現実世界で有限回だけ試した結果がその定理に反しないと判断した場合でも,現実世界での結果の根拠がその定理であると一般の人々に告げることは,何というか数学の権威に阿ているように見えます.
私は推測統計が答えを出さなければならない状況から編み出された手法であり,その答えに信憑性を与えなければならないことも理解しているつもりですが,主張の根拠を数学の定理に,答えが誤りとなる場合の原因(=モデル化と解釈という行為自体)を数学の確率に求める姿勢は,数学に知見のある人々の疑念の温床となると考えています.
- 1977. Re[1976]:中心極限定理と正規近似 投稿者:杉本典夫 [URL] 投稿日:2024/08/27 (Tue) 10:08:39
- >F.Y.Edgeworthさん
はじめまして、当館の館長を務めている”とものり”こと杉本典夫と申します。m(_ _)m
中心極限定理と正規近似の質問をいただき、ありがとうございます。中心極限定理による正規近似の問題については、純粋数学分野と数理統計学分野と応用統計学分野の間でたまに議論になります。これは統計学をどのような学問として捉えるかで、統計学の解釈が異なるからだと僕は思っています。
僕は研究現場のデータ解析屋ですから、応用統計学分野の解釈に近くて「統計学は応用数学ではなく数学応用学だ」と思っています。
つまり正規分布のような確率分布に厳密に従うデータは厳密には存在しないが、実用的な有効数字範囲内(有効数字にして2〜4桁程度)なら近似的に確率分布に従うとみなすことができるので、現実のデータを確率分布でモデル化し、その確率モデルを用いてデータの標本統計量を数学的に求めて母数を推測し、現実のデータと確率モデルの誤差を考慮して母数を解釈することによって、現実のデータがどのような情報を持っているかを推測する、という統計モデルの考え方を支持しています。
これは端的に言えば「現実のデータを解釈するには、現実のデータの有効数字範囲内で近似した統計モデルでかまわない」という考え方であり、理論物理学が数学を応用して自然現象を解釈する時の考え方と同様です。この考え方に従えば、中心極限定理による正規近似について数学的に厳密な証明は必要ではなく、有効数字にして2〜4桁程度の近似でかまわず、値の範囲は現実のデータの範囲(例えば体重のデータなら、実数全体の集合Rではなく10〜200程度の実数範囲の集合)の近似でかまわない、ということになります。
参考までに、数理統計学分野における中心極限定理の証明を次のページに記載してあるので参考にしてください。
○玄関>雑学の部屋>雑学コーナー>統計学入門
→1.3 データの要約方法 (注7)
http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html#note07
また中心極限定理をシミュレーションした結果を次のページに記載してあります。数学応用学的な観点からは、このシミュレーションの誤差程度なら、中心極限定理による正規近似を現実のデータに十分応用できると考えています。
○玄関>雑学の部屋>雑学コーナー>統計学入門
→付録2 中心極限定理のシミュレーション−平均値と中央値
http://www.snap-tck.com/room04/c01/stat/stat99/stat9902.html
以上、参考になれば幸いです。
- 1976. 中心極限定理と正規近似 投稿者:F.Y.Edgeworth 投稿日:2024/08/27 (Tue) 08:20:18
- 中心極限定理と正規近似についての質問です.
推測統計では「有限の平均μ,正の標準偏差σを持つ分布Pに従う独立な確率変数列の最初のn項の相加平均X_{n}(標本平均)を標準化したものは,nが十分大きいとき近似的に標準正規分布N(0,1)に従う」のように中心極限定理(の一つ)を述べ,それを根拠として,nが有限の場合の確率の近似値として正規分布から得た確率を利用(正規近似)するようです.
一方,実数全体の集合をR,整数全体の集合をZとすると,上記の定理は累積分布関数列の一様収束性
∀ε(ε>0→∃m(m∈Z∧∀n(n∈Z∧m<n→∀x(x∈R→|P((X_{n}-μ)/(σ/√{n})≦x)-N(0,1)((-∞,x])|<ε))))
であり,mは誤差の上界ε,分布P,標本平均の列(X_{*})に依存します.
これに対して推測統計では,εを指定せず,P,(X_{*})も(当然)未知のまま「標本の大きさnは~以上ならよい」等と述べることが少なくなく,一般の人々が
(1)「nが十分大きいとき」というn→∞での挙動を表す表現を具体的なnの値に対するものと誤解すること
(2)「近似」という真値と近似値の差を誤差の上界で押さえることを指す表現を「およそ」,「正確ではないかもしれないが」といった意味に捉えること
を助長,容認しているように見えます.
「極限値の値が分かっても,有限の番号の項の値については何も分からない」という極限の基本的な性質に照らして,中心極限定理が正規近似の根拠となりえず,また「近似」を構成するための誤差の上界の指定もない(つまり,正規近似で得た確率と真値との差を評価できない)状況の下で,推測統計では,中心極限定理と正規近似とをどのように結び付けているのでしょうか?
- 1975. Re[1974]:[1973]:マハラノビスの距離による判別分析の誤判別確率 投稿者:キッシー 投稿日:2024/07/29 (Mon) 14:44:05
- ありがとうございました
ちゃんと記載されていました
よく読まないと駄目ですね
今後とも宜しくお願いします
- 1974. Re[1973]:マハラノビスの距離による判別分析の誤判別確率 投稿者:杉本典夫 [URL] 投稿日:2024/07/27 (Sat) 14:42:35
- >キッシーさん
こんにちわ!(^o^)/
マハラノビスの汎距離Dは、多変量正規分布における偏差を変量間の相関を考慮して標準化した値に相当します。そしてこれを平方したマハラノビスの平方距離D^2は、正規分布の式、
f(x) = {1/√(2π・σ^2)}exp{-(x-μ)^2/(2σ^2)}
の(x-μ)^2/σ^2に相当します。
そして多変量正規分布の平均値ベクトルμに、群1の平均値ベクトルμ1と群2の平均値ベクトルμ2の差ベクトル(μ1-μ2)を代入した時の、標準化した偏差が判別スコアzです。そのため判別スコアzは平均値がD^2/2で、標準偏差がD^2の正規分布をします。そしてこの性質を利用して2群の誤判別確率を求めることができるのです。
詳しい説明は当館の次のページを御覧ください。(^_-)
○玄関>雑学の部屋>雑学コーナー>統計学入門
→9.4 多変量の場合 (1)多変量正規分布とマハラノビスの汎距離 (注2)
http://www.snap-tck.com/room04/c01/stat/stat09/stat0904.html#note02
→(2)マハラノビスの汎距離を利用した群の判別 (注3)
http://www.snap-tck.com/room04/c01/stat/stat09/stat0904.html#note03
- 1973. マハラノビスの距離による判別分析の誤判別確率 投稿者:キッシー 投稿日:2024/07/26 (Fri) 14:11:43
- お世話になっております。
「
9.4 多変量の場合
(1) 多変量正規分布とマハラノビスの汎距離
(注3) p次元正規分布に従う2つの母集団g1とg2があり、それぞれの母平均ベクトルと母共分散行列をμ1、Σ1、μ2、Σ2とします。
」
この条件での図9.4.3のような境界値を基準にしたときの
誤判別確率を計算する方法が知りたいのですが
例えば図9.4.2のように2次元のグラフで2群の違う母分散行列で描くと
境界値(D1=D2)は曲線になるイメージをしています
よって計算はかなり複雑になってしまうのかなと思っていますが
このような計算は可能なのでしょうか?
線形判別分析なら変数が2つ以上でもZ(判別スコア)に変換すると
計算できるのですが
変な質問ですみません
宜しくお願いします
- 1972. Re[1971]:[1970]:判別分析 投稿者:キッシー 投稿日:2024/02/25 (Sun) 14:11:51
- いつもながら返信ありがとうございます。
本などには分散共分散行列が等しいことの仮定があったのですが
計算するとあまり変わらないような気がしていましたが
まったく自信がなかったもので
大変貴重な情報をありがとうございました。
今後とも宜しくお願いします
- 1971. Re[1970]:判別分析 投稿者:杉本典夫 [URL] 投稿日:2024/02/25 (Sun) 08:41:03
- >キッシーさん
お久しぶりですね!(^o^)/
> 第9章 判別分析および第18章 重判別分析
> 判別分析が紹介されていますが
> その分析を行うための仮定は、正規分布だけでしょうか?
> 分散は処理過程で考慮されていると思いますので
> 元データの等分散性は仮定には必要ないと思うのですが?
通常の判別分析では、群ごとの多変量データが多変量正規分布をしていると仮定します。そして原則として各群の分散共分散行列は等しくなくてもかまわない、つまり等分散性は必要ありません。(実は多変量データが特定の多変量確率分布をしていれば判別分析可能ですが、通常は多変量正規分布を用います。(^_-))
ただし各群の分散共分散行列が等しい時と等しくない時では、判別関数の内容が変わります。そこで一般的な判別分析の解説書などでは、各群の分散共分散行列が等しいと仮定した時の判別関数を記載していると思いますし、一般的な統計ソフトでも各群の分散共分散行列が等しいと仮定した時の判別関数を出力すると思います。そのため実際に判別分析を用いる時は、各群の分散共分散行列が等しいと仮定するのが普通です。
でも各群の分散共分散行列が等しくない時でも、その影響は非常に小さくて、現実的にはほとんど問題になりません。自作の統計ソフトDANSでは、2群で1変量の判別分析について等分散の時と不等分散の時の判別関数を計算できるようにしてあります。そしてそのソフトを用いて色々とシミュレーションし、不等分散性の影響が非常に小さいことを確認しました。
2群の判別分析について、分散共分散行列が等しくない時の判別関数については当館の次のページに記載してあります。
○玄関>雑学の部屋>雑学コーナー>統計学入門
→9.4 多変量の場合 (注3)
http://www.snap-tck.com/room04/c01/stat/stat09/stat0904.html#note03
それから判別分析と同様に等分散性がよく問題になる2群の平均値の差の検定、つまり2標本t検定(対応のないt検定)について、不等分散性が検定結果にどの程度影響するかについてシミュレーションした結果を次のページに記載してあります。この結果を見ると、不等分散は現実的にはほとんど問題にならないことがわかると思います。(^_-)
○玄関>雑学の部屋>雑学コーナー>統計学入門
→3.3 2標本の計量値 (注2)
http://www.snap-tck.com/room04/c01/stat/stat03/stat0303.html#note02
- 1970. 判別分析 投稿者:キッシー 投稿日:2024/02/22 (Thu) 13:26:36
- 第9章 判別分析および第18章 重判別分析
判別分析が紹介されていますが
その分析を行うための仮定は、正規分布だけでしょうか?
分散は処理過程で考慮されていると思いますので
元データの等分散性は仮定には必要ないと思うのですが?
ご教授お願いします
- 1969. Re[1968]:[1967]:サブグループ分け時の有効数字について 投稿者:悩める開発担当者 投稿日:2023/12/10 (Sun) 10:33:24
- 杉本様
早々に、明快で、丁寧なご回答を頂きまして有難うございました。
スッキリ致しました。
今後も宜しくお願い致します。
- 1968. Re[1967]:サブグループ分け時の有効数字について 投稿者:杉本典夫 [URL] 投稿日:2023/12/10 (Sun) 09:32:00
- >悩める開発担当者さん
こんにちわ!(^o^)/
サブグループ分けに限らず、有効数字については次の考え方が一般的ですね。
> 「任意に設定した数値は測定値ではなく誤差を含まないので,有効数字に関係しない。」ので、
> 1.0m/s以上は、任意に設定した数値であり、
> 1.0m/s以上のグループは「0.95m/s」以上の測定値ではなくて、
> 「1.0m/s」以上の測定値だと思うのですが、間違っているでしょうか?
厳密に言うと「1.0」は小数点以下第1位まで有効という意味であり、定数1を指定した時は「1」と表記します。
そのため「1m/s未満」は「0〜0.9999……m/s」になり、「1m/s以上」は「1.0000…m/s〜∞m/s」になります。そして連続量のデータを特定の境界値で分割する場合、境界値は有効数字ではなく定数で指定するのが一般的です。
境界値を有効数字で指定すると、その結果はそのデータにしか適用できない普遍性のない結果になります。しかし境界値を定数で指定すれば、その結果はある程度の普遍性があります。
ちなみにサブグループ解析は厳密な統計解析では禁じ手であり、代表的な「やってはいけない解析方法(^^;)」です。これについては当館の次のページを参考にしてください。(^_-)
・玄関>雑学の部屋>雑学コーナー>統計学入門
→(2) 層別解析の非合理性
http://www.snap-tck.com/room04/c01/stat/stat08/stat0803.html
- 1967. サブグループ分け時の有効数字について 投稿者:悩める開発担当者 投稿日:2023/12/09 (Sat) 12:05:19
- 杉本様
2度目の投稿になります。宜しくお願い致します。
あまりに初歩的な質問で恐縮ですが、解析時のサブグループ分けする際、有効数字の取扱いについて悩んでおります。
具体的には、歩行速度1.0m/s 以上・未満でグループ分けする際の有効数字についてですが、CROの考え方は、以下の通りです。
①「1.0」は小数点以下第1位まで有効
②1.0m/sは、「0.95m/s~1.04m/s」のことなので、
③1.0m/s以上は「0.95m/s以上」のこと。
④従って、1.0m/s以上のグループは「0.95m/s以上のグループ」である。
しかし、
「任意に設定した数値は測定値ではなく誤差を含まないので,有効数字に関係しない。」ので、
1.0m/s以上は、任意に設定した数値であり、
1.0m/s以上のグループは「0.95m/s」以上の測定値ではなくて、
「1.0m/s」以上の測定値だと思うのですが、間違っているでしょうか?
宜しくお願い致します。
- 1966. Re[1965]:相関分析と回帰分析の区間推定について 投稿者:杉本典夫 [URL] 投稿日:2023/11/14 (Tue) 17:59:37
- >キッシーさん
こんにちわ!(^o^)/
> しかし、(A)と(B)は背反するのですが
> どのように理解すれば良いのでしょうか?
(A)は相関分析における信頼楕円・許容楕円・予測楕円であり、(B)は回帰分析における信頼限界・許容限界・予測限界です。
相関分析は2つの項目の間に「項目1←→項目2」というような、お互いに影響を与え合っている相互関連性つまり相関性がある時に、その相互関連性の様子を相関係数を指標にして近似的に分析するための手法です。
そのため2つの項目はどちらも確率変数(確率的な誤差がある変数)であり、通常は近似的に2次元正規分布をするという前提で分析します。そしてその2次元正規分布を利用して、2次元空間において、2つの項目の母重心が95%の確率で含まれる範囲を信頼楕円として表し、データプロットの95%が含まれる範囲を予測楕円として表します。
それに対して回帰分析は2つの項目の間に「項目1(原因)→項目2(結果)」というような、項目1が原因で項目2がその結果という因果関係がある時に、その因果関係の様子を数学的な関数――通常は1次関数つまり回帰直線――で近似して分析するための手法です。
そのため原因項目は研究者が任意の値を指定する誤差のない変数、結果項目は誤差がある確率変数であり、通常はその誤差が回帰直線の上下に近似的に正規分布するという前提で分析します。そしてその誤差つまり回帰誤差の正規分布を利用して、母回帰直線が95%の確率で含まれる範囲を回帰直線の上下に信頼限界として表し、データプロットの95%が含まれる範囲を回帰直線の上下に予測限界として表します。
回帰誤差は結果項目つまり目的変数だけにあり、原因項目つまり説明変数の平均値付近が最も小さく、平均値から離れるほど大きくなります。そのため信頼限界と予測限界は説明変数の平均値の付近が最も狭く、平均値から離れるほど広くなります。
これらのことから、(A)と(B)は前提条件が異なるので背反するのは当然であることがわかると思います。
この相関分析と回帰分析の違いを十分に理解している人は、研究者はもちろん、「統計学専門家」を自称している人の中でもあまり多くありません。そのため論文や統計学の解説書などで、データの散布図に回帰直線と相関係数を同時に記載してしまうという自己矛盾を平気でやっている人がけっこういます。(^_^;)
詳しい説明は、当館の次のページをじっくりと読んでみてください。(^_-)
○玄関>雑学の部屋>雑学コーナー>統計学入門
→5.5 各種手法の相互関係
→http://www.snap-tck.com/room04/c01/stat/stat05/stat0505.html
- 1965. 回帰分析の区間推定 投稿者:キッシー 投稿日:2023/11/14 (Tue) 16:22:08
- 教えて頂いことがあります
5.5各種手法の相互関係
(注3)相関分析と同様に回帰分析の場合も信頼区間を求めることができます。
5・5・3 信頼性楕円・許容楕円・予測楕円
分布を見るとなるほど、楕円のようになるイメージできます(A)
5・5・4 信頼限界・許容限界・予測限界
グラフを見るとxが大きくなると限界幅が広くなるのもイメージできます(B)
しかし、(A)と(B)は背反するのですが
どのように理解すれば良いのでしょうか?
初歩的な質問ですみませんが、宜しくお願いします
- 1964. Re[1963]:[1962]:解析について 投稿者:北の大学院生 投稿日:2023/09/15 (Fri) 22:18:17
- 杉本様
いつも大変お世話になっています。
丁寧なご回答をありがとうございます.
私の考えが浅かったです。
少数例では母集団の推測は行えないという当たり前のことを忘れて、主成分分析や因子分析、他の回帰分析もある程度サンプルサイズが必要でした。
主成分分析や因子分析は特に勉強不足でした。もう一度じっくり学習しなおします。
SNPはお金がかかるので3対3が限界だったそうです。
ある程度お金をかけて解析できる必要最小限のサンプリングを行ったほうが多くのことが分かり、よい研究になると実感してしまいます。
MA plotを90度回転させて、volcano plotと見た目を同じにして、volcano plotであるかのような感じで行けば、見た目重視派には同じに見えてそのままいけそうな気がします。
私もMA plotを提案していました。
ノンパラメトリック手法とセミパラメトリック手法は前近代科学的な統計手法ですが、医学や歯学は伝統を重んじる傾向があるので、おそらくまだ前近代科学の伝統を重んじて時間依存解析を行っていると推察されます。
統計ソフトのデフォルトもセミパラメトリックやノンパラメトリックな方法しか搭載されていないのも理由の一つだと思われました。
さらにとりあえずデフォルトでよくわからないけどやってみて意味ありそうで論文にすることもありうるためだと思います。
いつもありがとうございます。
今後ともよろしくお願いいたします。
- 1963. Re[1962]:解析について 投稿者:杉本典夫 [URL] 投稿日:2023/09/15 (Fri) 09:49:02
- >北の大学院生さん
こんにちわ!
> SNPの解析に関してなのですが、やはり主成分分析または因子分析を行って、主成分スコア、主成分負荷量で散布図を描いて、回帰分析を行ったほうが良いということであっているでしょうか。
主成分はお互いに独立ですし、因子軸を回転しない因子もお互いに独立です。そのため主成分スコアや因子スコアを目的変数にした回帰分析は意義があると思います。でも主成分スコアや因子スコアを説明変数にした重回帰分析は意義があまりありません。
主成分分析と因子分析は次元圧縮のための手法です。つまり検討すべき項目が多く、しかもお互いに相関がある時に、それらを相関が高い項目でグルーピングして、お互いに独立な少数の主成分や因子にまとめて扱いやすくするための手法です。そのため主成分スコアや因子スコアには、原則として単変量解析を適用します。
> 2群でそれぞれ3標本ずつサンプリングしたとき、様々な遺伝子を3人ずつの問診票の回答ととらえて、それぞれの群ごとに主成分分析を行い、主成分スコアで2群を0と1で識別してロジスティック回帰分析を行うという方法で良いでしょうか。
2群それぞれが3標本では、多変量解析を適用するには例数が少なすぎます。多変量解析を適用するには、少なくとも「例数>項目数×10」という条件を満足している必要があります。
ただし遺伝子は項目数が非常に多いので、主成分分析や因子分析によって次元圧縮して解析項目数を減らします。しかし次元圧縮する場合、項目数よりも例数の方が少ない場合は例数によって次元圧縮の最大値が決められます。
例えば例数が3例で項目数が非常に多い時は、主成分や因子の数は最大で3個になります。そして主成分と因子の数を最大値である3個まで抽出した時は、それらの主成分や因子は項目をグルーピングしたものではなく、3例の遺伝子内容を反映したものになります。
したがって主成分分析や因子分析を適用する時は、少なくとも「例数>主成分数または因子数×10」という条件を満足している必要があります。そして主成分数や因子数はたいてい3〜5個程度ですから、例数は少なくとも30〜50例以上必要になります。
> P値によって書かれるvolcano poltはあまり意味ないという解釈で良いでしょうか。(一応plotしてみましたが。。。)
そのとおり、p値は検定以外には意味がないので、volcano plotはほとんど意味がありません。(^_^;)
volcano plotよりもMA plotの方が意味があると思います。
> また、オッズ比、リスク比、ハザード比に関してフィッシャー情報量などから、推定の誤差を予測しようと思い色々と調べていると、95%信頼区間に関して
> “lower limit 割る upper limit”
> が0.5以上で区間推定の精度良好など判断材料を知ることができました。
これは下限が0で上限が1という出現率のような評価指標の時だけ適用できる、特殊な判断材料だと思います。リスクとハザードは出現率ですから、この判断材料を用いることができると思います。しかしオッズは下限は0ですが上限は無限大なので、この判断材料はあまり有用ではないと思います。
ただし出現率が小さい時(10%未満)はオッズとリスクが近似します。そして出現率が小さい時は出現率が指数関数的に変化します。そのため出現率を対数変換した対数リスクの差または対数ハザードの差を評価指標にします。その対数リスク差または対数ハザード差を指数変換して元に戻したものがリスク比とハザード比であり、オッズ比はリスク比の近似値になります。
これらのことを考慮すると、出現率が10%未満の時は「lower limit 割る upper limit」を区間推定の精度の判断材料にしても良いと思います。
> 学習中に下記URL部でEXP(0.158)=1.171がEXP(0.158)=1.093になってしまっていると思われました。
ありがとうございます、またしてもタイプミスでした! 早速、訂正しておきます。
> EZRで時間依存解析を方法のところをexactやefronに変更できましたが、やはり他にも近似を用いているようでパラメトリックな方法が分かりやすくて良いと改めて実感しました。
> 非専門分野で計算したので、計算結果にどれだけの医学的価値があるかもできれば専門家に確認しようと思います。
それが良いと思います。
ロジスティック回帰分析等の多変量解析はたいていパラメトリック手法です。でも生存時間解析だけは、パラメトリック手法が存在するにもかかわらず、中途半端なセミパラメトリック手法が流行しているので困ったもんです。(~_~)
ノンパラメトリック手法やセミパラメトリック手法は数学モデルを用いないので、現実の世界と数学モデルの違いを検討して色々と考察することができません。ガリレオ以来、現実の世界を数学で理論的にモデル化し、実験によって両者の違いを検討することが近代科学の基本です。そのためノンパラメトリック手法とセミパラメトリック手法は前近代科学的な統計手法だと思います。(^_^;)
それでは、今度ともよろしくお願いします。
- 1962. 解析について 投稿者:北の大学院生 投稿日:2023/09/14 (Thu) 15:03:22
- 杉本様
いつも大変お世話になっています。
SNPの解析に関してなのですが、やはり主成分分析または因子分析を行って、主成分スコア、主成分負荷量で散布図を描いて、回帰分析を行ったほうが良いということであっているでしょうか。
2群でそれぞれ3標本ずつサンプリングしたとき、様々な遺伝子を3人ずつの問診票の回答ととらえて、それぞれの群ごとに主成分分析を行い、主成分スコアで2群を0と1で識別してロジスティック回帰分析を行うという方法で良いでしょうか。
P値によって書かれるvolcano poltはあまり意味ないという解釈で良いでしょうか。(一応plotしてみましたが。。。)
ご教授をよろしくお願いいたします。
また、オッズ比、リスク比、ハザード比に関してフィッシャー情報量などから、推定の誤差を予測しようと思い色々と調べていると、95%信頼区間に関して
“lower limit 割る upper limit”
が0.5以上で区間推定の精度良好など判断材料を知ることができました。
学習中に下記URL部でEXP(0.158)=1.171がEXP(0.158)=1.093になってしまっていると思われました。
http://www.snap-tck.com/room04/c01/stat/stat10/stat1003.html#:~:text=OR1U%3Dexp(0.158)%3D1.093
EZRで時間依存解析を方法のところをexactやefronに変更できましたが、やはり他にも近似を用いているようでパラメトリックな方法が分かりやすくて良いと改めて実感しました。非専門分野で計算したので、計算結果にどれだけの医学的価値があるかもできれば専門家に確認しようと思います。
今後ともよろしくお願いいたします。
- 1961. Re[1960]:[1959]:対応分析、別名コレスポンディング分析の同時布置の解釈 投稿者:おそるおそる 投稿日:2023/09/06 (Wed) 00:02:29
- 杉本先生 こんばんわ。ご返信ほんとうにありがとうございます。
+++
この場合、テキスト中に現れる特定の語句を「ある疾患における特定の症状」に相当すると考えてください。そして多くの患者について、複数の症状の有無を調べて「0:無 1:有」で表します。
このデータを主成分分析すると、どの患者でも同時に発現する複数の症状は相関が高いので、それらをまとめて1つの主成分になります。しかし特定の患者だけに発現する特殊な症状は他の症状と独立しているので、その症状だけで1つの主成分になります。
このような場合、主成分を座標軸にして、各症状と主成分の相関係数である主成分負荷量をプロットすると、お互いに相関が高い症状のプロットはまとまり、他の症状と独立した症状のプロットはポツンと離れてプロットされます。
そして独立した症状に対応する主成分軸上では、他の症状と独立した症状のプロットは原点から離れてポツンとプロットされ、他の症状のブロットは原点付近にまとまります。これが上記の「結果の中で原点からの距離が離れている語ほど「特徴的な語」である」という記述に対応します。
つまりその症状が発現した患者は他の患者と比較して特殊な患者であり、その疾患の特殊な病態を表す患者と言えます。
これと同様に、テキストマイニングの場合、原点から離れてプロットされた語句は、一般的な被験者の文章とは異なる特定の被験者の文章を表す語句と考えられます。
+++
この部分のコメントで、頭の中に2次元のクロス表がふわっと浮かび、図を描き起こしてみると、なるほどと目からうろこが落ちた、ストンと腑に落ちるという体験(もしかしてアハ体験?)でした。すぐにお礼の返信をするべきでしたが、分析に没頭してしまい御礼が遅れ大変失礼しました。今後とも、どうかよろしくお願いしたく存じます。
取り急ぎ御礼のみ失礼仕ります。