SSブログ

パス解析というマジックワード [データサイエンス、統計モデル]

【質問】
パス解析をする際に、1,0のバイナリデータを使っても問題ないでしょうか?

【回答】
説明変数に1,0のバイナリデータ(二項データ)がある場合は、特に問題なりませんが、目的変数部分にバイナリデータがあると統計的にはまずい。

通常、目的変数が正規分布しているときは、線形回帰分析を使います。
目的変数が、1,0のバイナリデータ(二項データ)の場合は、ロジスティック回帰分析を使います。
というのは、1,0のバイナリデータの場合、yの値が負の値をとったり、1超の値をとったりすることはないから。

おそらくこの部分で間違える人はいないのですが、パス解析という、なんだかなんでもよしなにやってくれそうな手法になると、このあたりのことを忘れてしまう人がいる様です。

パス解析は、複数の回帰モデルを同時に最尤推定するというものなので、個々に見れば、回帰分析をしていることがわかるかと思います。

では、実際には、目的変数が1,0のバイナリデータである場合、どうすれば良いか?
(1) そのままパス解析をする
(2) 同時推定ではなく、個々に回帰モデル(線形回帰やロジスティック回帰)を適用する
(3) 同時推定する尤度関数を書いて、それを最適化する
が考えられます。

(1)は、分析ソフトを使えば、それっぽい結果は出てくるものの、統計的にはNG。
(2)実践的には、こちらでOKっぽい。
(3)尤度関数を書ける人は、こちらで最尤推定するのがベスト。

ということで、まとめると
(1) <<< (2) < (3)
となります。

〜追記〜
MPLUSというソフトは、二値データの共分散構造分析(SEM)にも対応しているので、お金がある人は、"(4) MPLUSを買う" という選択肢もありです。

nice!(2)  コメント(0) 
共通テーマ:学問

nice! 2

コメント 0