パス解析というマジックワード [データサイエンス、統計モデル]
【質問】
パス解析をする際に、1,0のバイナリデータを使っても問題ないでしょうか?
【回答】
説明変数に1,0のバイナリデータ(二項データ)がある場合は、特に問題なりませんが、目的変数部分にバイナリデータがあると統計的にはまずい。
通常、目的変数が正規分布しているときは、線形回帰分析を使います。
目的変数が、1,0のバイナリデータ(二項データ)の場合は、ロジスティック回帰分析を使います。
というのは、1,0のバイナリデータの場合、yの値が負の値をとったり、1超の値をとったりすることはないから。
おそらくこの部分で間違える人はいないのですが、パス解析という、なんだかなんでもよしなにやってくれそうな手法になると、このあたりのことを忘れてしまう人がいる様です。
パス解析は、複数の回帰モデルを同時に最尤推定するというものなので、個々に見れば、回帰分析をしていることがわかるかと思います。
では、実際には、目的変数が1,0のバイナリデータである場合、どうすれば良いか?
(1) そのままパス解析をする
(2) 同時推定ではなく、個々に回帰モデル(線形回帰やロジスティック回帰)を適用する
(3) 同時推定する尤度関数を書いて、それを最適化する
が考えられます。
(1)は、分析ソフトを使えば、それっぽい結果は出てくるものの、統計的にはNG。
(2)実践的には、こちらでOKっぽい。
(3)尤度関数を書ける人は、こちらで最尤推定するのがベスト。
ということで、まとめると
(1) <<< (2) < (3)
となります。
〜追記〜
MPLUSというソフトは、二値データの共分散構造分析(SEM)にも対応しているので、お金がある人は、"(4) MPLUSを買う" という選択肢もありです。
パス解析をする際に、1,0のバイナリデータを使っても問題ないでしょうか?
【回答】
説明変数に1,0のバイナリデータ(二項データ)がある場合は、特に問題なりませんが、目的変数部分にバイナリデータがあると統計的にはまずい。
通常、目的変数が正規分布しているときは、線形回帰分析を使います。
目的変数が、1,0のバイナリデータ(二項データ)の場合は、ロジスティック回帰分析を使います。
というのは、1,0のバイナリデータの場合、yの値が負の値をとったり、1超の値をとったりすることはないから。
おそらくこの部分で間違える人はいないのですが、パス解析という、なんだかなんでもよしなにやってくれそうな手法になると、このあたりのことを忘れてしまう人がいる様です。
パス解析は、複数の回帰モデルを同時に最尤推定するというものなので、個々に見れば、回帰分析をしていることがわかるかと思います。
では、実際には、目的変数が1,0のバイナリデータである場合、どうすれば良いか?
(1) そのままパス解析をする
(2) 同時推定ではなく、個々に回帰モデル(線形回帰やロジスティック回帰)を適用する
(3) 同時推定する尤度関数を書いて、それを最適化する
が考えられます。
(1)は、分析ソフトを使えば、それっぽい結果は出てくるものの、統計的にはNG。
(2)実践的には、こちらでOKっぽい。
(3)尤度関数を書ける人は、こちらで最尤推定するのがベスト。
ということで、まとめると
(1) <<< (2) < (3)
となります。
〜追記〜
MPLUSというソフトは、二値データの共分散構造分析(SEM)にも対応しているので、お金がある人は、"(4) MPLUSを買う" という選択肢もありです。
コメント 0