SSブログ

過小定式化と過剰定式化 [データサイエンス、統計モデル]

真のモデルを仮定した時、変数が多い時はそれほど問題ないが、変数が少ない場合、正しく結果が得られない。

【過小定式化】
係数がもはや不変ではなく、推定値、標準誤差、t値、それにもとづく有意性の検定などはすべて誤り。

【過剰定式化】
係数の不偏性は保たれ、t値や検定もただしい結果となる。
回帰係数のばらつきは真のモデルに比べ増加するため、推定や検定精度は低下する。

線形回帰モデルをロジットモデルについて、シミュレーションのデータを発生させて検証しました。
線形回帰モデルは、概ね理論通りになったが、ロジットモデルの場合は、係数が少しおかしかった。

なんでだろう・・・と思ったら、

「間違った方法」
z <- -0.8 + 0.3*x1 + 0.2*x2 + 0.1*p + e
y <- 1/(1+exp(-z))
y2 <- ifelse(y < 0.5,0,1)

「正しい方法」
z2 <- -1 + 2*x1 -1*x2 + 0.5*p
prob <- 1/(1+exp(-z2))
unif<- runif(N,0,1)
y2 <- ifelse(unif < prob,1,0)

うっかり、e(正規分布)のノイズを与えてしまったのですが、ロジットモデルの誤差項は正規分布ではなく、ガンベル分布が正解です。

〜 マルチコは悪か? 〜
https://skellington.blog.ss-blog.jp/2017-09-25

nice!(3)  コメント(0) 
共通テーマ:学問

nice! 3

コメント 0