SSブログ

回帰分析の基礎の基礎 [データサイエンス、統計モデル]

最近、別のチームのメンバーを見ることになったのだが、元々、ML(機械学習)はできている人材。
今回、統計モデルを作ってもらうことにした。
といっても、とてもシンプルなロジスティック回帰分析。

過去の経験から、陥りやすいポイントはなんとなくわかっているのだが、今回は、まさしく、その部分に真正面から突っ込んできた。。。

やってはいけないこと。

その1 名義変数を連続値として扱うこと
男性=1, 女性=2, NA=3
という値が入っている場合、1,2,3という連続値を使ってしまうミス

その2 NAを適当な値で置換すること
例えば、年齢がNAの場合、0で置換してしまう。

この辺りは、MLしかやっていない人がよく落ちてしまうミスかなと思います。

nice!(3)  コメント(0) 
共通テーマ:学問