pythonで回帰分析をやる際の落とし穴 [データサイエンス、統計モデル]
最近、機械学習をずっとやってきた人のレビューをする機会があって、いろいろ衝撃を受けているのですが、よく見かける間違いについて。
機械学習とかだとあまり意識しなくても良いんだろうけど、統計モデルの回帰分析をやる時、説明変数にカテゴリ変数が入っている場合があります。
血液型とか、性別とか。
Rでカテゴリ変数が入っている場合、Rの内部でよしなにダミー変数に変換してくれます。
具体的には、「カテゴリ数-1」となっています。
ずっと、pythonで機械学習をやってきた人はこの辺りのことを知らない人がそれなりにいるみたいでして、そのまま突っ込んで回帰分析をしてしまう。
pythonの場合は、それっぽく動いてしまうのがやっかい。
結果を見て、なんかおかしいんですけど、どうでしてですか?的な質問を何度か受けました。
先日のAICを知らない問題もそうなんですが、統計モデルのかなり初歩的な部分だと思っていただけに、ちょっと驚き。
コードのレビューとかができるエンジニアはたくさんいるけど、肝心のモデル部分のレビューって出来る人って意外と世の中的に少ないのかなって感じる今日この頃です。
機械学習とかだとあまり意識しなくても良いんだろうけど、統計モデルの回帰分析をやる時、説明変数にカテゴリ変数が入っている場合があります。
血液型とか、性別とか。
Rでカテゴリ変数が入っている場合、Rの内部でよしなにダミー変数に変換してくれます。
具体的には、「カテゴリ数-1」となっています。
ずっと、pythonで機械学習をやってきた人はこの辺りのことを知らない人がそれなりにいるみたいでして、そのまま突っ込んで回帰分析をしてしまう。
pythonの場合は、それっぽく動いてしまうのがやっかい。
結果を見て、なんかおかしいんですけど、どうでしてですか?的な質問を何度か受けました。
先日のAICを知らない問題もそうなんですが、統計モデルのかなり初歩的な部分だと思っていただけに、ちょっと驚き。
コードのレビューとかができるエンジニアはたくさんいるけど、肝心のモデル部分のレビューって出来る人って意外と世の中的に少ないのかなって感じる今日この頃です。