SSブログ

「検定」と「統計モデル」と「機械学習」の違い [データサイエンス、統計モデル]

統計モデルと機械学習の違いを個人的な見解で書くと、
・統計モデル:構造(意思決定のメカニズム)を「説明」することにより重きを置いている
・機械学習:予測することにより重きを置いている
かと思います。

最近では、統計モデルであってもそれなりの精度が出せるモデルが出てきたり、機械学習で作ったモデルでも構造を理解するアプローチが盛んに議論されたりしています。

この辺りは、色々なサイトで書かれているので、それほど違和感がないかと思います。

最近、感じることとして、「検定」と「統計モデル」の使い分けが出来ていない場合が多いかなと。
ABテストが簡単できるようになったおかげで、「検定」して、統計的に有意だから、効果あり!とか効果なしといった議論をしたくなるわけです。

「検定」について、みんなが迷っている/誤った使い方としてこんなのが見られます。
・いろんな検定あるけど、その検定使ったらいいのか?
・有意なってほしいので、色々な検定をやりまくって、なんとか有意になる検定を探している

フィッシャーの3原則というのがあります。
(統計検定2級あたりではよく出てきます。)
1.局所管理
2.無作為化
3.反復

まぁ、当然のことを言っているのですが、ABテスト(実験)をやる上で、できるだけ均一になるよう管理するということを言っています。

なので、介入をしている変数以外は、基本的に同じ(全体的に平均)ということを仮定しています。

「検定」の世界においては、差があるとは言えない状況(有意でないケース)というのは、平均的には差がないということを言っています。

ただ、マーケティング(特にOne To Oneマーケティングの世界)において、平均的には差がないかもしれないけど、とあるセグメントには有意に差があるという場合があります。
むしろ、どういう人に有効なのかを見つけることが腕の見せ所かもしれません。

こういう状況においては、「検定」のアプローチではなく、「統計モデル」を使うことで、これらを明らかにすることができます。

nice!(3)  コメント(0) 
共通テーマ:学問