SSブログ

データサイエンティストの仕事は8割が前処理? [データサイエンス、統計モデル]

8割か、9割か、7割かは置いておいて、一般的には、「データサイエンティスト(データ解析)の仕事は8割が前処理」と思われている。

データマイニングやビックデータという言葉が出てきた頃の時代に置いては、大半が前処理といっても、「まぁ、そうだよね。」といった感覚はあったと思う。

未だに「前処理に大半の時間をついやし、モデリングをしている時間は少し」といったことを言う人がいる。
どこどこのセミナーに参加しても、一人や二人は「前処理が~」と言っているように思えます。


最近では、データベースがかなり高速化され、大規模のデータを簡単に扱える基盤もそろってきている。
個人的には、「8割が前処理」というのは、一種の「逃げ」の状況を作っているのではないか?

「8割が前処理」で「2割がモデリング」という状況の中で作られたモデルはまだまだ未成熟なもので、消費者の行動のメカニズムを正しく記述できているとは思えない。
だからこそ、頑健性がなく、時間とともにモデルが陳腐化してしまう、といったしょっぱいモデルになっているのではないか?

「2割が前処理」で「8割がモデリング」くらいの比重でじっくりとデータに向き合い大量の変数をツールにぶちこむのではなく、丁寧なモデリングをしていった後にできた統計モデルは、企業の中で知的財産といわれるくらいの完成度の高いものに仕上がっているはずだ。

nice!(5)  コメント(0) 
共通テーマ:学問

nice! 5

コメント 0