SSブログ

分析者の落とし穴 [データサイエンス、統計モデル]

ここ最近感じていることを徒然なるままに。

例えば、ある精度が求められる分析プロジェクトがあったとします。
通常の(古典的な)方法だと、それなりに頑張った結果、精度が〇〇くらいとなりました。

データサイエンティスト(分析者)自身が、もっと精度が伸びるんじゃないかと思っていたり、事業側(依頼者側)がこの精度だと使えないのでもう少し精度が欲しいと依頼する場合もあったりします。

予測精度はある種のゲームみたいなもので、もっと別の手法を適用すれば精度が良くなるんじゃないか、もっと最新の手法を適用してみてはどうだろうという妄想に取りつかれてしまう。

実際に、上手く行く場合もあるが、個人的には劇的に精度が向上する場合はあまりなく、やたら計算時間がかかったり、その瞬間は精度が向上しても長期的に見るとむしろ悪化していたりするケースが多い。
そして、分析者はモデルが陳腐化したので別の新しいモデルにチャレンジしましょうとなる。

常に新しいモデルにチャレンジすることが正解ではなく、現状の限界を知ったうえで、どうしても高い精度を求めるのか、あるいはその限界を受け入れこれくらいの精度で何ができるのかを見直すというプロセスも必要だろう。
しかし、分析者はどうしても前者にチャレンジしがちであるが、冷静になって本当にやりたいことってなんだったっけと振り替えてみると意外と後者で解決するケースも多いと思う。

いかに難しいアルゴリズムを適用できるかがデータサイエンティストの能力ではなく、総合的に分析全体を設計できる能力が本来の企業によって大切なことだと思う今日この頃。

nice!(4)  コメント(0) 
共通テーマ:仕事