データ解析コンペの中間スコア [データサイエンス、統計モデル]
データ解析コンペの中間スコアを提出する日でした。
スコア自体の計算に時間がかかりました。
今回の手法は、協調フィルタリングといった手法ではなく、カスタマと商品の属性の関係を元にモデリングを行うという手法を使っています。
過去の経験から、協調フィルタリングやアソシエーションルールをベースにしたものより、良い精度がでると思うのですが、計算する範囲をうまく抑えてあげないと、数億レコードとか数十億レコードと一気にレコード数が増えてしまうので注意が必要です。
出来としては、50%くらい。
最終発表に向けて、どこまで精度を上げることができるか。
それは、どこまで分析に時間をさけるかでしょうか。
スコア自体の計算に時間がかかりました。
今回の手法は、協調フィルタリングといった手法ではなく、カスタマと商品の属性の関係を元にモデリングを行うという手法を使っています。
過去の経験から、協調フィルタリングやアソシエーションルールをベースにしたものより、良い精度がでると思うのですが、計算する範囲をうまく抑えてあげないと、数億レコードとか数十億レコードと一気にレコード数が増えてしまうので注意が必要です。
出来としては、50%くらい。
最終発表に向けて、どこまで精度を上げることができるか。
それは、どこまで分析に時間をさけるかでしょうか。