SSブログ

リコメンドの評価 [データサイエンス、統計モデル]

久々にリコメンドメールの分析を行った。
その時の評価として、ベースをどこにおくか。

よくリコメンドをやっているASPとかの資料をみると
「ランダムと比べて○○倍よくなりました。」
とかあるが、そりゃ~よくなるのは当然なのでイマイチ信用ならない。

One to One ではなく、マス的ではあるが、あるセグメントでの売れ筋とか考えているわけで、それらに比べてどれだけよくなるかが大切なんだろう。
つまり、ショボイアルゴリズムとかだと、結果マスアプローチに負けることだってありうる。

話を戻して、Clementine(PASW Modeler)を使っていくつかモデルを作ることにした。
まずは、レコメンドの代表的なアルゴリズム
・アソシエーション
・協調フィルタリング
を試してみる。

精度の比較をすると、結果、当然ランダムの結果よりかは良いのだが、セグメントごとの売れ筋にも劣るモデルだった。
このあたりはちょっと意外な結果。

次に評価したのは、以前作った汎用的な独自モデル。
(↑こちらも Clementine で作った。)

汎用的なモデルなのだが、頑健性に重点を置いているだけあって、今回の適応もバッチリ。
また、売れ筋よりも精度が高く、(・∀・)ウホッ って感じだ。

最近、どこの会社もなんちゃってリコメンドなどをやりだしてきて、安価に導入できる。結果、導入したは良いものの、思うように成果があがらないとかってケースが増えてきている気がする。

○○いう特性のあるデータには、△△というアルゴリズムが相性が良いとか、
××いう分野には、□□が良いってのを理解して使う必要があるんだろう。

nice!(0) 

nice! 0