SSブログ

Amazon.com - Employee Access Challenge [データサイエンス、統計モデル]

KDD CUP 2013もほぼ終了ということで、次のお題を探していたら、面白いのを見つけた。

Amazon.com - Employee Access Challenge
https://www.kaggle.com/c/amazon-employee-access-challenge

特徴量(説明変数)は、
・RESOURCE
・MGR_ID
・ROLE_ROLLUP_1
・ROLE_ROLLUP_2
・ROLE_DEPTNAME
・ROLE_TITLE
・ROLE_FAMILY_DESC
・ROLE_FAMILY
・ROLE_CODE
の9個。

目的変数は、ACTIONの1 or 0を予測するというもの。

一見単純そうですが、上記のカテゴリ変数を1,0にフラグ化する場合、
・RESOURCE → 7518
・MGR_ID → 4243
・ROLE_ROLLUP_1 → 128
・ROLE_ROLLUP_2 → 177
・ROLE_DEPTNAME → 449
・ROLE_TITLE → 343
・ROLE_FAMILY_DESC → 2358
・ROLE_FAMILY → 67
・ROLE_CODE → 343

と、いっきに 15,626変数を作成することができます。
しかも、ほとんど0しか入っていないというデータです。

この辺りどう工夫していくのかが、難しいところでもあり、
面白いところでもありますね。

評価基準としては、area under the ROC curveを採用しています。
http://en.wikipedia.org/wiki/Receiver_operating_characteristic

ちなみに、ベンチマークとして、randomのスコアが0.50000。
K-Nearest-Neighbors (k=1)のスコアが0.63083でした。

nice!(4)  コメント(0)  トラックバック(0) 
共通テーマ:学問