Amazon.com - Employee Access Challenge [データサイエンス、統計モデル]
KDD CUP 2013もほぼ終了ということで、次のお題を探していたら、面白いのを見つけた。
Amazon.com - Employee Access Challenge
https://www.kaggle.com/c/amazon-employee-access-challenge
特徴量(説明変数)は、
・RESOURCE
・MGR_ID
・ROLE_ROLLUP_1
・ROLE_ROLLUP_2
・ROLE_DEPTNAME
・ROLE_TITLE
・ROLE_FAMILY_DESC
・ROLE_FAMILY
・ROLE_CODE
の9個。
目的変数は、ACTIONの1 or 0を予測するというもの。
一見単純そうですが、上記のカテゴリ変数を1,0にフラグ化する場合、
・RESOURCE → 7518
・MGR_ID → 4243
・ROLE_ROLLUP_1 → 128
・ROLE_ROLLUP_2 → 177
・ROLE_DEPTNAME → 449
・ROLE_TITLE → 343
・ROLE_FAMILY_DESC → 2358
・ROLE_FAMILY → 67
・ROLE_CODE → 343
と、いっきに 15,626変数を作成することができます。
しかも、ほとんど0しか入っていないというデータです。
この辺りどう工夫していくのかが、難しいところでもあり、
面白いところでもありますね。
評価基準としては、area under the ROC curveを採用しています。
http://en.wikipedia.org/wiki/Receiver_operating_characteristic
ちなみに、ベンチマークとして、randomのスコアが0.50000。
K-Nearest-Neighbors (k=1)のスコアが0.63083でした。
Amazon.com - Employee Access Challenge
https://www.kaggle.com/c/amazon-employee-access-challenge
特徴量(説明変数)は、
・RESOURCE
・MGR_ID
・ROLE_ROLLUP_1
・ROLE_ROLLUP_2
・ROLE_DEPTNAME
・ROLE_TITLE
・ROLE_FAMILY_DESC
・ROLE_FAMILY
・ROLE_CODE
の9個。
目的変数は、ACTIONの1 or 0を予測するというもの。
一見単純そうですが、上記のカテゴリ変数を1,0にフラグ化する場合、
・RESOURCE → 7518
・MGR_ID → 4243
・ROLE_ROLLUP_1 → 128
・ROLE_ROLLUP_2 → 177
・ROLE_DEPTNAME → 449
・ROLE_TITLE → 343
・ROLE_FAMILY_DESC → 2358
・ROLE_FAMILY → 67
・ROLE_CODE → 343
と、いっきに 15,626変数を作成することができます。
しかも、ほとんど0しか入っていないというデータです。
この辺りどう工夫していくのかが、難しいところでもあり、
面白いところでもありますね。
評価基準としては、area under the ROC curveを採用しています。
http://en.wikipedia.org/wiki/Receiver_operating_characteristic
ちなみに、ベンチマークとして、randomのスコアが0.50000。
K-Nearest-Neighbors (k=1)のスコアが0.63083でした。