SSブログ

SPSS Data Mining Day 2008 [データサイエンス、統計モデル]

昨日、SPSS Data Mining Day 2008 がセルリアンタワー東急ホテルであった。

今回、面白いなと思ったのは、早稲田大学 守口剛先生の『データマイニングを利用した顧客データの分析と活用』だ。
後は、パッっとしなかった。。。

Clementineの決定木では、現在使えるアルゴリズムは、
・C5.0
・C&R Tree
・QUEST
・CHAID
となっている。

CHAID以外の3つのアルゴリズムを使う際の注意点として、1/0の2値を予測する場合、片一方のカテゴリ数の割合が高いときには、上手く予測できないことがある。

例えば、コンバージョン率が低いインターネットの場合、C5.0などのアルゴリズムは、全部、0と予測するわけである。
"0" の割りが多く、99.9% が "0" の場合、とりあえず、みんな "0" と予測しておけば、99.9% の精度で当たりなわけだ。

ただ、この様な木を作っても使い道はない。

そこで回避する方法として、以下の2つがある。
1. バランスノードを使って、"1" と "0" の割合を調整する
2. 誤認識によるペナルティを設定する

1. の場合、データ数を意図的に減らしたり増やしたりするので、例えば、減らす場合、せっかく集めたデータを使わない"もったいなさ"みたいなのがあるだろう。

2. の場合、では、そのペナルティを何対何に設定すれば良いのか?といった問題が出てくる。

今回、守口先生は、DM(ダイレクトメール)などを送る際のコストと、成約するのに、成約しなかった場合の機械損失の誤差の比率で設定するのもひとつの方法である。と言っていた。

個人的に思ったのは、現実的に、なかなか上記の様なコストを設定するのは、難しい。
では、難しいなら、"コスト" という概念をすてて、別の指標が MAX/MIN になるような比率にすれば良いのではないだろうか?と。
ここで、精度については語られていたのだが、逆に、頑健性(ロバスト性)については、語られていない。
ロバスト性が最大になるような比率に設定するのもひとつの方法だと思った。

しかし、Clementineでは、自動でコストを見つける方法はないので、スクリプトを組むなりして、何度かイテレーションするしかない。
ちょっと、面倒である。(´д`)

nice!(0) 
共通テーマ:学問

nice! 0