SSブログ

SPSS Modeler ヒモトク [データサイエンス、統計モデル]

こんなサイトがあるようです。

SPSS Modeler ヒモトク
https://www.ibm.com/blogs/solutions/jp-ja/category/bigdata-analytics/spss-modeler-himotoku/

その中のコンテンツとして、「わたしの推しノード」があって、
1位:CHAID
2位:レコード集計
3位:データ検査

1位がCHAIDというのは、個人的に納得です。
まずは、CHAIDで可視化してみるといった分析の初歩から、流行りのアップリフトモデルをCHAIDで作ってといったことまで、幅広く使えるノードだと思っています。

他にC5.0とかCARTといった決定木のノードも用意されているのですが、感覚的にしっくりくるのはCHAIDかなと。

よく、データ分析の工数の8割はデータ加工で、モデリングは2割ほどであると言われます。

と書かれていますが、確かにそう言われます。

個人的には、↑の言葉に甘んじてデータ加工に8割もの時間をかけていたのでは、その程度の深みのある分析しかできません。

よくデータ加工は料理と似ているといわれます。
その中でも一番大切なプロセスはモデリングの部分。

そこにあまり時間をかけずに、オートAIなどを使ったモデリングで作ったもの(工数の8割はデータ加工で、モデリングは2割)と、しっかりと時間をかけて作った統計モデル(工数の2割はデータ加工で、モデリングは8割)では大きな差があると思っています。

消費者の理解や予測精度などは、どれだけモデリングを丁寧にすることができるかによって全然変わってきます。

SPSS Modelerのデータ加工プロセスはかなり使いやすく、データ加工に費やす時間を大幅に削減することができ、分析者が本来かけるべきモデリングに時間を割くことができるツールだと思います。

SPSS Modelerは、モデリングがRに比べ弱い部分があるので、そのあたりは別のツールを使ってモデリングをする・・・になるかもしれませんが。。。

nice!(4)  コメント(0) 
共通テーマ:学問

nice! 4

コメント 0