SSブログ

アンケートデータと行動データ [データサイエンス、統計モデル]

データ解析コンペティション、第3回研究部会に行ってきた。
今回は、中間発表の2回目だった。

うちのチームも発表。
今年は、お世話になっている方から一緒にやらないかというお誘いがあり、別会社の人とでチームを組むことになった。
今までにない新しい視点を取り込めればと思っている。

さて、今回のデータ解析コンペティションのデータは、主に
・ユーザの食に関するアンケートデータ
・ユーザが実際に作った食事のトランザクションデータ
である。

どのチームもそうだが、アンケートのデータでユーザの因子やクラスタを作成している。
因子もきれいに出るし、クラスタもきれいに分かれる。
じゃ、この作った因子やクラスタを利用して、どんな食事を作っているのかを上手く説明できるのではないか?

しかし、結果、、、アンケートで作った因子やクラスタで、実は、食卓の行動パターンが上手く分離できない。
うちのチームだけじゃなく、他の全チームもそうだったのが面白い。

つまり、アンケートでは(意識の上では)、色々な食に関する意識の違いや生活スタイルの違いは、きれいに分かれているのだが、その先にある、『どう行動するか?』になると、思っていることと現状は違うんだろう。
このあたりは、面白いポイントでもあり、アンケートデータの限界でもあると思う。

そして、この先にあるのは、実際に、どんな食事を作ったのかというトランザクションデータの出番であり、このデータをどう料理していくのかってのが、今後のポイントになっていくだろう。

データ解析コンペのデータもそうだが、現実的にもアンケートデータを使って色々と分析することがある。
しかし、そのデータをそのまま信じて施策などを起こすと、たいてい上手くいかないわけで、やはり大切なのは、行動データだろう。
行動履歴のデータで因子や施策に落とせる分析ができるなら、それをベースにした方が良い。
どうしても、取れない部分に関してのみ、あくまでも参考的にアンケートデータを使うのが良さそうである。

nice!(0) 
共通テーマ:学問

nice! 0