SSブログ

PrefixSpanアルゴリズム、アクセスログ分析への応用 [ログ / アクセス解析]

PrefixSpanというのは、時系列分析みたいなもので、特徴のあるパターンを抽出してくれます。

アクセスログの分析に使うことができて、
1. アクションをした/しない を分ける。
2. PrefixSpanで特徴のあるパターンを抽出する。
3. カイ二乗などを使ってアクションする人の遷移の特徴を把握する。
という分析ができます。

面白いのは、遷移が連続していなくてもOKで、
  <a> → <b> → ... → <c> → <アクション>
というのが特徴的なパターンだった場合、
  <a> → <b> → <c>
がアクションする人の特徴的な遷移ということがいえます。

PrefixSpanアルゴリズムはそんなに難しいものでもないし、特徴を把握するためのカイ二乗の計算も簡単です。
ということで、IBM SPSS Modeler(旧Clementine)で実装できないだろうか?と思ったところ、意外と簡単に実装できてしまいましたw



すごい計算量なので、大量のデータでの計算は難しいですが、通常規模なら実用に耐えれそうです。

というか、Hadoopへの実装もできるんじゃないだろうか。
むしろ、クレメンタインよりもきっと処理時間も早いのでHadoop実装がおススメだと思いました。

● PrefixSpan関連のリンク集
コーディングパターンの分析
http://sel.ist.osaka-u.ac.jp/research/codingpattern/index.html

PrefixSpan-rel -- a sequence pattern miner
http://prefixspan-rel.sourceforge.jp/

PrefixSpan - 機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/index.php?PrefixSpan

nice!(37)  コメント(0)  トラックバック(0) 
共通テーマ:学問

nice! 37

コメント 0

トラックバック 0