PrefixSpanアルゴリズム、アクセスログ分析への応用 [ログ / アクセス解析]
PrefixSpanというのは、時系列分析みたいなもので、特徴のあるパターンを抽出してくれます。
アクセスログの分析に使うことができて、
1. アクションをした/しない を分ける。
2. PrefixSpanで特徴のあるパターンを抽出する。
3. カイ二乗などを使ってアクションする人の遷移の特徴を把握する。
という分析ができます。
面白いのは、遷移が連続していなくてもOKで、
<a> → <b> → ... → <c> → <アクション>
というのが特徴的なパターンだった場合、
<a> → <b> → <c>
がアクションする人の特徴的な遷移ということがいえます。
PrefixSpanアルゴリズムはそんなに難しいものでもないし、特徴を把握するためのカイ二乗の計算も簡単です。
ということで、IBM SPSS Modeler(旧Clementine)で実装できないだろうか?と思ったところ、意外と簡単に実装できてしまいましたw
すごい計算量なので、大量のデータでの計算は難しいですが、通常規模なら実用に耐えれそうです。
というか、Hadoopへの実装もできるんじゃないだろうか。
むしろ、クレメンタインよりもきっと処理時間も早いのでHadoop実装がおススメだと思いました。
● PrefixSpan関連のリンク集
コーディングパターンの分析
http://sel.ist.osaka-u.ac.jp/research/codingpattern/index.html
PrefixSpan-rel -- a sequence pattern miner
http://prefixspan-rel.sourceforge.jp/
PrefixSpan - 機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/index.php?PrefixSpan
アクセスログの分析に使うことができて、
1. アクションをした/しない を分ける。
2. PrefixSpanで特徴のあるパターンを抽出する。
3. カイ二乗などを使ってアクションする人の遷移の特徴を把握する。
という分析ができます。
面白いのは、遷移が連続していなくてもOKで、
<a> → <b> → ... → <c> → <アクション>
というのが特徴的なパターンだった場合、
<a> → <b> → <c>
がアクションする人の特徴的な遷移ということがいえます。
PrefixSpanアルゴリズムはそんなに難しいものでもないし、特徴を把握するためのカイ二乗の計算も簡単です。
ということで、IBM SPSS Modeler(旧Clementine)で実装できないだろうか?と思ったところ、意外と簡単に実装できてしまいましたw
すごい計算量なので、大量のデータでの計算は難しいですが、通常規模なら実用に耐えれそうです。
というか、Hadoopへの実装もできるんじゃないだろうか。
むしろ、クレメンタインよりもきっと処理時間も早いのでHadoop実装がおススメだと思いました。
● PrefixSpan関連のリンク集
コーディングパターンの分析
http://sel.ist.osaka-u.ac.jp/research/codingpattern/index.html
PrefixSpan-rel -- a sequence pattern miner
http://prefixspan-rel.sourceforge.jp/
PrefixSpan - 機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/index.php?PrefixSpan
コメント 0