SSブログ

Weblog(ウェブログ)解析 入門その2 ~イベント?~ [ログ / アクセス解析]

Weblog(ウェブログ)解析 入門その2 ~イベント?~

raw dataをじっくりみていくことにします。

あるHTMLのページにGIFやJPEGの画像が張られている場合
アクセスログには、画像ファイルなどのリクエスト情報も記録されます。
しかし、分析する人にとって、.htmlや.htmなどの情報だけに絞った方が分析しやすくなります。

つまり、上記の生ログから、.htmlや.htmだけを抜き出したい。

また、もう一つの問題として、分析する対象ページ数の多さにもよります。
弊社の場合、ページ数は多くないので、各ページ単位で分析しても問題はないのですが、
それでも、個人のブログページは、日に日に増えていっています。

インターネットモールやYahoo!やエキサイトなどのポータルサイトでは
各ページ単位で分析を行うには至難の業になってくるでしょう。
同じようなページは、同じカテゴリとして扱ったほうが分析がしやすいでしょう。

そこで、Web Mining for Clementine(以下、WMCと略)の登場です。
宣伝、、、ではないです(・∀・)!

データ作成手順を示した方が解りやすいので、
実際に上記のraw dataから分析用データができるまでの手順を追って行くことにしましょう。

まずは、Eventファイルを定義します。

後は、WFCに通すと、次のような結果が簡単に出力されます。

ここから先は、各種集計をするもよし、モデリングを行うもよし。

まずは、各種集計をしてみましょう。
続く...

☆ おまけ ☆
上村愛子がブログデビューしたらしい
ttp://blog.excite.co.jp/aikouemura

可愛いのぉ (*´д`*)ハァハァハァアハァ


nice!(0) 
共通テーマ:学問

nice! 0