Weblog(ウェブログ)解析 入門その2 ~イベント?~ [ログ / アクセス解析]
raw dataをじっくりみていくことにします。
あるHTMLのページにGIFやJPEGの画像が張られている場合
アクセスログには、画像ファイルなどのリクエスト情報も記録されます。
しかし、分析する人にとって、.htmlや.htmなどの情報だけに絞った方が分析しやすくなります。
つまり、上記の生ログから、.htmlや.htmだけを抜き出したい。
また、もう一つの問題として、分析する対象ページ数の多さにもよります。
弊社の場合、ページ数は多くないので、各ページ単位で分析しても問題はないのですが、
それでも、個人のブログページは、日に日に増えていっています。
インターネットモールやYahoo!やエキサイトなどのポータルサイトでは
各ページ単位で分析を行うには至難の業になってくるでしょう。
同じようなページは、同じカテゴリとして扱ったほうが分析がしやすいでしょう。
そこで、Web Mining for Clementine(以下、WMCと略)の登場です。
宣伝、、、ではないです(・∀・)!
データ作成手順を示した方が解りやすいので、
実際に上記のraw dataから分析用データができるまでの手順を追って行くことにしましょう。
まずは、Eventファイルを定義します。
後は、WFCに通すと、次のような結果が簡単に出力されます。
ここから先は、各種集計をするもよし、モデリングを行うもよし。
まずは、各種集計をしてみましょう。
続く...
☆ おまけ ☆
上村愛子がブログデビューしたらしい
ttp://blog.excite.co.jp/aikouemura
可愛いのぉ (*´д`*)ハァハァハァアハァ