SSブログ
ログ / アクセス解析 ブログトップ
- | 次の30件

Weblog(ウェブログ)解析 入門その2 ~イベント?~ [ログ / アクセス解析]

Weblog(ウェブログ)解析 入門その2 ~イベント?~

raw dataをじっくりみていくことにします。

あるHTMLのページにGIFやJPEGの画像が張られている場合
アクセスログには、画像ファイルなどのリクエスト情報も記録されます。
しかし、分析する人にとって、.htmlや.htmなどの情報だけに絞った方が分析しやすくなります。

つまり、上記の生ログから、.htmlや.htmだけを抜き出したい。

また、もう一つの問題として、分析する対象ページ数の多さにもよります。
弊社の場合、ページ数は多くないので、各ページ単位で分析しても問題はないのですが、
それでも、個人のブログページは、日に日に増えていっています。

インターネットモールやYahoo!やエキサイトなどのポータルサイトでは
各ページ単位で分析を行うには至難の業になってくるでしょう。
同じようなページは、同じカテゴリとして扱ったほうが分析がしやすいでしょう。

そこで、Web Mining for Clementine(以下、WMCと略)の登場です。
宣伝、、、ではないです(・∀・)!

データ作成手順を示した方が解りやすいので、
実際に上記のraw dataから分析用データができるまでの手順を追って行くことにしましょう。

まずは、Eventファイルを定義します。

後は、WFCに通すと、次のような結果が簡単に出力されます。

ここから先は、各種集計をするもよし、モデリングを行うもよし。

まずは、各種集計をしてみましょう。
続く...

☆ おまけ ☆
上村愛子がブログデビューしたらしい
ttp://blog.excite.co.jp/aikouemura

可愛いのぉ (*´д`*)ハァハァハァアハァ


nice!(0) 
共通テーマ:学問

Weblog(ウェブログ)解析 入門その1 [ログ / アクセス解析]

Weblog(ウェブログ)解析 入門その1

Webサイトを解析する前に、アクセスログとはどういうものでしょうか?
インタースコープ・フロンティア総研のアクセスログを見ると下記のようになっています。

まず、生ログデータからそれが何を意味するのかを紐解いていきましょう。

***.***.11.91
これは、アクセスしてきた人のIPアドレスになっています。
個人情報(?)の都合上"***.***.11.91"と書いていますが、実際は、
192.168.31.13のような12桁の数字が入っています。

- -
最初の - ですが、これは、アクセスしてきた人のマシンでidentdがオンになっていないと記録できず、ほとんどidentdは、オフになっているため、気にする必要はないでしょう。
二つ目の - ですが、これは、ID認証(Yahoo!IDとかエキサイトIDなど)をさせている場合、表示されます。

[22/May/2005:20:43:06 +0900]
リクエスト時間です。
2005年5月22日の20時43分6秒の日本時間という意味です。

"GET /blog/nomoto/archives/2005/05/post_8.html HTTP/1.1"
/blog/nomoto/archives/2005/05/post_8.htmlがリクエストされたページ(閲覧ページ)ということです。

200
これは、ステータスを表しており、200は、正常にファイルを送ったという意味です。
400代の数字はエラーを表しています。

12508
ファイルサイズです。
/blog/nomoto/archives/2005/05/post_8.htmlのファイルサイズが12508バイトだという意味です。

"http://www.google.co.jp/search?q=%E3%83%9B%E3%83%83%E3%83%88%E3%83%A8%E3%82%AC&hl=ja&lr=&rls=GGLD,GGLD:2005-04,GGLD:ja&start=50&sa=N"
リファラです。
このユーザーがどこのページから来たのかがわかります。

"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
エージェントと呼ばれており、アクセスした人のブラウザやパソコン環境を示しています。

せっかくなので、もう少し突っ込んでみましょう。
リファラをみるとグーグルの検索から来たことがわかります。
この人は、「どういう検索をしたのか?」ってこともわかります。

でも、%E3%83%9B%E3%83%8...じゃなんのことだかわからないじゃないかぁ!って怒られそうですが、
http://www.google.co.jp/search?q=%E3%83%9B%E3%83%83%E3%83%88%E3%83%A8%E3%82%AC&hl=ja&lr=&rls=GGLD,GGLD:2005-04,GGLD:ja&start=50&sa=N
をブラウザのアドレス欄に直接打ち込んで見ましょう。

するとそのページが現れます。
(・∀・)!

どうやら、『ホットヨガ』を検索していた人が訪れた模様です。。。
(*´д`*)

インタースコープ・フロンティア総研は、統計解析・データマイニング系の会社ですが、、、何か?

ちなみに、5月のキーワードランキングを集計(TOP5)すると
1. ホットヨガ
2. ISFI
3. 上級シスアド
4. インタースコープ
5. 冷やし飴
となっています。

もう少し、データマイニングのブログを書かないとと思った今日この頃です。
7月か8月くらいになったら、『アクセスログ解析』などというランキングが上位に来る!?(かも


nice!(0) 
共通テーマ:学問
- | 次の30件 ログ / アクセス解析 ブログトップ