Weblog(ウェブログ)解析 入門その4 ~ロボット君の行動パターン~ [ログ / アクセス解析]
Weblog(ウェブログ)解析 入門その4 ~ロボット君の行動パターン~
Webを徘徊するロボット君たちがたくさん存在します。
有名なロボット君といえば、Googlebotでしょうか。
名前が、Googleっぽいですが、Googleのロボットです。
その他にもYahoo!やMSNなどなど。
これらのロボット君は良心的で、
「私は、どこどこのロボットです。」
と名乗ってホームページをせっせとかき集めていきます。
働きアリみたいなもんです。
これとは逆に、
「私は、インターネットエクスプローラーです。」
と、一見、PCユーザーのように変装してやってくるたちの悪いロボット君もいます。
では、ISFIのページはどうなっているんでしょうか?
ロボットくさいものは、ロボットだとして集計すると
このようになります。
意外とロボットって多いんですね。
また、携帯電話などのMobileからアクセスしてくれているユーザーも若干まじっています。
もう少しMobileユーザーが増えれば、Mobile対応のページを作るのも良いかも知れません。
ここで、話が少し変わります。
以前のWebページでは、ユーザーは、まずTOPページに訪れ、
その次に、商品説明や会社説明など、そのリンクをたどっていき
自分の欲しい情報のページにたどり着くってのが一般的でした。
データマイニングの決定木に似ているのかもしれません。
木のTOPから、深く掘り下げていき目的の場所に到達する!
しかし、最近のユーザーは、Googleなどの検索エンジンを使って
直接、欲しい情報のページにやって来ます。
以前の様に『ユーザーは、TOPページから来る!』ということはなくなりました。
ISFIの入口ページは、どうなっているでしょうか?
この結果をみると、トップページを入口としてアクセスしてくる人もいますが、
それよりもブログを入口としてアクセスしてくる人が多いことがわかります。
入口ではなく、見られているページ数では、TOPページが一番多くなります。
(上記の数値では、ロボットやロボットっぽいものは省いた数値です。)
では、ここでロボット君の動きをみてみましょう。
ロボット君がどの様にページを見ているか?/収集していくのか?です。
仮説として、二つのことが考えられます。
1.TOPページから巡回している
2.よく更新される/リンクされているページから巡回している
これは、ロボットとはっきり解るものだけを集めてきました。
これを見ると、2.のパターンだと思われます。
テキストマイニングでは、辞書作りはとても大切な作業です。
このアクセスログ解析においても、正確にアクセスログの分析を行うのであれば
ロボット辞書なるものを作る必要がありそうですね。