zerosp.blog > Blogやネット関連の話 > 2007/04/21 19:59 >

最近のBOT(crawler)の状況

凄い久しぶりにアクセスログを拾ってみました。直近10日分のBOT(crawler)をピックアップしてみました。適当にスクリプトを書いて拾ったので抜けがあるかもしれませんが・・・。アクセスの少ないものは省いてあります。BOT名にBot_Helpへリンクしてます。ないものはサイトリンク。RSSリーダ系のものはリストに入れてません。

比較的おなじみなもの

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googleさんです。他にはGooglebot-Image/1.0やMediapartners-Google/2.1、Google-Sitemaps/1.0などがあります。

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Yahooさんです。他にはYahoo-MMCrawler/3.xなどがあります。

msnbot/1.0 (+http://search.msn.com/msnbot.htm)
MicrosoftのLive Searchです。msnbot-media/1.0などもあり。

ichiro/2.0 (http://help.goo.ne.jp/door/crawler.html)
Gooのクローラーです。なぜかUAがichiroとなってて笑えます。

新しいのとかいろんなの

Mozilla/5.0 (compatible; BecomeJPBot/2.3; MSIE 6.0 compatible; +http://www.become.co.jp/site_owners.html)
ショッピング、レビュー系のサイトを回るらしいです。Amazon Webサービスとかで動的でサイトを作ってると凄い勢いで巡回してくれます。10日で2万アクセスとか。

Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
お行儀の悪さで有名ですよね。この度日本にも進出したらしい。きちんとrobots.txtは解釈してくれるのかねぇ。

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0 qihoobot@qihoo.net)
これもあちらのお手製BOT。例に漏れずお行儀悪し。

Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)
1回日本に上陸しましたけど、撤退しましたよね。

Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )
これもあちらのやつです。拒否候補。

MJ12bot/v1.2.0 (http://majestic12.co.uk/bot.php?+)
ヨーロッパ方面の検索エンジンのようだ。

Gigabot/2.0 (http://www.gigablast.com/spider.html)
どこの国の検索エンジンか分からないけど、そこそこ巡回してきますね。

その他

e-SocietyRobot(http://www.yama.info.waseda.ac.jp/~yamana/es/)
早稲田大学理工学部で研究しているプロジェクトらしい。「インターネット上の知識集約を可能にするプラットフォーム構築技術」だって。

TrackBack/1.6, libghttp/1.0
アクセスログを見るとコメント・トラックバックスパムを打つ際によく使われているようである。

aranhabot
Amazon WebサービスをXSLTを利用して使うときにサーバーに置いたXSLTを引っ張る際に使われるBOTです。

といった具合でした。Qihooとbaiduに関してはcles::blogさんがブログで書いていますね。QihooBot来襲行儀の悪い?Baiduが上場。「新しいのとかいろんなの」の項目に書いてある上5つはもう少し様子を見てみて拒否っちゃおうかなと思ってます。

投稿日 2007-04-21 19:59

当サイトのコメントとトラックバックの扱いについて。

スパム対策のため認証制となっています。受け取ったコメント、トラックバックは一旦保留扱いとなり管理人が許可したものだけ表示されます。

トラックバック

  • 最近のBOT(crawler)の状況のトラックバックURL

コメント

コメントフォーム