Go to TOP Page
Google:


□User-Agent が公開されてたぞ。


○その数は 3 種類のよーだ。

長きに渡った baidu 戦もようやく終焉が見えてきたぞ。
2008/11/05 に、ふとしたことで baudu.jp のユーザーサポートの web page を見てみたぞ。
Web サイトのクロールに使用している User-Agent の全てが公開されてまつた。
ソースは、http://help.baidu.jp/system/05.html#1 を参照されたい。
URL を書いてるんだったら、リンクしておいてよっ!っつーキモチはワカルのでつが、諸般のキモチを、

お察し下さい。

□robots.txt で全て dis-allow でおk


○今後の検証が必要でつが・・・

公開されていた User-Agent は下記の 3 つ。
理論上は、この 3 つを全て robots.txt で disallow すれば baidu のクローラーは巡回しなくなるハヅ。

だそうだ。
さぁ、早いトコ robots.txt に disallow を書いてみよぅっ!

robots.txt の記述例
User-Agent: Baiduspider
Disallow: /

User-Agent: Baiduspider+
Disallow: /

User-Agent: BaiduImagespider
Disallow: /

で、良さ気な感じ。
後は、.htaccess に書きまくった baidu 関連の拒否設定をコメントアウトして様子を見てみましょう。
baidu がホントにクロール止めたのを確認してから過去の baidu 関連設定を削除しても遅くはないでしょう。

最後に残る懸念は、 .asianetcom.net からのアクセス。
whois してみると、.hk がアクセス元のようでつが、

ロクでもないリクエスト
SQL Injection とかSQL Injection とかSQL Injection とか・・(*--;)

しか送ってこないので引き続き拒否しておいた方が良さ気・・・・。


□検証の結果わ!?


○結果が出るまで 1ヶ月

baidu.jp のユーザーサポートのページに記述されているけど・・・
robots.txt の記述が反映されるまで概ね 1ヶ月程度かかるモヨウ。
2008/11/05 に robots.txt を書き換えたので、結果は 2008/12 上旬頃に出るハヅ。

coming soon☆-Σ(゚∀゚)

□検証の結果


○今日は 2008/12/16 日でつ。

予定の 12 月上旬も過ぎたので access_log を見てみまつた。
下記は baidu の リクエストだけを抜粋した log でつ。

log を抜粋
119.63.193.56 - - [02/Dec/2008:02:19:56 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [03/Dec/2008:02:18:52 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [04/Dec/2008:09:54:53 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [05/Dec/2008:10:14:10 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [06/Dec/2008:02:36:36 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [07/Dec/2008:02:19:11 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [08/Dec/2008:10:12:36 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [09/Dec/2008:10:03:17 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [10/Dec/2008:02:16:19 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [11/Dec/2008:02:31:39 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [12/Dec/2008:02:13:36 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [13/Dec/2008:10:24:30 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [14/Dec/2008:10:24:40 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [15/Dec/2008:03:15:43 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"
119.63.193.56 - - [16/Dec/2008:10:31:01 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"

っつーワケで 1 日 1 回、robots.txt を読んでいるだけとなりまつた。(^-^)v
BaiduImagespider とかが来た形跡が無いのが気がかりでつが・・・
Baiduspider+ を disallowしとけば、他も来なくなるのかな?
とりあえず、 2008/12/16 日現在、

効果アリ

ってことで。
ただし、新しいクローラを放ってくる可能性はゼロではないので、定期的なチェックを怠っちゃダメだよ。


□検証の結果其之弐


○今日は 2009/12/02 日でつ。

log 見てて、ふと、気がついた。

最近、 baiduspider 見てないな。

っつーワケで 過去 log を遡ってみると・・・・。
2009/05/14 AM 03:10 に robots.txt を get した以降、来なくなってたぞ。
と、ゆぅことわ、約半年間、 baiduspider がクロールしてこなかったとゆーことだ。
これって、ひょっとして、もしかしてっ!!・・・・。 うぅん。でも、やっぱり、きっとっ!!、そう!!

大勝利キタ━━━(゚∀゚)━━━ !!!!!

と、ゆぅことで確証を得るべく調査開始。
baidu.jp はまだサービスしているな・・・。
wikipedia で baidu を調べてみるとショックな記事を発見。

2007年6月 - ソニー前会長の出井伸之がBaidu, Inc.社外取締役に就任。
http://ja.wikipedia.org/wiki/Baidu 2009/12/03 日現在 の記事より抜粋。
ナニー!Σ(゚∀゚)

このの問題は置いといて・・・調査再開。
wikipedia を読み進めていくと・・・。

また同年5月には負荷の少ない新型クローラである「BaiduChecker」を導入し、ウェブサイトに与える負荷を平均数百バイト程度に抑えられるようになったと表明している[4]。 2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、 特にBaiduMobaiderはRobot.txtを無視してクロールしている。
http://ja.wikipedia.org/wiki/Baidu 2009/12/03 日現在 の記事より抜粋。

>>2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、
>>2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、
>>2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、
>>2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、

☆-Σ(゚∀゚)!!

取り急ぎ、過去の access.log を調べてみる。

きてたorz
しかも大量(=゜∇゜).∴

>>特にBaiduMobaiderはRobot.txtを無視してクロールしている。
>>特にBaiduMobaiderはRobot.txtを無視してクロールしている。
>>特にBaiduMobaiderはRobot.txtを無視してクロールしている。
>>特にBaiduMobaiderはRobot.txtを無視してクロールしている。

仰せの通りorz
死にたい・・・orz
謝罪と賠償を要求するアルщ(゚Д゚щ)

絶対に許さない。
絶対にだ。

第七次 baidu 戦役 の始まりであった。

□baidu に関するエントリ


・第壱次 baidu 戦役 - Baidu タンをなんとかする
・第弐次 baidu 戦役 - Baidu タン再び降臨
・第参次 baidu 戦役 - Baidu 魔王、三度降臨
・第四次 baidu 戦役 - Baidu 魔神、四度降臨
・第伍次 baidu 戦役 - baidu.jp を拒否る。
・第六次 baidu 戦役 - baidu 対策のまとめ
・第七次 baidu 戦役 - BaiduChecker, BaiduMobaider を拒否る。





go back    next
Copyright(c) ORATORIO-TANGRAM.com 2001-2007 All Rights Reserved.
Total:counter