![]() |
長きに渡った baidu 戦もようやく終焉が見えてきたぞ。
2008/11/05 に、ふとしたことで baudu.jp のユーザーサポートの web page を見てみたぞ。
Web サイトのクロールに使用している User-Agent の全てが公開されてまつた。
ソースは、http://help.baidu.jp/system/05.html#1 を参照されたい。
URL を書いてるんだったら、リンクしておいてよっ!っつーキモチはワカルのでつが、諸般のキモチを、
公開されていた User-Agent は下記の 3 つ。
理論上は、この 3 つを全て robots.txt で disallow すれば baidu のクローラーは巡回しなくなるハヅ。
だそうだ。
さぁ、早いトコ robots.txt に disallow を書いてみよぅっ!
User-Agent: Baiduspider Disallow: / User-Agent: Baiduspider+ Disallow: / User-Agent: BaiduImagespider Disallow: / |
で、良さ気な感じ。
後は、.htaccess に書きまくった baidu 関連の拒否設定をコメントアウトして様子を見てみましょう。
baidu がホントにクロール止めたのを確認してから過去の baidu 関連設定を削除しても遅くはないでしょう。
最後に残る懸念は、 .asianetcom.net からのアクセス。
whois してみると、.hk がアクセス元のようでつが、
しか送ってこないので引き続き拒否しておいた方が良さ気・・・・。
baidu.jp のユーザーサポートのページに記述されているけど・・・
robots.txt の記述が反映されるまで概ね 1ヶ月程度かかるモヨウ。
2008/11/05 に robots.txt を書き換えたので、結果は 2008/12 上旬頃に出るハヅ。
予定の 12 月上旬も過ぎたので access_log を見てみまつた。
下記は baidu の リクエストだけを抜粋した log でつ。
119.63.193.56 - - [02/Dec/2008:02:19:56 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [03/Dec/2008:02:18:52 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [04/Dec/2008:09:54:53 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [05/Dec/2008:10:14:10 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [06/Dec/2008:02:36:36 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [07/Dec/2008:02:19:11 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [08/Dec/2008:10:12:36 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [09/Dec/2008:10:03:17 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [10/Dec/2008:02:16:19 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [11/Dec/2008:02:31:39 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [12/Dec/2008:02:13:36 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [13/Dec/2008:10:24:30 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [14/Dec/2008:10:24:40 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [15/Dec/2008:03:15:43 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" 119.63.193.56 - - [16/Dec/2008:10:31:01 +0900] "GET /robots.txt HTTP/1.1" 200 420 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" |
っつーワケで 1 日 1 回、robots.txt を読んでいるだけとなりまつた。(^-^)v
BaiduImagespider とかが来た形跡が無いのが気がかりでつが・・・
Baiduspider+ を disallowしとけば、他も来なくなるのかな?
とりあえず、 2008/12/16 日現在、
ってことで。
ただし、新しいクローラを放ってくる可能性はゼロではないので、定期的なチェックを怠っちゃダメだよ。
log 見てて、ふと、気がついた。
っつーワケで 過去 log を遡ってみると・・・・。
2009/05/14 AM 03:10 に robots.txt を get した以降、来なくなってたぞ。
と、ゆぅことわ、約半年間、 baiduspider がクロールしてこなかったとゆーことだ。
これって、ひょっとして、もしかしてっ!!・・・・。
うぅん。でも、やっぱり、きっとっ!!、そう!!
と、ゆぅことで確証を得るべく調査開始。
baidu.jp はまだサービスしているな・・・。
wikipedia で baidu を調べてみるとショックな記事を発見。
2007年6月 - ソニー前会長の出井伸之がBaidu, Inc.社外取締役に就任。
http://ja.wikipedia.org/wiki/Baidu 2009/12/03 日現在 の記事より抜粋。
このの問題は置いといて・・・調査再開。
wikipedia を読み進めていくと・・・。
また同年5月には負荷の少ない新型クローラである「BaiduChecker」を導入し、ウェブサイトに与える負荷を平均数百バイト程度に抑えられるようになったと表明している[4]。 2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、 特にBaiduMobaiderはRobot.txtを無視してクロールしている。
http://ja.wikipedia.org/wiki/Baidu 2009/12/03 日現在 の記事より抜粋。
>>2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、
>>2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、
>>2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、
>>2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、
取り急ぎ、過去の access.log を調べてみる。
きてたorz
しかも大量(=゜∇゜).∴
>>特にBaiduMobaiderはRobot.txtを無視してクロールしている。
>>特にBaiduMobaiderはRobot.txtを無視してクロールしている。
>>特にBaiduMobaiderはRobot.txtを無視してクロールしている。
>>特にBaiduMobaiderはRobot.txtを無視してクロールしている。
仰せの通りorz
死にたい・・・orz
謝罪と賠償を要求するアルщ(゚Д゚щ)
絶対に許さない。
絶対にだ。
・第壱次 baidu 戦役 - Baidu タンをなんとかする
・第弐次 baidu 戦役 - Baidu タン再び降臨
・第参次 baidu 戦役 - Baidu 魔王、三度降臨
・第四次 baidu 戦役 - Baidu 魔神、四度降臨
・第伍次 baidu 戦役 - baidu.jp を拒否る。
・第六次 baidu 戦役 - baidu 対策のまとめ
・第七次 baidu 戦役 - BaiduChecker, BaiduMobaider を拒否る。