![]() |
2009/05 月に robots.txt を get したのを最後に 2009/12 月迄 baiduspider のリクエストが途絶えていまつた。
大勝利と思ってたら、BaiduMobaider の新弾頭が命中。
初弾の着弾を確認したのわ、 2009/08/20。
Wikipedia を読んでみたら、 2009/07 月頃に BaiduChecker, BaiduMobaider の新弾頭が実戦配備済みとの事。
予想通り、クローラー変えて再登場したのであった。
第七次 baidu 戦役の始まりでつ。
で、 log をご覧あれ。
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:56:27 +0900] "GET /WebSec/baiduConclusion.html HTTP/1.1" 200 9415 "http://www.oratorio-tangram.com/WebSec/baidu403.html" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" 119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:56:31 +0900] "GET /favicon.ico HTTP/1.1" 200 2238 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" 119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:57:38 +0900] "GET /WebSec/Baiduspider.html HTTP/1.1" 200 7798 "http://www.oratorio-tangram.com/WebSec/baiduConclusion.html" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" 119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:57:41 +0900] "GET /favicon.ico HTTP/1.1" 200 2238 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" 119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:58:43 +0900] "GET /WebSec/Baiduspider2.html HTTP/1.1" 200 6023 "http://www.oratorio-tangram.com/WebSec/Baiduspider.html" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" 119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:58:46 +0900] "GET /favicon.ico HTTP/1.1" 200 2238 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" 119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:59:09 +0900] "GET /WebSec/Baiduspider3.html HTTP/1.1" 200 7281 "http://www.oratorio-tangram.com/WebSec/Baiduspider2.html" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" 119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:59:12 +0900] "GET /favicon.ico HTTP/1.1" 200 2238 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" 119-228-164-62.eonet.ne.jp - - [20/Aug/2009:22:01:17 +0900] "GET /WebSec/Baiduspider4.html HTTP/1.1" 200 8752 "http://www.oratorio-tangram.com/WebSec/Baiduspider3.html" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" 119-228-164-62.eonet.ne.jp - - [20/Aug/2009:22:01:20 +0900] "GET /favicon.ico HTTP/1.1" 200 2238 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" 119.63.193.70 - - [14/Nov/2009:08:32:29 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)" *一部のリクエストを抜粋。 |
ツッコミどころ満載の log だ。
取りあえず、 log を客観的に読んでみる。
今のところ、 log で得られた情報から推測する限りでは・・・
とゆーところか。
ハヅしてたらスマン。
あっ!!チョイ待ちっ!!http://www.baidu.jp/spider/ 見てみたら書いてあったよ。
docomo の他、 KDDI とかもある・・・orz
Agent とわゆぇ、全く関係の無いとこが勝手に実在の名称を名乗るのわ如何なモノなのでしょう?
商標とかに引っかからないのでしょうか?詳しい方、フォロー求ム。
ハイフォンがあったり無かったりビミョーに違うからおK なのでしょうか?
ってゆーか、説明しなさい。
クローラーの Agent にこーゆービミョーな名前つけられると、困るなぁ。
携帯端末のアクセスが dis-allow されるカモ?
迂闊に robots.txt に書けない・・・・orz
でも、携帯端末がクロールすることはなさそーだから問題無いかなぁ。
実際のところ、 P-05A でアクセスした時の Agent が何になるのか・・・。
と、ゆーわけで、 P-05A の Agent を google ル。
http://keitaiall.jp/P-05A.htmlによると・・
DoCoMo/2.0 P05A(c100;TB;W24H15) DoCoMo/2.0 P05A(c100;TB;W20H13) DoCoMo/2.0 P05A(c100;TB;W30H19) DoCoMo/2.0 P05A(c100;TB;W16H10) DoCoMo/2.0 P05A(c100;TB;W24H13) DoCoMo/2.0 P05A(c100;TD) DoCoMo/2.0 P05A(c100;TJ) |
7 種類あるミタイ。
何かの条件で使い分けるのかな?詳しい方、フォロー求ム。
んで、baidu が騙ってた Agent と比較する。
Panasonic さん、訴えた方が良いのでわ・・・・?
D506i もある・・ Sony Ericsson さんも訴えた方が良いのでわ・・・?
baidu は過去に robots.txt 完全無視っつー大罪を何度も犯しておりマス。
んで、今回の BaiduMobaider も robots.txt 無視っつー google の検索結果盛り沢山でつ。
Agent 憎んで IP 憎まずのポリシーで IP アドレスを deny することは出来るだけ避けてきたのでつが、限界かなと。
asianetcom.net から eonet に IP まで変えて同時に 新クローラーまで実戦投入してくるのわ反則かなー?
クロール頻度も一時は凄まじかったモヨウ。
robots.txt で dis-allow するのと、 IP を 403 する方法を試してみまつが、IP 403 するのが妥当ではないかと。
robots.txt | .htaccess |
---|---|
User-agent: BaiduMobaider Disallow: / |
deny from 119.63.192.0/21 |
取りあえず、 robots.txt で disallow するだけにしてみまつ。
これでダメなら IP 403 しちゃいまつ。
これで様子みてみまつゆぇ、効果の検証結果は暫くお待ちくだされ。
Wikipedia に記述されていた BaiduChecker は今のところ着弾確認できづorz
命中確認次第、なんとかしてみまつ。
BaiduMobaider の対策中にさらなる着弾を確認。
baidu の援軍襲来。波状攻撃でつorz。
今までの baiduspider が IP アドレス変えてやってきまつた。
詳しくわ、log をご覧あれ。
119.63.193.56 - - [01/Dec/2009:09:59:37 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.jp/spider/)" 119.63.193.130 - - [01/Dec/2009:23:29:09 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.jp/spider/)" 119.63.193.56 - - [02/Dec/2009:08:47:34 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.jp/spider/)" baiduspider-119-63-198-14.crawl.baidu.jp - - [02/Dec/2009:17:02:01 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)" baiduspider-119-63-198-5.crawl.baidu.jp - - [03/Dec/2009:06:33:55 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)" baiduspider-119-63-198-54.crawl.baidu.jp - - [04/Dec/2009:07:54:37 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)" 119.63.193.56 - - [04/Dec/2009:09:52:05 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.jp/spider/)" |
IP アドレス変えたのわ、オイラが知る限り、これで 4 度目。
なんでこんなに IP 変えるんだらぅ?
baidu を whois してみると、 assign された IP は下記のモヨウ。
inetnum: 119.63.192.0 - 119.63.199.255 netname: BAIDUJP *2009/12/04 日現在の whois より |
絶対に許さない。
絶対にだ。
第六次 baidu 戦役当時の robots.txt と .htaccess を修正しまつた。
robots.txt | .htaccess |
---|---|
User-agent: Baiduspider Disallow: / User-agent: Baiduspider+ Disallow: / User-agent: BaiduImagespider Disallow: / User-agent: BaiduMobaider Disallow: / |
SetEnvIf User-Agent "Baiduspider" deny_agent SetEnvIf User-Agent "BaiduImagespider" deny_agent SetEnvIf User-Agent "BaiduMobaider" deny_agent SetEnvIf Referer "^http://www\.baidu\.jp" deny_ref order allow,deny allow from all deny from env=deny_ref deny from env=deny_agent deny from .crawl.baidu.jp #deny from .asianetcom.net #deny from 119.63.192.0/21 ############## # robots.txt # ############## <Files robots.txt> allow from all </Files> |
robots.txt は BaiduMobaider の disallow を追加したダケ。
.htaccess は、
ってことで様子みてみまつ。
・第壱次 baidu 戦役 - Baidu タンをなんとかする
・第弐次 baidu 戦役 - Baidu タン再び降臨
・第参次 baidu 戦役 - Baidu 魔王、三度降臨
・第四次 baidu 戦役 - Baidu 魔神、四度降臨
・第伍時 baidu 戦役 - baidu.jp を拒否る。
・第六次 baidu 戦役 - baidu 対策のまとめ
・第七次 baidu 戦役 - BaiduChecker, BaiduMobaider を拒否る。