Go to TOP Page
Google:


□終戦を迎えたと思ったら・・・。


○新弾頭を配備したよーだ。

2009/05 月に robots.txt を get したのを最後に 2009/12 月迄 baiduspider のリクエストが途絶えていまつた。
大勝利と思ってたら、BaiduMobaider の新弾頭が命中。
初弾の着弾を確認したのわ、 2009/08/20。

ちょっっ・・・!!、おまっっ・・・!!
また来たのかよ☆-Σ(゚∀゚)

Wikipedia を読んでみたら、 2009/07 月頃に BaiduChecker, BaiduMobaider の新弾頭が実戦配備済みとの事。
予想通り、クローラー変えて再登場したのであった。
第七次 baidu 戦役の始まりでつ。
で、 log をご覧あれ。

log を抜粋
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:56:27 +0900] "GET /WebSec/baiduConclusion.html HTTP/1.1" 200 9415 "http://www.oratorio-tangram.com/WebSec/baidu403.html" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:56:31 +0900] "GET /favicon.ico HTTP/1.1" 200 2238 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:57:38 +0900] "GET /WebSec/Baiduspider.html HTTP/1.1" 200 7798 "http://www.oratorio-tangram.com/WebSec/baiduConclusion.html" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:57:41 +0900] "GET /favicon.ico HTTP/1.1" 200 2238 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:58:43 +0900] "GET /WebSec/Baiduspider2.html HTTP/1.1" 200 6023 "http://www.oratorio-tangram.com/WebSec/Baiduspider.html" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:58:46 +0900] "GET /favicon.ico HTTP/1.1" 200 2238 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:59:09 +0900] "GET /WebSec/Baiduspider3.html HTTP/1.1" 200 7281 "http://www.oratorio-tangram.com/WebSec/Baiduspider2.html" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:21:59:12 +0900] "GET /favicon.ico HTTP/1.1" 200 2238 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:22:01:17 +0900] "GET /WebSec/Baiduspider4.html HTTP/1.1" 200 8752 "http://www.oratorio-tangram.com/WebSec/Baiduspider3.html" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
119-228-164-62.eonet.ne.jp - - [20/Aug/2009:22:01:20 +0900] "GET /favicon.ico HTTP/1.1" 200 2238 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
119.63.193.70 - - [14/Nov/2009:08:32:29 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)"
*一部のリクエストを抜粋。

ツッコミどころ満載の log だ。
取りあえず、 log を客観的に読んでみる。

☆キャリアが eonet
今までは、 xx.asianetcom.net だったよね?
xx.asianetcom.net だった時も確か 3 回くらい IP アドレスを変えて侵攻してきた記憶が。
っつーワケで、 IP アドレスで 403 している人も要注意。侵攻されているハズでつ。
しかし、何故 eonet ??
ワケワカラン(@_@;)。
119-228-164-62.eonet.ne.jp を whois してみたけれど、baidu assign の IP かどーかわ確認できづorz

☆Agent が DoCoMo/2.0 P05A
疑いなく読めば、docomo の携帯電話のハヅだけど・・。
携帯電話の Agent が baidu を名乗るかなぁ?。
docomo のサイトで見てみたら、 P05A は docomo SMART series P-05A で実在のモデル。
Panasonic だって。
あっ!!型番に "-" が入ってる"P-05A"だっ!! 。
log の Agent には "-" なしの "P05A"だっ! アヤシィ!!
仮に、 docomo の携帯でアクセスしてきたのなら、キャリアは docomo になるハヅ。
log に乗ってるアクセス元は eonet だし。
ローミングしたりすると eonet になるのかなぁ?詳しい方、フォロー求ム。
ところで、 docomo は DoCoMo/2.0 が何なのか説明責任を果たすように。
あと、反撃がいつになるのかマイルストーンを早く発表するやぅに。

☆favicon.ico get してる
極、稀に携帯電話で見に来ている方が居るにわ居るのでつが・・・
favicon.ico まで get してた携帯端末って記憶にないな・・・
携帯電話のブラウザって favicon.ico まで get するのでせぅか?詳しい方、フォロー求ム。

今のところ、 log で得られた情報から推測する限りでは・・・

docomo P-05A の名を騙りモリモリ get している

とゆーところか。
ハヅしてたらスマン。
あっ!!チョイ待ちっ!!http://www.baidu.jp/spider/ 見てみたら書いてあったよ。
docomo の他、 KDDI とかもある・・・orz
Agent とわゆぇ、全く関係の無いとこが勝手に実在の名称を名乗るのわ如何なモノなのでしょう?
商標とかに引っかからないのでしょうか?詳しい方、フォロー求ム。
ハイフォンがあったり無かったりビミョーに違うからおK なのでしょうか?
ってゆーか、説明しなさい。

クローラーの Agent にこーゆービミョーな名前つけられると、困るなぁ。
携帯端末のアクセスが dis-allow されるカモ?
迂闊に robots.txt に書けない・・・・orz
でも、携帯端末がクロールすることはなさそーだから問題無いかなぁ。
実際のところ、 P-05A でアクセスした時の Agent が何になるのか・・・。
と、ゆーわけで、 P-05A の Agent を google ル。 http://keitaiall.jp/P-05A.htmlによると・・

P-05A の User-Agent
DoCoMo/2.0 P05A(c100;TB;W24H15)
DoCoMo/2.0 P05A(c100;TB;W20H13)
DoCoMo/2.0 P05A(c100;TB;W30H19)
DoCoMo/2.0 P05A(c100;TB;W16H10)
DoCoMo/2.0 P05A(c100;TB;W24H13)
DoCoMo/2.0 P05A(c100;TD)
DoCoMo/2.0 P05A(c100;TJ)

7 種類あるミタイ。
何かの条件で使い分けるのかな?詳しい方、フォロー求ム。
んで、baidu が騙ってた Agent と比較する。

ピッタリ一致

Panasonic さん、訴えた方が良いのでわ・・・・?
D506i もある・・ Sony Ericsson さんも訴えた方が良いのでわ・・・?



□拒否の方法


○効くかどうか・・・?

baidu は過去に robots.txt 完全無視っつー大罪を何度も犯しておりマス。
んで、今回の BaiduMobaider も robots.txt 無視っつー google の検索結果盛り沢山でつ。
Agent 憎んで IP 憎まずのポリシーで IP アドレスを deny することは出来るだけ避けてきたのでつが、限界かなと。
asianetcom.net から eonet に IP まで変えて同時に 新クローラーまで実戦投入してくるのわ反則かなー?
クロール頻度も一時は凄まじかったモヨウ。
robots.txt で dis-allow するのと、 IP を 403 する方法を試してみまつが、IP 403 するのが妥当ではないかと。

拒否の仕方
robots.txt .htaccess
User-agent: BaiduMobaider
Disallow: /
deny from 119.63.192.0/21

取りあえず、 robots.txt で disallow するだけにしてみまつ。
これでダメなら IP 403 しちゃいまつ。
これで様子みてみまつゆぇ、効果の検証結果は暫くお待ちくだされ。
Wikipedia に記述されていた BaiduChecker は今のところ着弾確認できづorz
命中確認次第、なんとかしてみまつ。


□第二波襲来


○波状攻撃かよっ!!

BaiduMobaider の対策中にさらなる着弾を確認。
baidu の援軍襲来。波状攻撃でつorz。

弾幕薄いよっ!!
何やってるのっ!!

今までの baiduspider が IP アドレス変えてやってきまつた。
詳しくわ、log をご覧あれ。

log を抜粋
119.63.193.56 - - [01/Dec/2009:09:59:37 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.193.130 - - [01/Dec/2009:23:29:09 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.193.56 - - [02/Dec/2009:08:47:34 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
baiduspider-119-63-198-14.crawl.baidu.jp - - [02/Dec/2009:17:02:01 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
baiduspider-119-63-198-5.crawl.baidu.jp - - [03/Dec/2009:06:33:55 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
baiduspider-119-63-198-54.crawl.baidu.jp - - [04/Dec/2009:07:54:37 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
119.63.193.56 - - [04/Dec/2009:09:52:05 +0900] "GET /robots.txt HTTP/1.1" 200 452 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"

IP アドレス変えたのわ、オイラが知る限り、これで 4 度目。
なんでこんなに IP 変えるんだらぅ?

説明しなさい。
いや、マヂで。( `-ω-´)ゞ

baidu を whois してみると、 assign された IP は下記のモヨウ。

baidu assign IP
inetnum: 119.63.192.0 - 119.63.199.255
netname: BAIDUJP
*2009/12/04 日現在の whois より

絶対に許さない。
絶対にだ。


□第七次 baidu 戦役のまとめ


○2009/12/07日現在の定義

第六次 baidu 戦役当時の robots.txt と .htaccess を修正しまつた。

拒否の仕方
robots.txt .htaccess
User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider+
Disallow: /

User-agent: BaiduImagespider
Disallow: /

User-agent: BaiduMobaider
Disallow: /
SetEnvIf User-Agent "Baiduspider" deny_agent
SetEnvIf User-Agent "BaiduImagespider" deny_agent
SetEnvIf User-Agent "BaiduMobaider" deny_agent
SetEnvIf Referer "^http://www\.baidu\.jp" deny_ref
order allow,deny
allow from all
deny from env=deny_ref
deny from env=deny_agent
deny from .crawl.baidu.jp
#deny from .asianetcom.net
#deny from 119.63.192.0/21
##############
# robots.txt #
##############
<Files robots.txt>
    allow from all
</Files>

robots.txt は BaiduMobaider の disallow を追加したダケ。
.htaccess は、

□BaiduMobaider の Agent 拒否
robots.txt に従わないなら全力でお断り。

□deny from .asianetcom.net をコメント
最近、 .asianetcom.com のアクセスが見られないっす。
asianetcom.com の IP 使わなくなったみたいなのでアクセス許可して様子見。

□.crawl.baidu.jp を全力拒否 アクセス元 FQDN で baidu のクローラーと判断できるものは拒否。

□deny from 119.63.192.0/21 を追加したけどコメント
robots.txt に従わないつもりなら全力で拒否する準備^^;)

ってことで様子みてみまつ。


□baidu に関するエントリ


・第壱次 baidu 戦役 - Baidu タンをなんとかする
・第弐次 baidu 戦役 - Baidu タン再び降臨
・第参次 baidu 戦役 - Baidu 魔王、三度降臨
・第四次 baidu 戦役 - Baidu 魔神、四度降臨
・第伍時 baidu 戦役 - baidu.jp を拒否る。
・第六次 baidu 戦役 - baidu 対策のまとめ
・第七次 baidu 戦役 - BaiduChecker, BaiduMobaider を拒否る。





go back    next
Copyright(c) ORATORIO-TANGRAM.com 2001-2007 All Rights Reserved.
Total:counter