![]() |
2008 年 1 月 23 日だったかから、 baidu.jp が日本国内で本格的に検索サービス開始との事。
ウチの Web サーバでも、 www.baidu.jp で検索して飛んできたアクセスを 2008/01/24 日に発見☆-Σ(゚∀゚)!
しばらくの間は検索されないだろうと思っていたのでつが、
ミタイな。
第 5 次 baidu 戦役の始まりであった。
www.baidu.jp で検索して飛んできたのなら、 referer に "www.baidu.jp" が入っているハズ。
referer チェックして 403 だね。
今までは、
の 3 つでした。
今回はさらに referer チェックして www.baidu.jp だったら 403 しませぅ。
第 1 次 baidu 戦役〜今回の第 5 次 baidu 戦役までの戦術を網羅する robots.txt と .htaccess は下記の通り。
ですが、robots.txt は第 4 次 baidu 戦役当時と変わりありません。
robots.txt | .htaccess |
---|---|
User-agent: baiduspider Disallow: / User-agent: baiduimagespider Disallow: / |
SetEnvIf User-Agent "Baiduspider" deny_agent SetEnvIf User-Agent "BaiduImagespider" deny_agent SetEnvIf Referer "^http://www\.baidu\.jp" deny_ref order allow,deny allow from all deny from env=deny_ref deny from env=deny_agent deny from .asianetcom.net ############## # robots.txt # ############## <Files robots.txt> allow from all </Files> |
しばらく、これで様子みてみまつ。
今回の referer チェックで 403 する設定は他で害が出ないと思います。
ですが、Norton Internet Security 等の personal firewall を使っていたりすると 403 になるケースがあるミタイ。
詳しくは、ぐぐって貰えればいっぱい出てくると思いまつ。
第 5 次 baidu 戦役の戦術を確認してみまつ。
ログを見てみると、
ip-122-152-128-49.asianetcom.net - - [28/Jan/2008:07:27:40 +0900] "GET /robots.txt HTTP/1.1" 200 147 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)" |
robots.txt は 1 日 1 回程度の頻度で見に来ているようでつが、他のページをクロールしている log が見当たりません。
もしかして、 robots.txt に従うよーになったのでしょうかっ??
だとしたら、非常に喜ばしい事でつね。
そうそう、ログを良く見て、 robots.txt を 403 されていない事をよく確認してみてね。
robots.txt を 403 してると、もりもりクロールされまつから。
読めないんだから、クロールするのわ当たり前かっ!?
xxxx.asianetcom.net や Baiduspider Agent の拒否には一定の戦果アリ。
しかし BaiduImagespider は robots.txt による dis-allow は効果ナシのようでつ。
BaiduImagespider の情報を得ようと baidu.jp の Web ページを見てみると・・・
「数種のクローラを使っています」とゆった記述ダケ。
BaiduImagespider そのものの情報はありませんでつた。
結局のところ、
今のトコロ、BaiduImagespider のクロール頻度は低いようでつ。
しかし、 Baiduspider がお行儀良くなってもコレぢゃなぁ・・・・・
っつーワケで BaiduImagespider を robots.txt で dis-allow する方法はなさそーでつ。
・第壱次 baidu 戦役 - Baidu タンをなんとかする
・第弐次 baidu 戦役 - Baidu タン再び降臨
・第参次 baidu 戦役 - Baidu 魔王、三度降臨
・第四次 baidu 戦役 - Baidu 魔神、四度降臨
・第伍時 baidu 戦役 - baidu.jp を拒否る。
・第六次 baidu 戦役 - baidu 対策のまとめ
・第七次 baidu 戦役 - BaiduChecker, BaiduMobaider を拒否る。