Go to TOP Page
Google:


□やあ (´・ω・`)ようこそ、バーボンハウスへ


○www.baidu.jp 本格始動

2008 年 1 月 23 日だったかから、 baidu.jp が日本国内で本格的に検索サービス開始との事。
ウチの Web サーバでも、 www.baidu.jp で検索して飛んできたアクセスを 2008/01/24 日に発見☆-Σ(゚∀゚)!
しばらくの間は検索されないだろうと思っていたのでつが、

ちょっっ・・・!!、おまっっ・・・!!
もう来たのかよ☆-Σ(゚∀゚)

ミタイな。
第 5 次 baidu 戦役の始まりであった。


□拒否のポイント


○リファラーで 403 する。

www.baidu.jp で検索して飛んできたのなら、 referer に "www.baidu.jp" が入っているハズ。
referer チェックして 403 だね。

.htaccess に書き込む。

今までは、

の 3 つでした。
今回はさらに referer チェックして www.baidu.jp だったら 403 しませぅ。


今までのまとめ。

第 1 次 baidu 戦役〜今回の第 5 次 baidu 戦役までの戦術を網羅する robots.txt と .htaccess は下記の通り。
ですが、robots.txt は第 4 次 baidu 戦役当時と変わりありません。

定義ファイル
robots.txt .htaccess
User-agent: baiduspider
Disallow: /

User-agent: baiduimagespider
Disallow: /
SetEnvIf User-Agent "Baiduspider" deny_agent
SetEnvIf User-Agent "BaiduImagespider" deny_agent
SetEnvIf Referer "^http://www\.baidu\.jp" deny_ref
order allow,deny
allow from all
deny from env=deny_ref
deny from env=deny_agent
deny from .asianetcom.net
##############
# robots.txt #
##############
<Files robots.txt>
    allow from all
</Files>

しばらく、これで様子みてみまつ。


□注意しておくこと。


○善意の方も拒否しちゃうカモ?

今回の referer チェックで 403 する設定は他で害が出ないと思います。
ですが、Norton Internet Security 等の personal firewall を使っていたりすると 403 になるケースがあるミタイ。
詳しくは、ぐぐって貰えればいっぱい出てくると思いまつ。


□戦果を検証してみる


○robots.txt に従ってる!?

第 5 次 baidu 戦役の戦術を確認してみまつ。
ログを見てみると、

ログの一部
ip-122-152-128-49.asianetcom.net - - [28/Jan/2008:07:27:40 +0900] "GET /robots.txt HTTP/1.1" 200 147 "-" "Baiduspider+(+http://www.baidu.com/search/spider_jp.html)"

robots.txt は 1 日 1 回程度の頻度で見に来ているようでつが、他のページをクロールしている log が見当たりません。
もしかして、 robots.txt に従うよーになったのでしょうかっ??
だとしたら、非常に喜ばしい事でつね。
そうそう、ログを良く見て、 robots.txt を 403 されていない事をよく確認してみてね。
robots.txt を 403 してると、もりもりクロールされまつから。
読めないんだから、クロールするのわ当たり前かっ!?


○BaiduImagespider には効果ナシ

xxxx.asianetcom.net や Baiduspider Agent の拒否には一定の戦果アリ。
しかし BaiduImagespider は robots.txt による dis-allow は効果ナシのようでつ。

BaiduImagespider の情報を得ようと baidu.jp の Web ページを見てみると・・・
「数種のクローラを使っています」とゆった記述ダケ。
BaiduImagespider そのものの情報はありませんでつた。

結局のところ、

robots.txt を意識もしない
クローラを使っているのね。

今のトコロ、BaiduImagespider のクロール頻度は低いようでつ。
しかし、 Baiduspider がお行儀良くなってもコレぢゃなぁ・・・・・
っつーワケで BaiduImagespider を robots.txt で dis-allow する方法はなさそーでつ。


□baidu に関するエントリ


・第壱次 baidu 戦役 - Baidu タンをなんとかする
・第弐次 baidu 戦役 - Baidu タン再び降臨
・第参次 baidu 戦役 - Baidu 魔王、三度降臨
・第四次 baidu 戦役 - Baidu 魔神、四度降臨
・第伍時 baidu 戦役 - baidu.jp を拒否る。
・第六次 baidu 戦役 - baidu 対策のまとめ
・第七次 baidu 戦役 - BaiduChecker, BaiduMobaider を拒否る。





go back    next
Copyright(c) ORATORIO-TANGRAM.com 2001-2007 All Rights Reserved.
Total:counter