Go to TOP Page
Google:


□研究目的のクローラのゃぅだ。


○2008/04/27 日に着弾。

まづわ、 log の一例から。
複数行に折り返して見えちゃってると思うけれど、実は 1 行だよってのわ、ご承知おき下され。

log の一例
gw.kclab.jgn2.jp - - [27/Apr/2008:06:14:17 +0900] "GET /whats-new.html HTTP/1.0" 200 27351 "-" "ICC-Crawler-3(Mozilla-compatible; icc-crawl-contact(at)ml(dot)nict(dot)go(dot)jp; http://kc.nict.go.jp/icc/crawl.html)"

で、リクエストに載っかってた URL の http://kc.nict.go.jp/icc/crawl.html を見てみると、クローラに関する情報がありまつ。

クローラの目的とか、拒否方法、連絡先等が書いてありまつ。
研究目的のクロールのようぅですし、 GET リクエストの間隔も問題ないレベルなので、log に載ってても、

華麗にスルー

しといても問題ないかと。
だがっ!!
GET リクエストの、

わ、(at) とか、 (dot) とかしないで素直に @ やら . にしたほうが良いのでわないの?
とか思うのわオイラだけでしょーか?
文字コードセットの対処なのかなぁ?
でも、 @ も . も ASCII コードだしな・・・?
最先端を逝くヒトタチの考えは理解に苦しみますわぃ。


□制御の方法


○META タグと robots.txt の二通り

詳しくわ、http://kc.nict.go.jp/project1/crawl-ja.html を参照されたい。

○META タグで 抑止

悩む部分は無いハズ。
ただ、 META タグによる抑止は、"キャッシュしない" であって、クロールそのものを抑止はしなさそーなヨカン。
html を読み込まないと、 タグがあるのが解らないもんね(^^;)
クロールそのものを抑止したい場合は、やっぱ robots.txt で disallow かな。

META タグ
<meta name="robots" content="nofollow,noindex">

META タグはこんなかんぢで。

○robots.txt で disallow

クロールそのものを抑止したい方はコチラ。

robots.txt
User-agent: LC-Crawler
Disallow: /

でオシマイ。


□効果の程は・・・


○ピタっと止まりました

とゆっても、アクセスそのものが止まってしまったので、効果の程は、

ワカリマセン
(i||;^∇^)o_彡☆あははははっ

着弾したのが、2008/04 月。
今日は、2008/12/02 日。
8 ヶ月ほど経過しましたが、アクセスログにも記載されませんでした。

ナニしにきたんだ。
オメーわ。!!m9っ`Д´)




go back    next
Copyright(c) ORATORIO-TANGRAM.com 2001-2007 All Rights Reserved.
Total:counter