![]() |
まづわ、 log の一例から。
複数行に折り返して見えちゃってると思うけれど、実は 1 行だよってのわ、ご承知おき下され。
gw.kclab.jgn2.jp - - [27/Apr/2008:06:14:17 +0900] "GET /whats-new.html HTTP/1.0" 200 27351 "-" "ICC-Crawler-3(Mozilla-compatible; icc-crawl-contact(at)ml(dot)nict(dot)go(dot)jp; http://kc.nict.go.jp/icc/crawl.html)" |
で、リクエストに載っかってた URL の http://kc.nict.go.jp/icc/crawl.html を見てみると、クローラに関する情報がありまつ。
クローラの目的とか、拒否方法、連絡先等が書いてありまつ。
研究目的のクロールのようぅですし、 GET リクエストの間隔も問題ないレベルなので、log に載ってても、
しといても問題ないかと。
だがっ!!
GET リクエストの、
わ、(at) とか、 (dot) とかしないで素直に @ やら . にしたほうが良いのでわないの?
とか思うのわオイラだけでしょーか?
文字コードセットの対処なのかなぁ?
でも、 @ も . も ASCII コードだしな・・・?
最先端を逝くヒトタチの考えは理解に苦しみますわぃ。
詳しくわ、http://kc.nict.go.jp/project1/crawl-ja.html を参照されたい。
悩む部分は無いハズ。
ただ、 META タグによる抑止は、"キャッシュしない" であって、クロールそのものを抑止はしなさそーなヨカン。
html を読み込まないと、 タグがあるのが解らないもんね(^^;)
クロールそのものを抑止したい場合は、やっぱ robots.txt で disallow かな。
<meta name="robots" content="nofollow,noindex"> |
META タグはこんなかんぢで。
クロールそのものを抑止したい方はコチラ。
User-agent: LC-Crawler Disallow: / |
でオシマイ。
とゆっても、アクセスそのものが止まってしまったので、効果の程は、
着弾したのが、2008/04 月。
今日は、2008/12/02 日。
8 ヶ月ほど経過しましたが、アクセスログにも記載されませんでした。