![]() |
bot を放っているポータルサイトは、http://www.cuil.com/でつ。
robots.txt に従うよってゆっているし、実害はないので放置していても問題ないと思いまつ。
208.36.144.6 - - [22/Sep/2008:05:09:59 +0900] "GET /Solaris/fort6.0-patch.html HTTP/1.0" 200 5761 "-" "Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)" |
難しい部分はありません。
User-agent: twiceler Disallow: / Crawl-delay: 120 ←クロール間隔(必要なら) |
で、オシマイ。
Crawl-delay にも対応するとのことなので、必要に応じてクロール間隔を
指定しませう。
User-Agent で deny する手もありまつ。
SetEnvIf User-Agent "Twiceler" badbot order allow,deny allow from all deny from env=badbot <Files "robots.txt"> Allow from all </Files> |
User-Agent で問答無用で deny すると、 robots.txt も読めなくなる ので、 robots.txt だけわ、 Files ディレクティブで Allow して おりマス。
2008/12 月 の log を下記に抜粋致しまシタ。
1 日置き程度の頻度で robots.txt だけ読んで終わってマス。
お行儀は問題なさそうなので、 disallow 解除しても良いかなぁ・・・とか思ったりして。
208.36.144.6 - - [01/Dec/2008:07:32:16 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [03/Dec/2008:03:38:24 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [04/Dec/2008:07:03:23 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [06/Dec/2008:04:15:20 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [07/Dec/2008:08:17:19 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [09/Dec/2008:04:23:42 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [10/Dec/2008:07:03:29 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [12/Dec/2008:04:38:28 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [13/Dec/2008:08:54:24 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [15/Dec/2008:04:55:20 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [16/Dec/2008:10:15:40 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [18/Dec/2008:05:26:28 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [19/Dec/2008:10:54:04 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [21/Dec/2008:05:51:22 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 208.36.144.6 - - [23/Dec/2008:05:52:34 +0900] GET /robots.txt HTTP/1.0 200 420 - Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) |
クロール間隔がどうしても気になるのでしたら、robots.txt に Crawl-delay: を指定しませう。