Go to TOP Page
Google:


□Twiceler はどうしよう?


○ポータルサイトのクローラーだけど・・・

bot を放っているポータルサイトは、http://www.cuil.com/でつ。
robots.txt に従うよってゆっているし、実害はないので放置していても問題ないと思いまつ。

access_log の一例
208.36.144.6 - - [22/Sep/2008:05:09:59 +0900] "GET /Solaris/fort6.0-patch.html HTTP/1.0" 200 5761 "-" "Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)"


□対処の方法


○robots.txt で disallow

難しい部分はありません。

robots.txt の一例
User-agent: twiceler
Disallow: /
Crawl-delay: 120 ←クロール間隔(必要なら)

で、オシマイ。
Crawl-delay にも対応するとのことなので、必要に応じてクロール間隔を 指定しませう。


○.htaccess で deny

User-Agent で deny する手もありまつ。

.htaccess の一例
SetEnvIf User-Agent "Twiceler" badbot
order allow,deny
allow from all
deny from env=badbot
<Files "robots.txt">
Allow from all
</Files>

User-Agent で問答無用で deny すると、 robots.txt も読めなくなる ので、 robots.txt だけわ、 Files ディレクティブで Allow して おりマス。


□その後・・・・


○robots.txt に従ってマス

2008/12 月 の log を下記に抜粋致しまシタ。
1 日置き程度の頻度で robots.txt だけ読んで終わってマス。
お行儀は問題なさそうなので、 disallow 解除しても良いかなぁ・・・とか思ったりして。

2008/12 月 の access_log を抜粋
208.36.144.6 - - [01/Dec/2008:07:32:16 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [03/Dec/2008:03:38:24 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [04/Dec/2008:07:03:23 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [06/Dec/2008:04:15:20 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [07/Dec/2008:08:17:19 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [09/Dec/2008:04:23:42 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [10/Dec/2008:07:03:29 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [12/Dec/2008:04:38:28 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [13/Dec/2008:08:54:24 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [15/Dec/2008:04:55:20 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [16/Dec/2008:10:15:40 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [18/Dec/2008:05:26:28 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [19/Dec/2008:10:54:04 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [21/Dec/2008:05:51:22 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 
208.36.144.6 - - [23/Dec/2008:05:52:34 +0900]  GET /robots.txt HTTP/1.0  200 420  -   Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 

クロール間隔がどうしても気になるのでしたら、robots.txt に Crawl-delay: を指定しませう。





go back    next
Copyright(c) ORATORIO-TANGRAM.com 2001-2007 All Rights Reserved.
Total:counter