![]() |
robots.txt には従うようで、お行儀の良いクローラーッぽいのでつが、大きな問題が 1 つありまつ。
どこからもリンクされていないハズ(隠しページとか)の Web ページを
どこからリンクを探してきたの〜?と思ってぐぐってみると・・・
Alexa Toolbar ってブラウザの plugin が原因。
コイツが閲覧している URL 情報を Alexa に送信されているモヨウでつ。
んで、ia_archiver は Alexa に蓄積された URL 情報を元に隠しページをも GET してくるよーでつ。
要は、 Alexa Toolbar を install したヤツが関係者限定 page の URL を漏らしているのら。
Alexa Toolbar 自体の詳細は、
SpywareGuide
を参照してください。
ってゆーか、
robots.txt で Disallow すればおっけ。
拒否り方は、
http://www.alexa.com/site/help/webmasters
に書いてあるので、先ずはそちらを参照あれ。
んで、書き方は、
User-agent: ia_archiver Disallow: / |
と、ゆぅことで。
拒否りたいディレクトリに .htaccess を作って、
BrowserMatch "Alexa" alexa <Limit GET> order deny,allow deny from env=alexa </Limit> |
確実なのは、 basic 認証とかするのがヨイそうでつ。
状況により検討してみてくらさい。