クロウラーの挙動について報告を上げておいた、Y!Jのカスタマーサービスから昨日返事がきてました。日曜なのに担当の方はお疲れ様でした。
でもね、回答を直接貼れないので、要約すると
・robots.txtでブロックしても、robots.txtから得た情報のY!J側の更新タイミングで最新の情報が得られない事がある。その場合、古いrobots.txtの情報に基づいてアクセスする場合がある。
だそうです。論点が摩り替わってる。
robots.txt云々でなくて、httpステータスコードで403とか404を返していても何度も突入してくる事がおかしいのではと上申したのですけど。Y!Jのクロウラーは404で何度も、しかも複数のクロウラーでカーペットボムみたいな挙動をされますから。httpステータスでエラー系の場合は出来る限り再トライするようなコードなのでしょう。
やっぱ駄目かもと思ったので、robots.txtを見てくれるならY!J推奨の対処(Disallow: /)を入れました。