Der Googlebot hält sich nicht an die Angaben in der Robots.txt - der Googlebot ignoriert sie.
Beim sichten der Logfiles eines Projekts heute morgen, ist mir aufgefallen, dass der Googlebot sich nicht an die Angaben in der Robots.txt hält. Um genau zu sein, es ist der Mobile Spider von Google. Dieser indentifiziert sich wie folgt:
Download Code!
Nokia6820/2.0 (4.83) Profile/MIDP-1.0 Configuration/CLDC-1.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html) 66.249.72.171
Er crawlt munter die Verzeichnisse, welche ich explizit ausgeschlossen habe:
User-agent: *
Disallow: /VERZEICHNIS/index.php
Warum Google das macht, ist mir unbekannt. Eigentlich muss er sich ja daran halten. Ich werde ihn mal via .htaccess Eintrag ausperren, so geht das ja nicht.
Download Code!
order allow,deny
deny from 66.249.72.171
allow from all