robots.txt

Im Stammverzeichnis jeder Internetpräsenz sollte eine Datei mit dem Namen „robots.txt“ vorhanden sein. Die Webcrawler der Suchmaschinen wie Google oder Bing suchen gezielt nach dieser Datei. Hier lesen die Crawler aus, wie die Webseite indiziert bzw. was überhaupt indiziert werden darf. Festgelegte Seiten und Sektionen können so beispielsweise ausgeschlossen werden. Auch können die Bots selbst ausgeschlossen werden. Ebenfalls wird der Pfad der Sitemap in die Datei eingebunden, welcher eine „Landkarte“ für die jeweilige Internetpräsenz darstellt und die Aufnahme in Suchmaschinen erleichtert. Eine Anleitung zur Anwendung der robots.txt-Datei finden Sie hier.

Beispiele

Allen Crawlern verbieten das Verzeichnis Impressum und dessen Inhalt zu indizieren:

User-agent: *
Disallow: /impressum/

 

Einen bestimmten Crawler „Beispielbot“ ausschließen:

User-agent: Beispielbot
Disallow: /

 

Erlaubt allen Crawlern, dass das Stammverzeichnis indiziert wird, schließt aber das Verzeichnis Fotos aus:

User-agent: *
Disallow: /fotos/
Allow: /

 

Verbietet allen Crawlern, dass JPG-Dateien indiziert werden.

User-agent: *
Disallow: *.jpg$

 

Das Symbol * dient als Platzhalter und gibt den Crawlern zu verstehen, dass „alle“ Crawl-Bots gemeint sind. Das Symbol $ definiert eine Regel, also bestimmte Dateinamenerweiterungen auszuschließen.

 

robots.txt
Artikel bewerten