Crawler mit robots.txt aussperren

Was im Internet erst einmal durch Crawler erfasst wurde, lässt sich nur schwerlich wieder entfernen. Mit der Datei robots.txt kann ein wenig Abhilfe geschafft werden. Im Stammverzeichnis jeder Internetpräsenz sollte diese Datei  vorhanden sein. Suchmaschinen wie Google, Bing oder Yahoo! suchen gezielt danach.

robots.txt

User-agent: <NAME 1>
User-agent:<NAME 2>
(…)
Disallow: /

Mit diesem Code-Snippet, das in die robots.txt-Datei eingefügt werden muss, werden definierte Crawler ausgesperrt. Weitere Betreiber können wie im Beispiel natürlich nach selbem Schema erweitert werden.

Auch „normale Suchmaschinen“ lassen sich aussperren. Hierfür gibt es zwei Möglichkeiten: Erste ist wie auch bei den Personensuchmaschinen die robots.txt-Datei, sie sollte im Stammverzeichnis jeder Internetpräsenz zu finden sein. Die Konfiguration ist hierbei sehr einfach:

User-agent: *
Disallow: /

Diese zwei Zeilen bewirken, dass die Crawler aller Suchmaschinen ausgesperrt sind.

Hinweis: Wenn Sie keine eigene Domain besitzen und ihre Seiten beispielsweise auf dem Server ihres Providers, bzw. dem eines sog. ‚Free Webspace‘-Anbieters liegen, greifen die Crawler nicht auf die ggfs. in das Stammverzeichnis kopierte robots.txt zu. Domains wie anbieter.de/freehosting/maxmustermann sind nicht zulässig, hierfür bietet sich allerdings Möglichkeit 2 an.

Die zweite Möglichkeit basiert auf den sog. Metatags. Diese werden in den Head-Bereich einer Webseite eingefügt und enthalten neben den Keywords und weiteren Befehlen auch die Anweisungen zum Aussperren bzw. „Umleiten“ von Suchmaschinen.

< meta name=“robots“ content=“none“ >

Mit content=“none“ wird die Suchmaschine daran gehindert die Webseite zu indexieren. „none“ kann je nach Wunsch durch andere Befehle, zum Beispiel nicht zum kompletten aussperren, sondern zum Einschränken des jeweiligen Crawlers benutzt werden. Entsprechende Befehle können je nach Verlangen beispielsweise auf selfHTML gefunden werden.

Abonnieren
Benachrichtige mich bei
guest

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

3 Comments
Neuste
Älteste
Inline Feedbacks
Alle Kommentare anzeigen
Werner

Hallo

zum Text:
„Mit diesem Code-Snippet, das in die robots.txt-Datei eingefügt werden muss, werden die Crawler der Personensuchmaschinen ausgesperrt.“

Also wenn ich aus dem Haus ausgesperrt werde, ist wohl (hoffentlich) ein Sicherheitsschloss dafür verantwortlich.
Darf ich zum nachdenken bewegen? Welcher Mechanismen sperren einen Crawler aus?

Selbst wenn,…

User-agent: wget ???

–user-agent=““ instructs Wget not
to send the „User-Agent“ header in HTTP requests.

Du hast interessante Beiträge!
Jetzt verstehe ich Dein Beitrag: https://timschropp.com/linux-ist-keine-alternative/

LG

Stephanie Cisco

Hurrah, that’s what I was searching for, what a stuff! thanks admin.