Crawler mit robots.txt aussperren

Lesezeit: 2 Minuten


Was im Internet erst einmal durch Crawler erfasst wurde, lässt sich nur schwerlich wieder entfernen. Mit der Datei robots.txt kann ein wenig Abhilfe geschafft werden. Im Stammverzeichnis jeder Internetpräsenz sollte diese Datei  vorhanden sein. Suchmaschinen wie Google, Bing oder Yahoo! suchen gezielt danach.

robots.txt

User-agent: <NAME 1>
User-agent:<NAME 2>
(…)
Disallow: /

Mit diesem Code-Snippet, das in die robots.txt-Datei eingefügt werden muss, werden definierte Crawler ausgesperrt. Weitere Betreiber können wie im Beispiel natürlich nach selbem Schema erweitert werden.

Auch „normale Suchmaschinen“ lassen sich aussperren. Hierfür gibt es zwei Möglichkeiten: Erste ist wie auch bei den Personensuchmaschinen die robots.txt-Datei, sie sollte im Stammverzeichnis jeder Internetpräsenz zu finden sein. Die Konfiguration ist hierbei sehr einfach:

User-agent: *
Disallow: /

Diese zwei Zeilen bewirken, dass die Crawler aller Suchmaschinen ausgesperrt sind.

Hinweis: Wenn Sie keine eigene Domain besitzen und ihre Seiten beispielsweise auf dem Server ihres Providers, bzw. dem eines sog. ‚Free Webspace‘-Anbieters liegen, greifen die Crawler nicht auf die ggfs. in das Stammverzeichnis kopierte robots.txt zu. Domains wie anbieter.de/freehosting/maxmustermann sind nicht zulässig, hierfür bietet sich allerdings Möglichkeit 2 an.

Die zweite Möglichkeit basiert auf den sog. Metatags. Diese werden in den Head-Bereich einer Webseite eingefügt und enthalten neben den Keywords und weiteren Befehlen auch die Anweisungen zum Aussperren bzw. „Umleiten“ von Suchmaschinen.

< meta name=“robots“ content=“none“ >

Mit content=“none“ wird die Suchmaschine daran gehindert die Webseite zu indexieren. „none“ kann je nach Wunsch durch andere Befehle, zum Beispiel nicht zum kompletten aussperren, sondern zum Einschränken des jeweiligen Crawlers benutzt werden. Entsprechende Befehle können je nach Verlangen beispielsweise auf selfHTML gefunden werden.

4.5
02

3 Antworten

  1. Avatar Werner sagt:

    Hallo

    zum Text:
    „Mit diesem Code-Snippet, das in die robots.txt-Datei eingefügt werden muss, werden die Crawler der Personensuchmaschinen ausgesperrt.“

    Also wenn ich aus dem Haus ausgesperrt werde, ist wohl (hoffentlich) ein Sicherheitsschloss dafür verantwortlich.
    Darf ich zum nachdenken bewegen? Welcher Mechanismen sperren einen Crawler aus?

    Selbst wenn,…

    User-agent: wget ???

    –user-agent=““ instructs Wget not
    to send the „User-Agent“ header in HTTP requests.

    Du hast interessante Beiträge!
    Jetzt verstehe ich Dein Beitrag: https://timschropp.com/linux-ist-keine-alternative/

    LG

    • Tim Schropp Tim Schropp sagt:

      Hallo Werner,
      jetzt bin ich wenig überrascht, auch hier einen Beitrag von dir vorzufinden – hast du inzwischen alle Artikel durch? Erlaube mir eine Gegenfrage: Geht es hier um die robots-Datei, oder um das von dir erwähnte „Sicherheitsschloss“?

      Sicher, ich kann so und auch mit [i]RewriteCond %{HTTP_USER_AGENT} BOT […][/i] noch eine erweiterte Methodik anwenden – aber darum geht es hier nicht. Durchaus aber ein guter Anstoß für einen eventuell neuen Artikel, setze ich mir auf die Merkliste.

      Ich warte gespannt auf dein weiteres Feedback.

  2. Avatar Stephanie Cisco sagt:

    Hurrah, that’s what I was searching for, what a stuff! thanks admin.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.