robots.txt
Die robots.txt ist eine einfache Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern mitteilt, welche Bereiche sie besuchen dürfen und welche nicht.
Was ist die robots.txt?
Die robots.txt ist eine der ältesten technischen SEO-Maßnahmen und gleichzeitig eine der mächtigsten. Sie liegt im Hauptverzeichnis einer Website (z. B. unter domain.de/robots.txt) und spricht Suchmaschinen-Crawler direkt an – nach dem Robots Exclusion Standard, einem seit 1994 etablierten Webstandard.
Einordnung
Die robots.txt steuert den Crawler-Zugriff – sie ist jedoch kein Werkzeug zur Verhinderung von Indexierung. Dieser Unterschied ist entscheidend: Eine per robots.txt gesperrte Seite kann Google trotzdem im Index führen, wenn andere Websites darauf verlinken. Wer Indexierung verhindern will, muss den „noindex"-Meta-Tag einsetzen.
Wie funktioniert die robots.txt?
Die Datei besteht aus einfachen Direktiven:
- User-agent: Gibt an, für welchen Crawler die Regel gilt (z. B. Googlebot, Bingbot oder * für alle).
- Disallow: Sperrt eine URL oder ein Verzeichnis für den angegebenen Crawler.
- Allow: Erlaubt den Zugriff auf eine URL, auch wenn ein übergeordnetes Verzeichnis gesperrt ist.
- Sitemap: Verweist auf die Sitemap-Datei der Website.
Wichtige Einschränkung: Crawler wie Googlebot folgen der robots.txt freiwillig. Bösartige Bots ignorieren sie in der Regel vollständig. Die robots.txt ist also kein Sicherheitsmechanismus, sondern eine Konvention.
Fehler in der robots.txt können verheerende Folgen haben: Eine versehentliche Sperrung des gesamten Crawlers (Disallow: /) führt dazu, dass Google keine Seiten der Website mehr crawlt – und bestehende Indexierungen nach und nach abbaut.
Praxisbeispiel
Ein Onlineshop hat zahlreiche intern genutzte Seiten (Warenkorb, Checkout, Nutzerkonto) sowie Filter-URLs mit Parametern (z. B. /produkte?farbe=rot&größe=M). Um das Crawl-Budget auf die eigentlichen Produktseiten zu konzentrieren, sperrt die robots.txt alle /checkout/- und /konto/-Verzeichnisse sowie Parameter-URLs. Das Ergebnis: Googlebot crawlt häufiger und effizienter die relevanten Produktseiten.
Verwandte Begriffe
Die robots.txt arbeitet eng mit der Sitemap zusammen und beeinflusst direkt das Crawling und die Indexierung. Canonical Tags und noindex-Tags sind ergänzende Werkzeuge zur Steuerung der Suchmaschinen-Sichtbarkeit.
Das klingt komplex? Klickweise übernimmt alle Aufgaben rund um robots.txt für Unternehmen am Niederrhein und im Westmünsterland. → Mehr erfahren