Suchmaschinenoptimierung

robots.txt

Die robots.txt ist eine einfache Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern mitteilt, welche Bereiche sie besuchen dürfen und welche nicht.

Was ist die robots.txt?

Die robots.txt ist eine der ältesten technischen SEO-Maßnahmen und gleichzeitig eine der mächtigsten. Sie liegt im Hauptverzeichnis einer Website (z. B. unter domain.de/robots.txt) und spricht Suchmaschinen-Crawler direkt an – nach dem Robots Exclusion Standard, einem seit 1994 etablierten Webstandard.

Einordnung

Die robots.txt steuert den Crawler-Zugriff – sie ist jedoch kein Werkzeug zur Verhinderung von Indexierung. Dieser Unterschied ist entscheidend: Eine per robots.txt gesperrte Seite kann Google trotzdem im Index führen, wenn andere Websites darauf verlinken. Wer Indexierung verhindern will, muss den „noindex"-Meta-Tag einsetzen.

Wie funktioniert die robots.txt?

Die Datei besteht aus einfachen Direktiven:

User-agent: Gibt an, für welchen Crawler die Regel gilt (z. B. Googlebot, Bingbot oder * für alle).
Disallow: Sperrt eine URL oder ein Verzeichnis für den angegebenen Crawler.
Allow: Erlaubt den Zugriff auf eine URL, auch wenn ein übergeordnetes Verzeichnis gesperrt ist.
Sitemap: Verweist auf die Sitemap-Datei der Website.

Wichtige Einschränkung: Crawler wie Googlebot folgen der robots.txt freiwillig. Bösartige Bots ignorieren sie in der Regel vollständig. Die robots.txt ist also kein Sicherheitsmechanismus, sondern eine Konvention.

Fehler in der robots.txt können verheerende Folgen haben: Eine versehentliche Sperrung des gesamten Crawlers (Disallow: /) führt dazu, dass Google keine Seiten der Website mehr crawlt – und bestehende Indexierungen nach und nach abbaut.

Praxisbeispiel

Ein Onlineshop hat zahlreiche intern genutzte Seiten (Warenkorb, Checkout, Nutzerkonto) sowie Filter-URLs mit Parametern (z. B. /produkte?farbe=rot&größe=M). Um das Crawl-Budget auf die eigentlichen Produktseiten zu konzentrieren, sperrt die robots.txt alle /checkout/- und /konto/-Verzeichnisse sowie Parameter-URLs. Das Ergebnis: Googlebot crawlt häufiger und effizienter die relevanten Produktseiten.

Häufig gestellte Fragen zu robots.txt

Verhindert die robots.txt die Indexierung einer Seite?

Nein. Die robots.txt verhindert nur das Crawlen, nicht die Indexierung. Seiten mit externen Links können trotz Crawl-Sperre im Google-Index auftauchen – ohne Inhalt, aber mit URL.

Was passiert, wenn die robots.txt fehlt?

Kein Problem – das ist der Normalfall für viele kleine Websites. Ohne robots.txt dürfen Crawler alle öffentlich zugänglichen Seiten besuchen. Google interpretiert eine fehlende Datei als vollständige Erlaubnis.

Kann ich die robots.txt testen, bevor ich sie live schalte?

Ja. Die Google Search Console bietet unter „Einstellungen > robots.txt" ein Testwerkzeug, mit dem geprüft werden kann, ob bestimmte URLs durch die aktuelle Datei blockiert würden.