Suchmaschinenoptimierung

Crawling

Crawling ist der automatisierte Prozess, bei dem Googles Bot (Googlebot) Websites systematisch besucht, Links folgt und Seiteninhalte für die spätere Indexierung einsammelt.

Was ist Crawling?

Crawling ist der erste Schritt, bevor eine Webseite in den Google-Suchergebnissen erscheinen kann. Googles Software-Programm, der sogenannte Googlebot, durchsucht das Internet kontinuierlich, folgt Hyperlinks und lädt Seiteninhalte herunter. Diese Daten werden dann für die anschließende Indexierung aufbereitet.

Einordnung

Ohne Crawling keine Indexierung, ohne Indexierung keine Sichtbarkeit in der Google-Suche. Crawling ist damit das Fundament des gesamten SEO-Prozesses. Andere Suchmaschinen wie Bing, DuckDuckGo oder Yandex betreiben eigene Crawler mit ähnlichen Funktionsprinzipien.

Wie funktioniert der Googlebot?

Der Googlebot startet von einer Liste bekannter URLs und folgt systematisch den Links, die er dabei entdeckt. Dieser Prozess wiederholt sich kontinuierlich:

  • Discovery: Neue URLs werden über Backlinks, Sitemaps und direkte Übermittlung in der Search Console entdeckt.
  • Priorisierung: Google bewertet, welche Seiten wie häufig gecrawlt werden sollen – basierend auf Popularität, Änderungshäufigkeit und Budget.
  • Download: Der Bot lädt HTML, CSS und JavaScript herunter und übergibt die Daten an den Rendering-Dienst.
  • Crawl Budget: Jede Website erhält ein begrenztes Crawl-Budget. Bei großen Websites mit vielen URLs bedeutet das: Nicht alle Seiten werden gleichhäufig oder überhaupt gecrawlt.

Was verhindert Crawling?

Mehrere Faktoren können dazu führen, dass Google bestimmte Seiten nicht oder seltener crawlt:

  • Sperrung in der robots.txt (Disallow-Direktiven)
  • Zu viele Weiterleitungsketten oder fehlerhafte Links (404-Fehler)
  • Langsame Serverantwortzeiten
  • Duplicate Content, der das Crawl-Budget verbraucht
  • Orphan Pages ohne interne Verlinkung

Praxisbeispiel

Ein Online-Magazin mit 50.000 Artikeln bemerkt in der Search Console, dass Google monatlich nur etwa 8.000 Seiten crawlt. Analyse ergibt: Tausende URLs entstammen Filterkombinationen im Shop-Bereich (z. B. /artikel?sort=datum&tag=sport) – inhaltlich redundante Seiten, die das Crawl-Budget aufzehren. Nach Sperrung dieser Parameter-URLs in der robots.txt und gezielter interner Verlinkung wichtiger Inhalte crawlt Google die relevanten Seiten schneller und häufiger.

Verwandte Begriffe

Crawling ist die Vorstufe zur Indexierung und wird durch Sitemap, robots.txt und interne Verlinkung direkt gesteuert. Orphan Pages und Duplicate Content beeinflussen das Crawl-Budget negativ.

Das klingt komplex? Klickweise übernimmt alle Aufgaben rund um Crawling für Unternehmen am Niederrhein und im Westmünsterland. → Mehr erfahren

Häufig gestellte Fragen zu Crawling

Kann ich Googlebot daran hindern, bestimmte Seiten zu crawlen?
Ja, über die robots.txt-Datei können Verzeichnisse und URLs für den Googlebot gesperrt werden. Wichtig: Das verhindert nur das Crawlen, nicht unbedingt die Indexierung.
Was ist das Crawl-Budget und warum ist es wichtig?
Das Crawl-Budget beschreibt, wie viele Seiten Google einer Website in einem bestimmten Zeitraum crawlt. Bei großen Websites mit vielen URLs kann ein ineffizient eingesetztes Budget dazu führen, dass wichtige Seiten seltener aktualisiert werden.
Wie erfahre ich, ob Google meine Seiten crawlt?
In der Google Search Console zeigt der Bericht „Crawl-Statistiken" (unter Einstellungen) Crawl-Frequenz, Antwortzeiten und Fehler. Der URL-Prüftool zeigt, wann eine bestimmte URL zuletzt gecrawlt wurde.
Zurück zur Begriffsübersicht