Was sind Crawler und wie lassen sie sich steuern?

SEO-Tipp

Suchmaschinen wie Google, Bing oder Ixquick beginnen nicht erst mit der Suche, wenn Nutzer eine Anfrage stellen. Stattdessen schicken sie permanent spezielle Programme, sogenannte Crawler, durch das Internet, die Webseiten für ihren Suchmaschinenindex erfassen. Was nicht in diesem Index steht, erscheint gar nicht erst in den Suchergebnissen. Also durchsucht beispielsweise Googles Crawler, der Google-Bot, täglich Milliarden von Webauftritten nach neuen und aktuellen Inhalten.

Für SEO-Experten ist es also wichtig, dafür zu sorgen, dass die Crawler der großen Suchmaschinen die von ihnen betreuten Seiten möglichst problemlos durchsuchen können. Gleichzeitig müssen sie verhindern, dass böswillige Crawler Schadsoftware auf ihren Seiten hinterlassen. Auch gibt es in jedem Webauftritt Seiten, die eben nicht im Google-Index auftauchen sollen und die deswegen für die Zugriffe des Google-Bots gesperrt werden müssen.

Wie funktionieren Crawler?

Der Google-Bot verwendet einen algorithmischen Prozess; Programmvorgaben legen fest, welche Websites wann und wie oft durchsucht werden und wie viele Seiten von jedem Webauftritt abgerufen werden. Jeder einzelne Crawling-Vorgang beginnt mit einer Liste von Websites, die aus den vorherigen Crawls stammt und mit den von den jeweiligen Webmastern gelieferten Sitemaps komplettiert wurde. Nach jedem Suchlauf des Crawlers wird der Google-Index mit neuen Websites, aktualisierten Seiten und neuen Inhalten gefüttert, während veraltete Links entweder korrigiert oder ganz gelöscht werden.

In der Regel ruft der Google-Bot alle paar Sekunden eine bestimmte Site auf, wobei seine Voreinstellungen festlegen, wie lange er sie durchsucht. Google legt dieses Crawl-Budget fest und hat sich bisher erfolgreich dagegen gesträubt, alle Webauftritte gleichzubehandeln. Es kann im Einzelfall also einige Zeit vergehen, bis der Google-Bot einen neuen Webauftritt oder aktualisierte Einzelseiten findet.

Neue Kunden im Internet gewinnen?

Gewinnen Sie mehr Kunden mit Hilfe unserer Online-Marketing-Lösungen.

Website erstellen lassen
Social Media für Unternehmen
Suchmaschinenoptimierung
Firma eintragen lassen

Video erstellen lassen
Google Werbung
Bing Werbung
App erstellen lassen

Natürliche Links weisen dem Crawler den Weg

Es gibt nun mehrere Möglichkeiten, seinen Webauftritt für Crawler zu optimieren. Man kann sich die Informationsarchitektur einer Website anschauen und darauf achten, sie so schlicht wie möglich aufzubauen. Denn je komplexer sie ausfällt, desto schwieriger ist es, den Crawler zu lenken, und desto geringer sind die Aussichten, dass der Crawler auch wirklich alle relevanten Seiten und Links findet. Das Crawl-Budget ist für jeden Auftritt limitiert. Daher ist es wichtig, den Crawler auf die wichtigsten Seiten zu schicken.

Zentrale Kriterien für das Ranking auf den Ergebnisseiten sind Verlinkungen, entweder Backlinks oder interne Verweise. SEO-Experten können nun den Crawler auf Seiten führen, die relevant für die Indexierung sind. Idealerweise sind das natürliche Links, also solche, die von Menschen gesetzt wurden, zum Inhalt der Site passen oder von anderen Sites auf den eigenen Auftritt verweisen. Irrelevante Seiten wie Kontaktformulare oder Log-in-Seiten sollte man dagegen für den Crawler-Zugriff sperren.

Crawler steuern mit Metadaten, Sitemaps oder Mikroformaten

Andere Instrumente zur Steuerung des Crawlers sind Metadaten, Sitemaps und Mikroformate. Für den Google-Bot sind die Inhalte der Meta-Tags aussagekräftiger als andere Hinweise. So lässt sich über einfache Befehle festlegen, welche Seiten nicht indexiert werden sollen und welche verlinkte Seite der Crawler nicht beachten sollte. Aus XML-Sitemaps erkennt der Crawler die Struktur einer Website schneller und findet auch die Unterseiten einer Domain leichter. Die Mikroformate wiederum übermitteln zusätzliche Informationen an den Crawler; sie fungieren als Erweiterung für die HTML-Sprache, in der Websites gebaut werden. Durch Mikroformate werden die jeweiligen Dokumente maschinen- und menschenlesbar gemacht. Informationen, die sonst verborgen bleiben, werden auch für Suchmaschinennutzer lesbar, die sie als Rich Snippets angezeigt bekommen. Die wiederum sind ein indirekter Rankingfaktor und können sich positiv auf die Positionierung des Webauftritts in den Suchergebnissen auswirken.

Ergebnisanalyse: Crawler-Spuren in den Logfiles verfolgen

Will man nun wissen, was die Crawler im eigenen Webauftritt so treiben, bieten sich Logfile-Analysen an. In den Logfiles zeichnet ein Server jeden Zugriff auf. Hier hinterlassen menschliche Webnutzer, Suchmaschinen-Crawler und andere Tools zum Crawlen charakteristische Spuren. Durch die Logfiles lässt sich verfolgen, welche URL häufig gecrawlt wird und ob es Einschränkungen gibt, die das Crawling und somit das Indexieren erschweren.

Logfiles wurden früher auch zum Analysieren der Performance eines Webauftritts genutzt. Seitenbetreiber werteten die einzelnen Zugriffe, Verweildauer und Verlauf der jeweiligen Session aus und konnten so einschätzen, wie effektiv eine bestimmte Marketingmaßnahme war. Allerdings ließ sich bei Nutzern mit sich dynamisch ändernden IP-Adressen nie sagen, wie lange sie tatsächlich auf einer Seite geblieben waren. Denn aus einem Nutzer werden gleich mehrere, da sich während der Session die IP ändert. Es ist auch nicht möglich, Zugriffe auf gecachte Inhalte zu verfolgen, obwohl Browser Inhalte zur Beschleunigung der Ladezeiten cachen.

Bei der Suchmaschinenoptimierung lohnt sich der Blick in die Logfiles, weil sich so das Verhalten von Crawlern analysieren lässt. So lässt sich etwa erkennen, welche Seiten gecrawlt, also indexiert sind und welche nicht. Nicht-indexierte Seiten können auf Probleme hinweisen und nachteilig sein, wenn darin etwa auf saisonale oder zeitlich begrenzte Angebote hingewiesen wird.

SEO-Verantwortliche können Webseiten selbst mit Tools wie Screaming Frog crawlen. Wie Eduard Protzel bei t3n schreibt, reicht es aber nicht aus, den Google-Bot zu imitieren. Gleichzeitig muss auch die Herkunft der Anfrage bestätigt werden. Diese Bestätigung erhält man, indem man die IP-Adresse einer Anfrage feststellt. Protzel empfiehlt einen sogenannten Reverse-DNS-Lookup in der Windows Console, mit dem die IP und somit Server und Herkunft einer Anfrage erkennbar werden. Hilfreich ist auch der Blick in die Crawl-Statistiken der Google Search Console. So kann man dann sehen, ob der Besucher wirklich der Google-Bot gewesen ist.

Allerdings erzeugt man durch dieses Verfahren auch schnell große Datenmengen. Einzelne Logfiles können über 10 Millionen Zugriffe des Google-Bots über den Zeitraum eines Monats enthalten. Von Vorteil ist also die zeitliche Beschränkung der Untersuchung oder eine Beschränkung auf bestimmte IP-Bereiche.

Newsletter abonnieren