Sitemap

Vor langer Zeit, als die meisten Besucher auf Webseiten noch Menschen waren, kam jemand auf die Idee, dass es gut wäre, eine Art Landkarte der gesamten Website anzulegen: eine Sitemap sozusagen. Damit könnte jeder sein Ziel finden, unabhängig von Menü und Navigation, allein aus der Logik der Struktur heraus. Mittlerweile ist es wichtiger, dass der Google-Roboter alle wichtigen Seiten findet. Das ist nämlich keineswegs selbstverständlich. Darum bekommt der Googlebot eine eigene Sitemap – in einer Sprache, die er versteht.

Sieh dir das an! Und komm’ bald wieder!

Grundsätzlich kann der Google-Crawler keine großen Sprünge machen – er „kriecht“. Das tut er zwar blitzschnell, aber er braucht stets eine Brücke, einen Link zur nächsten Seite. Er verhält sich letztlich wie ein Besucher, der auf alle Links klickt und dort wieder auf alle Links und dort wieder … Anders gesagt: Eine Seite, auf die nichts verweist, findet Google nicht (oder nur durch einen der Zufälle, von denen das Web voll ist).

Die Sprache der Suchroboter ist ein besonderes XML-Format und die Sitemap im Prinzip eine Liste aller meiner URLs. Die technische Formatierung überlässt man am besten einem der zahlreichen Sitemap-Generatoren. Das Ergebnis dann Google zukommen zu lassen, geschieht am besten direkt über die Webmaster-Tools (unter dem Punkt „Crawler“). Der große Vorteil: Google gibt Feedback, ob der Vorgang erfolgreich war. (Für die laufende Nachkontrolle gibt es den Punkt „Abruf wie durch Google“.) Besondere Erweiterungsregeln gelten für Bilder und Videos, sehr viel seltener braucht man die Spezialsyntax für Google News und die Tags für ältere Handys aus der Zeit vor der Smartphone-Ära.

Natürlich ist die Sitemap etwas mehr als eine bloße Liste. Sie kann dem Googlebot auch sagen, welche Seiten wichtiger sind, welche häufiger aktualisiert werden und bald wieder gecrawlt werden sollten. Unterm Strich erleichtert die Sitemap dem Roboter die Arbeit und vor allem: Sie verhilft dem richtigen Content rechtzeitig auf die Ergebnisseiten. Das ist der einzige handfeste Grund dafür, dass wir Menschen ein eigenes Inhaltsverzeichnis für Roboter anlegen.

Der Bot verliert die Geduld – und im direkten Duell gegen robots.txt

Heute kommt kein Webmaster daran vorbei, bei Google eine XML-Sitemap einzureichen. Faustregel: Je umfangreicher die Website, desto wichtiger die Sitemap. Denn die Crawler folgen dem Seitenaufbau nicht endlos. Wie viele einzelne Seiten der Roboter durchsucht, hängt davon ab, wie Google die Site einschätzt; jede Domain bekommt sozusagen ein bestimmtes Kontingent, das die Frequenz der Besuche und die Tiefe der Suche bestimmt. (Hinzu kommt noch, dass die Suchmaschine sich auch nicht endlos Ergebnisse in ihren Index aufnimmt; ein weiteres Budget ist daher für die Anzahl der Seiten festgelegt, die sich Google dauerhaft merkt.)

Sitemaps sind an sich nicht schwer. Auch die meisten Hobby-Webmaster stemmen das erfahrungsgemäß leicht. Schwierig wird es erst, wenn sich herausstellt, dass wichtige Seiten offenbar nicht Eingang in den Google-Index gefunden haben und nicht unter den Suchergebnissen auftauchen. Bester Ratgeber ist in solchen Fällen die Fehlerliste von Google Webmaster-Tools.

Am häufigsten geht der Crawler k.o., wenn er gegen eine robots.txt läuft, die ihm den Besuch untersagt. Denn eine Sitemap ist immer nur höfliche Information für den Bot, sie verzeichnet „Hinweise für Web-Crawler, mit denen diese beim Durchsuchen Ihrer Website bessere Ergebnisse erzielen können,“ wie das Sitemap-Protokoll selbst sagt. Der Googlebot muss sich aber nicht daran halten. Dagegen ist die robots.txt eine harte Dienstanweisung – mit der Webmaster allerdings oft ganz ähnliche Zwecke verfolgen, vor allem, wenn sie bestimmte Bereiche von der Indizierung ausschließen.

Beitrag bewerten