Was ist ein Index?

Unter einem Index versteht man im Allgemeinen ein Verzeichnis oder Register. In diesem sind die Einträge nach bestimmten Kriterien geordnet, was ein schnelles Auffinden und Zugreifen ermöglicht. In der EDV kommen Indexe als Dateien mit Verweisen auf Adressen oder separate Strukturen einer Datenbank zum Einsatz. Ihre Aufgabe ist aber im Grunde die gleiche. Außerdem indexieren Suchmaschinen Inhalte, um URLs zu ordnen und Nutzern passende Adressen für bestimmte Suchbegriffe zu zeigen.

Wie funktioniert ein Suchmaschinenindex?

Der sogenannte Google Index beinhaltet alle von Crawlern gescannten und indexierten Webseiten, auf die Nutzer der Suchmaschine verwiesen werden. Dabei erstellt und unterhält jede der zahlreichen Suchmaschinen im Internet ihre eignen Crawler und das von ihnen erstellte Verzeichnis. Dieser wird ständig aktualisiert und optimiert. Nur indexiert finden sich neue Seiten und Einträge auch in den Ergebnissen der Suchmaschinen wieder.

Die indizierten Daten enthalten dabei die URL der Webseite sowie allerlei Informationen zu den Seiteninhalten. So erfassen die Webcrawler zum Beispiel wichtige Keywords, um die Inhalte zu erfassen und später passend auszugeben. Wie genau das Ranking für eine Suchanfrage funktioniert, ist im Einzelnen nicht bekannt. Jede Suchmaschine verwendet hier ihre eigene Software.

20 Profi-Tipps für die perfekte Unternehmens-Website

Für Ihren erfolgreichen Internetauftritt müssen Sie viel beachten. Wir geben Ihnen kostenfrei Tipps für Ihre perfekte Website.

Aufbau
Inhalt
Technik
Rechtliches

Kostenfrei anfordern!

So indexieren Crawler Ihre Seite

Die Server der Suchmaschinen schicken Bots, sogenannte Crawler, seltener auch Spider, durch das gesamte Internet. Sie springen von einem Link zum nächsten und zeichnen dadurch untereinander vernetzte Inhalte auf. Auf jeder davon scannen die Webcrawler den Quellcode und senden diesen an den Google Index. Dort werden die einkommenden Daten auf die verschiedenen Rankingfaktoren hin untersucht und geordnet. Welche genau das sind, ist bis heute ein Geheimnis.

Crawler beginnen ihre Reise durchs Internet mit einer Liste von Webseiten aus vorherigen Crawlings. Der Fokus liegt dabei auf neuem und geändertem Content sowie der Aktualität der Links. Bis ein Webcrawler dabei zufällig über einen Link auf Ihre Seite gelangt und diese für die Suchmaschine indexiert, kann es dauern. Dieses Problem betrifft jede neue Seite. Mit internen Verlinkungen wird der Prozess, die gesamte Webseite mit allen Unterseiten zu indexieren, beschleunigt.

Mit den Google Webmaster-Tools können Seitenbetreiber den Crawling-Prozess selbst initiieren. Dazu senden sie in der Google Search Console unter dem Punkt Crawling ihre Sitemap direkt an die Google-Bots. Die Crawler starten anschließend die Indexierung. Den Fortschritt können Sie ebenfalls über die Google Search Console verfolgen. Sollten die Crawler Probleme beim Indexieren haben, werden diese dort aufgelistet.

Mit einem kleinen Kniff lassen sich einzelne Seiten gezielt von den Crawlern indexieren. Das ist hilfreich bei neuen Inhalten, die in der ersten Sitemap fehlten. Die Option ‚Abruf wie durch Google‘ in der Search Console dient eigentlich der Fehlerbehebung bei Problemen mit den Spidern oder der Indexierung der Webseite. Die Option, die URL zu indizieren, nimmt die Seite dabei gezielt in den Suchmaschinenindex auf. Damit beheben Sie gezielt Probleme mit fehlenden Seiten. Alternativ ist eine Anfrage zum Crawling unter http://www.google.de/addurl/ möglich. Hier ist eine Indexierung der Webseite aber nicht garantiert.

Die Crawling-Frequenz können Seiteninhaber nicht bestimmen. Lediglich die möglichen Anfragen pro Sekunde der Bots können Sie in der robots.txt festlegen. So vermeiden Sie, dass der Datenverkehr der Crawler Ihren Server zu sehr belastet.

Kostenfreie Online Marketing Beratung

Steigern Sie Ihre Reichweite und werden Sie sichtbar für Ihre Kunden!

Kostenfrei beraten lassen!

Indexierung gezielt verhindern

Manche Webseiten sollen nicht in den Suchergebnissen von Suchmaschinen auftauchen. Dann kann die Indizierung gezielt verhindert werden. Dazu gibt es drei Möglichkeiten:

Der Meta-Tag „noindex“ gibt Crawlern, die das Internet durchsuchen, die Anweisung, die jeweilige Seite nicht zu indexieren. Die meisten Webcrawler befolgen den Tag. Das ist aber freiwillig, er schließt die Aufnahme in den Suchmaschinenindex aber nicht garantiert aus.
In der Datei robots.txt hinterlegen Seitenbetreiber Informationen für Webcrawler. Dabei können Sie bestimmte Teile und Inhalte Ihrer Seite von der Aufnahme in den Index ausschließen. Das Befolgen der robots.txt ist für Crawler keine Pflicht.
Am sichersten ist es, Crawler per .htacess auszuschließen. Der Passwortschutz für Teile oder die gesamte Webseite verhindert, dass die Crawler auf Inhalte zugreifen können und damit auch die Indexierung. Das Vorgehen wird von Google empfohlen, wenn Ihre Webseite nicht im Index und den Suchergebnissen auftauchen soll.

Kostenfreie SEO Webinare

Profitieren Sie von unserem Expertenwissen. Jetzt anmelden oder Aufzeichnungen anfordern!

SEO Webinare

Ausschluss aus dem Google Index

Unter bestimmten Bedingungen wird Ihre Webseite wieder aus dem Google Index entfernt. Das kommt vor allem vor, wenn die Seiten Crawler gezielt zu einem besseren Ranking manipulieren sollen. Umfangreicher Duplicate Content kann ebenfalls zur Abstrafe führen. Betreiber erhalten eine Nachricht über den Ausschluss aus dem Index. Indem Sie die beanstandeten Inhalte überarbeiten oder entfernen und im Google Webmaster Tool eine erneute Überprüfung beantragen, regen Sie eine neue Indexierung an.

Google Index und Ranking in den Suchergebnissen

Die Informationen, die die Crawler beim Indexieren sammeln, entscheiden über die Platzierung der Webseite in den Ergebnissen der Suchmaschine. Natürlich will jeder Seitenbetreiber ganz oben angezeigt werden. Dadurch entstand die Suchmaschinenoptimierung, kurz SEO. Die zielt darauf ab, Informationen nicht nur für Menschen, sondern auch für die Crawler ansprechend aufzubereiten. Da die komplexen Informationen über das Ranking im Index unbekannt sind, ist SEO aber keine exakte Wissenschaft.

Zurück zum Glossar