Der Robot fühlt sich ganz wie zu Hause

Roboter führen Befehle aus. Das glauben zumindest die meisten Menschen. In Wahrheit ziehen Algorithmen bereits weitreichende Schlüsse, und die Maschinenethik an den philosophischen Fakultäten treibt die Frage um, was von Lügenbots zu halten ist. Roboter empfangen zwar Befehle, aber sie führen sie nicht unbedingt aus. Bekanntes Beispiel: die Bots der Suchmaschinen.

Die Webcrawler von Google & Co. durchstreifen ohne Unterlass das Web. Sie sehen nach, welche neuen Seiten es gibt und was es Neues auf alten Seiten gibt. Die algorithmische Weisheit der Suchmaschine entscheidet dann, was davon sie in den Index aufnimmt und bei Suchanfragen auf den Ergebnisseiten ausgibt (einen älteren, aber guten Grundlagenbeitrag dazu hat Bert Schulzki im Netz). Nun kann ich als Webmaster dem Googlebot durchaus sagen, dass er von bestimmten Bereichen, einzelnen Seiten oder gar der ganzen Site die Finger lassen soll. Ob er es aber auch tut, bleibt seine Sache.

Mit der Bitte um Nachsicht, gez. robots.txt

Denn das Mittel der Wahl ist in den meisten Fällen die Datei robots.txt im Stammverzeichnis. Das ist eine simple Textdatei, die Anweisungen parat hält für die Bots, die auf Besuch kommen. Dazu sagt sie, welche Sorte Bot gemeint ist („User-agent“) und was er darf – genauer: was er nicht darf („Disallow“).

Früher hatte das dem Zweck, dass man einfach keine überflüssige Serverlast durch müßige Seitenabrufe produzieren wollte; heute erfüllt robots.txt in erster Linie indirekte SEO-Zwecke. Denn erstens sucht der Googlebot nicht endlos, sondern nur im Rahmen eines bestimmten Kontingents (das man nicht verplempern sollte), zweitens sieht Google inhaltsleere Seiten und Duplicate Content gar nicht gern. Viele Websites produzieren solche Seiten aber automatisch, z.B. WordPress-Installationen oder Content-Management-Systeme (CMS). Mit robots.txt-Anweisungen kann ich dem Spider sagen, er möge diese Bereiche bitte ausblenden, und stehe dadurch bei der Suchmaschine gleich in einem besseren Licht da. Zu den gängigen Disallow-Bereichen gehören auch Druckversionen von HTML-Seiten, verlinktes Backup- oder Archivmaterial, Logfiles und Programmdateien, Überbleibsel alter Seitenfassungen sowie Seiten, die nur der Verwaltung der Inhalte durch eingeloggte Mitarbeiter dienen.

Disallow ist keine Tarnkappe

Verschwörungstheorien gibt es überall, aber insgesamt geht die zivilisierte Welt davon aus, dass sich der Googlebot an die Anweisungen von robots.txt hält. Insofern als die Datei Zwecke der Suchmaschinenoptimierung verfolgt, erspart sie dem Bot ja nur überflüssige Arbeit. „Der Googlebot und alle seriösen Suchmaschinen-Bots berücksichtigen die Anweisungen von ,robots.txt‘“, erklärt Google und fügt hinzu: „einige bösartige Nutzer und Spammer jedoch nicht.“ Eine Möglichkeit, „unsichtbare“ Seiten ins Netz zu stellen, ist robots.txt keinesfalls. Dazu müsste ich schon auf dem ausliefernden Server selbst Anweisung geben (z.B. per htaccess-Konfigurationsdatei).

Das Hauptproblem liegt in der Praxis nicht darin, dass der Bot nicht gehorcht. Es liegt darin, dass ich das Verhalten der Bots über diverse Instrumente steuern kann: mit dem Metatag „noindex“, mit der Seiten- bzw. Link-Anweisung „nofollow“ oder über die Sitemap. Dass sich die Direktiven dabei in die Quere kommen und ungewollte Resultate ergeben, passiert selbst altgedienten Webmastern hin und wieder.