Tipps zur Suchmaschinenoptimierung - Kapitel "Grundlagen-Arbeitsweise von Suchmaschinen"

Seiten aus dem Index der Suchmaschinen nachträglich entfernen

Es gibt eine handvoll guter Gründe, warum man einzelne Seiten oder ganze Teile seiner Domain wieder aus dem Index bekommen möchte, die den Suchmaschinen bereits bekannt sind. Das kann eine Seite sein, die „versehentlich verlinkt“ wurde, aber noch gar nicht fertig ist, so dass nun ggf. unfertige Seiten einen schlechten Eindruck auf den zufälligen Besucher aus Suchmaschinen machen. Oder es gibt brisante oder unangemessene Inhalte – von Ihnen selbst oder in Kommentarform von Dritten in Ihrem Blog hinterlassen -, die Sie lieber nicht in den Suchergebnissen sehen wollen… oder der Anwalt eines Mitbewerbers.

Das Kind liegt im Brunnen, die Suchmaschinen zeigen die fraglichen Inhalte bei entsprechenden Suchanfragen an und Sie bekommen Besucher, die Sie entweder nicht haben wollen oder schlagen sich mit einer Abmahnung rum, die aufgrund einzelner Inhalte eine Anpassung erforderlich macht.

Wenn Sie die Seiten nun geändert, entschärft oder gar komplett entfernt haben, bleibt der Inhalt aber dennoch oft eine ganze Zeit lang noch in Form von bei Suchmaschinen gespeicherten Kopien „sichtbar“. Ob Sie tatsächlich dazu verpflichtet werden können, auch diese Inhalte zu entfernen, ist nur von einem Anwalt rechtssicher zu beantworten (und es ist gerade keiner zur Hand), aber hier soll es um die Frage gehen, ob Sie es überhaupt können. Und die Antwort ist ein klares „Jein“. Erklärung:

Wie Suchmaschinen an Daten kommen und Aktualisierungen „bemerken“, wird im Beitrag zur Arbeitsweise von Suchmaschinen kurz zusammengefasst. Die Tatsache, dass eine Suchmaschine selbst entscheidet, ob und wann sie Ihnen einen Besuch abstattet, liefert eigentlich schon die ganze Erklärung. Wenn Sie die Seite geändert oder gelöscht haben, wird die Suchmaschine dies beim nächsten Besuch der betreffenden Seite bemerken und entsprechend reagieren. Und wenn Sie selbst fleissig waren, wird die Suchmaschine wahrscheinlich auch relativ zeitnah bei Ihnen vorbeischauen und die Änderungen bemerken.

Es genügt daher eigentlich auch dafür zu sorgen, dass die Suchmaschine den zu entfernenden Inhalt beim nächsten Mal nicht mehr findet, und statt dessen ein klares Signal bekommt, was mit den bereits im Index vorhandenen Informationen passieren soll.

Soll also eine komplette Seite aus dem Index entfernt werden, löschen Sie diese entweder (wenn die Seite auch sonst keinen Wert für Sie als Betreiber oder den Besucher besitzt)… oder sorgen Sie für entsprechende Anweisungen in der Datei robots.txt bzw. der Anweisung „noindex“ im robots-Tag innerhalb der Meta-Daten (siehe Beitrag über Metadaten und Suchmaschinen) der Seite dafür, dass die Suchmaschine weiß, dass Sie keine Verschlagwortung der Seite wünschen.

Mit dem radikalen Löschen der Seite haben Sie übrigens noch nicht zwingend dafür gesorgt, dass die Seite auch wirklich nach der nächsten Aktualisierung nicht mehr im Index vorhanden ist. Damit das klappt, muss auch der passende „Statuscode“ von Ihrem Webserver zurück geliefert werden, wenn die betreffende Seitenandresse aufgerufen wird.

Der Statuscode ist entscheidend

Ein solcher Statuscode gibt dem Anfragenden Auskunft darüber, in welcher Form seine Anfrage bearbeitet werden kann; er kann also praktisch in „Klartext“ übersetzt werden. Was sollten Sie einer Suchmaschine sagen, die die entfernte Seite aufrufen will? Genau: „Das Ding ist weg und kommt auch nicht mehr wieder, vergiss Deine lokale Kopie im Index und such Dir lieber was Neues zu dem Thema. Eine Nachsendeadresse kenne ich nicht und biete auch selbst nichts Vergleichbares an„.

Dazu dient der Statuscode 410 („Weg, kommt nicht wieder„). Zur Not tut es auch ein Statuscode 404 („huch, nicht gefunden„). „Nicht gefunden“ kann aber auch bedeuten „Finde ich jetzt nicht… ich könnte aber beim nächsten Mal vielleicht was liefern“. Es kann ja auch durchaus sein, dass Sie als Webmaster gerade eben die Datei gelöscht haben und das in zwei Minuten bemerken und den Fehler korrigieren. Ein 404 sorgt daher nicht unbedingt direkt beim ersten Mal dafür, dass eine Seite aus dem Index fliegt, sondern macht die Seite erst einmal nur „verdächtig“. Es wird einen zweiten und ggf. sogar dritten Versuch geben, zu dem die Suchmaschine seine Bots aussendet, nach der Seite zu schauen. Erst wenn sich dauerhaft erweist, dass der Inhalt nicht mehr zu finden ist, wird das gewünschte Ergebnis erzielt. Senden Sie also lieber einen Code 410, wenn Sie bei Ihrer Domain selbst dazu in der Lage sind, die Antwort zu steuern.

Noch „schlimmer“ ist es, wenn Sie alle Anfragen, die nicht mit der passenden Seite beantwortet werden können, auf die Startseite oder eine andere existierende Seite umleiten und dabei „so tun“, als sei alles in Ordnung. Das muss keine Entscheidung sein, die Sie selbst getroffen haben, sondern ein Verhalten, dass an der Standardkonfiguration Ihres Servers oder des eingesetzten CMS liegt. Statt einer Fehlermeldung kommt ein Statuscode zurück der „alles OK“ sagt und im Browser erscheint die Startseite. Würden Sie das als Suchmaschine prima finden?

Rufen Sie zur Kontrolle daher die Adresse der „gelöschten“ Seite daher lieber selbst einmal im Browser nach dem Löschen auf und schauen, was Sie als Antwort erhalten. Ist das eine Seite aus Ihrem CMS, muss das allerdings nicht zwingend bedeuten, dass Sie ein Problem haben, denn für jeden Fehler – Statuscode können Sie theoretisch beliebige Fehlerseiten definieren. Den genauen Statuscode verrät Ihnen im Zweifelsfall ein AddOn für Ihren Browser (z. B. „Live HTTP Headers“ für Firefox) oder ein Online-Tester für HTTP-Statuscodes beliebiger Seiten.

Paßt der Statuscode bei Ihnen nicht und wissen sie auch nicht so recht, wie Sie es ändern können, greifen Sie zur Alternative der „Nicht mehr verschlagworten“ – Anweisungen für die Robots mittels robots.txt oder Meta-Daten.

Handelt es sich beim zu löschenden Inhalt um Teile einer Seite, die ansonsten aber erhalten bleiben soll (z. B. ein fragwürdiger Kommentar), können Sie ohnehin nur darauf setzen, die Seite anzupassen und darauf zu hoffen, dass die Suchmaschinen die neue Fassung möglichst schnell bemerken. Es muss also wohl oder übel gewartet werden, bis ein Spider herbeieilt und sich eine aktuelle Kopie der Seite für den Index abholt. Wann dies geschieht, liegt leider vollständig in der Hand der Suchmaschine und ist Abhängig von der „Besuchshäufigkeits-Schublade“, in der Ihre Domain bzw. die bestimmte Seite abgelegt wurde (siehe oben bereits verlinkter Beitrag zur Aktualisierungshäufigkeit). Steckt man in einer „lahmen“ Schublade für monatliche Besucher oder noch weniger, kann das also seine Zeit dauern…

„Beschleuniger“ Webmaster-Tools

Bei Google, MS und Yahoo können Sie mittels eigener Administrationsprogramme für Webmaster, („Webmaster – Tools“ bei Google) Daten über Ihre eigene Domain abrufen und auch erweiterte Funktionen nutzen, wenn Sie sich als Verantwortlicher für die betreffende Domain „ausgewiesen“ haben. Zu den Funktionen gehört – z. B. bei Google – auch die Möglichkeit eines „Löschantrags„. Damit können Sie, wenn die oben beschriebenen Voraussetzungen erfüllt wurden und die Seite auch tatsächlich entfernt oder „gesperrt“ wurde, die Suchmaschine darum bitten, den Index möglichst schnell zu aktualisieren und die fraglichen Inhalte zu entfernen.

Ob Sie dadurch tatsächlich schneller zum gewünschten Ergebnis kommen.. und ob das überhaupt erforderlich ist oder die typische Besuchshäufigkeit von Suchmaschinen auf Ihren Seiten ohnehin ausreicht, um zügig zum Ziel zu kommen, hängt von sehr vielen Faktoren ab. Auf jeden Fall aber können Sie ganz sicher sein, dass Sie wirklich alles getan haben, was zur Entfernung der Daten aus den Suchmaschinen tun konnten. Wenn Sie sich bisher noch nicht mit solchen Webmaster-Tools auseinander gesetzt haben, finden Sie Links zu den Tools der „großen Drei“ [Suchmaschinen] in der Übersicht der Suchmaschinen-Werkzeuge.