Tipps zur Suchmaschinenoptimierung - Kapitel "Grundlagen-Arbeitsweise von Suchmaschinen"

Die Bestandteile einer Suchmaschine

Im Beitrag „Wie Suchmaschinen Daten sammeln“ haben Sie eine Menge darüber gelesen, wie eine Suchmaschine – mit Hilfe von Datensammlern – an neue Informationen kommt… und das „die Suchmaschine“ diese Spider losschickt und die Ergebnisse speichert. Generell ist es also so, dass je nach dem Kontext mit „die Suchmaschine“ also einmal mehr der Datensammler-Aspekt der Suchmaschine, der Index und alles drumherum oder auch das gemeint ist, was ein normaler Benutzer davon zu sehen bekommt, nämlich die Sucheingabe und die Ergebnisse.

Und genau diese drei Teile sind es auch, die – ohne zu technisch zu werden und die Funktionsweise nicht vertieft zu beschreiben – eine Suchmaschine ausmachen; also mehr oder weniger die „Haupt-Bestandteile“ einer Suchmaschine sind.

Agenten-Software (die Robots, Crawler, Spider) mit automatischer Suche und Erfassung von Inhalten und Verlinkungen, HTML-Titeln oder Textabsätzen und Wörtern

Indizierung-Software, nimmt alle gesammelten Inhalte der Agentensoftware entgegen und speichert diese in eine sogenannte Indexdatei

Abfrage-Software, nimmt die Suchanfragen des Webservers entgegen und leitet diese an den Datenserver weiter, alle passenden Ergebnisse werden als HTML-Dokument an den Webserver geschickt, der Webserver zeigt dann für den User die Ergebnisliste an.

Während Sie über die Abfrage – Software als Benutzer schon einiges wissen und auch die Agenten und deren Arbeitsweise grob beschrieben ist, bleibt die Frage, was die Indizierungs-Software (oder Indexierungs-Software – beide Begriffe sind sowohl üblich als auch missverständlich) neben der Speicherung der Daten so alles anstellt. Denn hier passiert mit den Daten noch einiges, bevor und nachdem der Quellcode einer Seite in eine Datenbank versenkt wird. Grob gesagt: Alle Begriffe werden einzeln in eine Liste übernommen und erhalten eine ganze Menge an Zusatzinformationen, die alle in eine Art „Punktzahl“ umgewandelt werden. Kriterien, nach denen ein Begriff „punkten“ kann, sind z. B.:

Häufigkeit der Nennung
Platzierung (oben oder unten, bezogen auf die Seite und den Absatz, in dessen Kontext der Begriff vorkommt)
„Text-Auszeichnungen“ (Vorkommen als Überschrift, in Fettschrift etc.)
Übereinstimmung mit Meta-Angaben (Hauptsächlich hier Seitenbeschreibungs- und „Keywords“-Tag)
Übereinstimmungen mit dem Titel
Vorkommen im Seitennamen, als Linktext
…

Auch die „räumliche Nähe“ eines jeden Begriffs zu allen anderen Begriffen wird messbar gemacht, so dass einfach bestimmt werden kann, ob bei Suchanfragen mit mehr als einem Wort die gesuchten Begriffe in relativer Nähe, direkter Nachbarschaft (auch die reihenfolge kann hierdurch bestimmt werden) oder über die ganze Seite verteilt und mit großem Abstand (sprich: ohne direkten Zusammenhang) auf der Seite vorkommen.

Ebenso werden Daten über die Seite selbst (Titel, Metadaten, letzte Erfassung, Alter und vieles mehr) gespeichert oder aktualisiert, wenn eine Seite sich geändert hat. Ob Änderungen an einer Seite wirklich vorgenommen wurden oder nicht, wird übrigens nicht erst dann bestimmt, wenn eine Seite komplett eingesammelt, nach Hause getragen und analysiert wurde, sondern anhand von Checksummen, die aus dem Quelltext einer Seite gebildet werden und die mit der Checksumme einer gerade abgeholten und möglicherweise neueren Kopie der Seite verglichen werden. Stimmen beide Summen überein, muss nur vermerkt werden, wann der letzte Besuch stattgefunden hat und dass es keine Änderungen zur letzten Fassung gab.

Auch – oder vor allem – zur Seite existieren noch viele weitere Informationen, die von anderen Seiten stammen: Die Anzahl eingehender Links für diese Seite; der jeweilige Linktext… und sogar die Texte, die in unmittelbarewr Nähe eines eingehenden Links auf der „fremden“ Seite stehen, hinterlassen Spuren in Form von „Bewertungspunkten“ bei den Informationen zu einer Seite (siehe hierzu auch die Erläuterungen zum PageRank), die einen wesentlichen Einfluss auf die Reihenfolge in den Suchergebnissen haben.

Aus all den Informationen, die weitaus mehr „Datenvolumen“ bedeuten, als der Quellcode der Seite allein, wird dann mittels komplexer Verfahren in erstaunlich kurzer Zeit ermittelt, welche Seiten zur Anfrage passen und dann auch noch nach mehreren 100 Faktoren für jede Seite berechnet, welchen Rang diese in den Ergebnissen haben soll. Damit diese Arbeit von der Abfrage – Software so schnell wie möglich erledigt werden kann, muss also bereits bei der „Übernahme in den Index“ wie beschrieben eine Menge vorbereitet werden, um alle benötigten Informationen zur Berechnung der Relevanz einer Seite für die Suchanfrage zur Hand zu haben.

Hier nur nebenbei bemerkt, aber dennoch erwähnenswert sind einige weitere Dinge, die Suchmaschinen bei der Speicherung von Daten und der Auswertung für die Suchtreffer mit Ihren Webseiten anfangen. So ist es in Deutschland weniger spürbar, dass auch Seiten zu mehr oder weniger passenden verwandten Begriffen angezeigt werden, als dies z. B. in den USA der Fall ist. Dennoch finden Sie auch hier inzwischen immer häufiger über einfache Dinge wie Varianten (ae oder ä) bzw. Ein- oder Mehrzahl hinaus gehende andere Begriffe in Trefferlisten zu bestimmten Suchanfragen wieder. Das liegt zum einen daran, dass Suchmaschinen immer besser darin werden, Beziehungen und thematische Zusammenhänge einzelner Begriffe zueinander auch in der deutschen Sprache zu ermitteln und zum anderen daran, dass Begriffe sich auf bestimmte Grundformen zurückführen lassen, die dann ebenso als Kriterium zu einem Seiteninhalt abgelegt werden kann. Dieses Zurückführen auf einen Wortstamm, das so genannte Stemming, sorgt z. B. bei Google auf englischsprachigen Seiten weitaus mehr als bei uns dazu, dass Suchanfragen auch thematisch relevante Seiten beinhalten, die den genauen gesuchten Begriff überhaupt nicht oder nur kaum enthalten – aber auch hier wird wohl in Ansätzen zumindest etwas ähnliches gemacht, wenn Seiten in den Suchindex gelangen. Dennoch bleibt es für den deutschsprachigen Raum – zumindest vorläufig – notwendig, im Zweifelsfall mehrere Seiten zu erstellen, die jeweils eine Variante oder Wortform eines gewünschten Keywords zur Optimierung stärken (mehr zu Keywords finden Sie im Beitrag zur Keywordrecherche).

Damit haben Sie nun einen sehr groben, aber dennoch vollständigen Überblick darüber, wie die Informationen einer Webseite „in eine Suchmaschine“ kommen… und von dort wieder in die Trefferliste. Es gibt aber noch andere Suchmaschinen, die Daten auf andere Weise erhalten und auch nicht genau wie Google & Co. wieder herausrücken, sondern zur eigenständigen Suche für den Benutzer in strukturierter Form anbieten. Ob Sie diese auch beachten müssen und welche dies sind, lesen Sie im Artikel „Welche Arten von Suchmaschinen gibt es?„