Tipps zur Suchmaschinenoptimierung - Kapitel "Grundlagen-Arbeitsweise von Suchmaschinen"

Warum sind nicht alle meine Seiten im Index?

Die Frage nach der Abdeckung der eigenen Site im Index bekommt mit wachsemdem Umfang der eigenen Domain auch mehr Bedeutung. Werden laufend neue Seiten generiert, verändert oder auch von der Domain entfernt, erfordert nicht nur „Crawlbarkeit“, sondern auch „Indexfreundlichkeit“ oder „Indexabdeckung“ stärkere Aufmerksamkeit. Wer weiß, wie viele Seiten seine Domain umfasst, kann den Anteil leicht anhand der Webmastertools bei Google und Bing ablesen. Nicht immer ergibt diese Zahl 100% – und schon steht man vor der Frage, wie man dieses Verhältnis verbessern oder zumindest dafür sorgen kann, dass die richtigen Seiten im Index ankommen…

Crawlbar sein allein reicht nicht

Die Frage, ob eine Seite überhaupt besucht wird oder nicht, garantiert keine Aufnahme in den Index. Dennoch ist die „Crawlbarkeit“, also die Erfassbarkeit durch Suchmaschinen-Spider, die Grundvoraussetzung für die Aufnahme in den Index. Durch Verbote in der robots.txt, Metaangaben oder „entwertete“ Links kann der Zugriff auf eine Seite nicht nur absichtlich, sondern auch versehentlich vom Besuch der Suchmaschinen ausgeschlossen sein. Wenn eine Seite also partout nicht in den Index will oder bei entsprechenden Kontrollanfragen zwar angezeigt wird, aber keine Details zum Inhalt bekannt sind (dies kann passieren, wenn eine nicht besuchbare Seite genug Relevanz durch eingehende Links bekommt, so dass nur die Adresse und ggf. Informationen aus Ankertexten und der Dateiname, aber kein typischer Ausschnitt, Link zum Cache etc. vorhanden sind), lohnt sich der Test, ob die Seite überhaupt besucht werden kann.

Neben zahlreichen Testprogrammen im Web, mit denen dies ausprobiert werden kann, bietet sich vor allem die Funktion „Abruf wie beim Googlebot“ aus den Google Webmaster-Tools an, um für einzelne Adressen zu prüfen, ob die Seite abrufbar ist und welcher Inhalt zurückgeliefert wird.

Ist die Seite crawlbar und findet sich auch keine „noindex“-Direktive im Kopf der Seite, liegt das Problem mehr oder weniger immer daran, dass die Seite zu „uninteressant“ ist – Vorausgesetzt sie ist nicht einfach nur so neu, dass Suchmaschinen bisher gar keine Gelegenheit zum Besuch hatten und sich das Problem mit ein wenig Geduld von selbst löst. Wer regelmäßig neue Seiten publiziert, sollte daher übrigens besonders auf die Hilfe von XML-Sitemaps zurückgreifen, um die Zeitspanne bis zur „Entdeckung“ aller Links zu neuen Seiten durch die Suchmaschinen anhand des bereits bekannten und wiederbesuchten Contents nicht dem Zufall zu überlassen.

Nicht alles kann in den Index

Warum eigentlich nicht? Hauptgrund ist hier – neben der Tatsache, dass Datenmengen im Gegensatz zum Durchschnittsanwender durchaus sehr relevant für Suchmaschinen sind, die unvorstellbare Massen von Daten zu werwalten haben – die Relevanz der gebotenen Informationen für Suchmaschinen. Warum z. B. Seiten in den Index aufnehmen, auf der nur unverständliche Zahlenkombinationen oder sinnlose Aneinanderreihungen von Begriffen zu finden sind? Oder ausschließlich Links? Die Definition von wertlosen Informationen oder gar Spam hat bei Suchmaschinen viel damit zu tun, ob ein Benutzer der Suchmaschinen potentiell etwas mit der Information anfangen kann, die auf der Seite vorhanden sind. Hier kommt also auch der interne und externe Wettbewerb hinsichtlich der behandelten Themen in´s Spiel. Ist eine Seite also aus Sicht einer Suchmaschine relevant zu einem Thema und trägt zur Qualität und Informationsbreite des Index bei, kommt sie rein, sonst eben eher nicht (oder auch etwas dazwischen, aber der so genannte „Supplemental Index“ ist für das eigentliche Konzept hier unwichtig).

Wie das Interesse verbessern?

Grundsätzlich sind Seiten dann (natürlich ist das wie o. g. nicht das einzige Kriterium) interessanter als andere, wenn Sie mehr Links haben. Das müssen nicht nur externe Links, sondern bei können größeren Sites eben vor allem auch interne Links von anderen, „prominenteren“ Seiten sein. Die beste Option ist also eine Verlinkung von der Startseite oder anderen Seiten der ersten oder ggf. auch zweiten Navigationsebene. Und da ein Link allein nicht ausreichen muss, sind eben Tagclouds, Brotkrümel, (Meta-) Sitemaps, Verweise auf verwandte Artikel, Kategorien etc. gern gewählte Mittel, um eine möglichst durchgängige interne Verlinkung herzustellen und möglichst keine Seite ohne mehrere interne Links zu lassen.

Das allein mag aber nicht ausreichen, denn möglicherweise ist die Seite aus anderen Gründen unattraktiv. So ist z. B. vielleicht der Inhalt gering (im Vergleich zum allgemeinen Rahmen der Seite wie Navigation etc.) oder die Seite ist eine „Sackgasse“, da es keine sinnvollen weiteren Links oder Unterseiten in diesem Segment gibt. Auch denkbar ist, dass der Inhalt in anderer Zusammensetzung oder gar in gleicher Form bereits auf anderen Seiten vorkommt; also „Duplicated Content“ in der einen oder andern Form besteht. Den letzten Fall, der streng genommen zumindest aus Sicht der Abdeckung im Index kein Problem darstellt, da die Inhalte dann ja auf anderen Seiten im Index sein sollten – einmal ausgeklammert, kann man die Chancen der Inhalte aber ggf. ja noch verbessern…

So oder so kann man i. d. R. also nur die Attraktivität durch Aufbesserung des Inhalts, Verbesserung der Position und Verlinkung innerhalb der eigenen Struktur oder mehr Links von außen wenig tun, um einzelne Seiten zu stärken. Da sich das Problem zudem selten auf einzelne Seiten, sondern ganze Bereiche erstreckt, sind oft andere Maßnahmen erforderlich, die sich meistens nicht nur darauf konzentrieren, die interne Verlinkung für wichtige Inhalte zu verbessern (Ja, unter anderem genau deshalb finden Sie Abkürzungen zu populären internen Suchanfragen auf vielen großen Portalen ;)), sondern auch unwichtige Inhalte gezielt aus dem Index zu halten (oder zumindest zu „schwächen“).

Unnötige Inhalte im Index aktiv bereinigen

Dabei sind konkrete Maßnahmen wie wie z. B. Steuerung des Flusses von PageRank auf der eigenen Domain durch Feintuning an den Direktiven für Robots; Austausch von Links durch JavaScript oder andere Alternativen und ähnliche Optionen denkbar, die sich aber oft dadurch auszeichnen, dass man im besten Fall nichts erreicht oder der eigenen Domain nachhhaltigen Schaden zufügt, wenn man nicht genau weiß, was zu tun ist. Der Tipp, sich als Einzelkämpfer lieber auf zentrale Bereiche / Seiten zu konzentrieren und mit den o. g. Mitteln dafür zu sorgen, dass erhöhte Attraktivität die Chancen auf eine Aufnahme in den Index steigert, ist daher meistens die beste Idee.

Was nicht bedeutet, dass man nicht Bereiche wie Loginseiten und andere, klar nicht für den Index geeignete Seiten oder Bereiche auch bei kleinen Sites durchaus aktiv durch robots.txt, Metaangaben & Co. aus dem Index raushalten sollte. Man sollte es eben nur nicht übertreiben. Vorsicht z. B. also mit „nofollow“ und „noindex“ auf „About-“ und Kontaktseiten, wenn diese vielleicht eigentlich doch eher in den Index sollen. Bei vielen – vor allem kleinen – Sites trägt das Impressum nicht unwesentlich zum Traffic bei, wenn ein Großteil der Anfragen sich auf den Namen des Unternehmens, Geschäftsführers, die Telefonnummer u. Ä. bezieht. Und selbst bei größeren Sites, die sich besonders oft mit der Frage befassen (müssen), welche Teile der Site man ggf. von sich aus aus dem Index halten will, um das persönliche Kontingent für die wichtigen Seiten zu sparen, sollten nicht unreflektiert auf Impressum, Personalbereich etc. verzichten. Selbst wer adlig gesprochen und Sitelinks spendiert bekommt, möchte vielleicht genau diese Seiten im Index haben und sollte sie daher nicht abwerten.

Oft genug liegen die Dinge, mit denen man Suchmaschinen dabei helfen kann, die besseren und wichtigeren Inhalte zu finden, darüber hinaus auch in ganz anderen Bereichen, die sich schnell zeigen, wenn man mit site:meinedomain.de einmal selbst nachschaut, was derzeit alles den Index vielleicht unnötig belastet und besser ausgeklammert werden sollte. Beispiele:

Druckansichten im Index? Nicht nur, dass die HTML-Version meistens mehr zu bieten hat, ist die Druckversion auch fast immer ein ungeeignetes Ziel für einen Besucher aus Suchmaschinen. Die Druckansichten also,wenn es HTML-Seiten sind, mit „noindex“ im Kopf (möglichst natürlich für alle Druckansichten per Template) kennzeichnen. Ob der Link zu dieser Ansicht auch mit „nofollow“ heute noch entwertet werden muss, da dies nichts mehr für die anderen Links auf der Seite bringt, soll hier nicht diskutiert werden – es macht auch zumindest für die Absicht, die Druckansichten aus dem Index zu bekommen, keinen Unterschied.
PDFs, Worddokumente & Co. Das ist für sich genommen gar kein Problem. Es sollte sich aber um Inhalte handeln, die in dieser Form nicht auch als HTML-Seiten abrufbar sind, denn in diesem Fall gilt mehr oder weniger das gleiche wie für Druckansichten. Der Ausweg ist hier aber freilich kein „noindex“ in den Metadaten des PDF Dokuments (…), sondern eher das „Verstecken“ der Links vor Suchmaschinen, Verbieten des Ordners, in dem die Dokumente liegen oder z. B. die Auslieferung über eine Brückendatei (z. B. mittels PHP), die zentral für Suchmaschinen gesperrt werden kann.
„Maschinengenerierter“ Duplicated Content: Vor allem in Blogs existieren oft zusätzliche Links für Detailansichten mit Kommentaren oder gleichartige Übersichten für Artikel nach Datum, Tag, Kategorie etc. Der Tipp kann hier nicht sein, auf Archive und Tagübersichten zu verzichten, aber oft ist zumindest ein Teil der angebotenen Alternativen zumindest für den Index überflüssig und so sollten Sie ggf. nicht nur deren Indexierung, sondern im Einzelfall ggf. sogar deren Besuch verbieten, um dem Crawler die zeit zu sparen, hier immer wieder nach neuen und verwertbaren Inhalten suchen zu müssen…
„Interne“ Seiten: Beispielsweise Seiten, die eine Registrierung erfordern, um die eigentlichen Inhalte anzuzeigen u. Ä.
Müll: Überbleibsel von Umstellungen; Entwicklungsversionen interner Funktionalität, alte Fassungen der eigenen Website in öffentlich zugänglichen zugänglichen Unterverzeichnissen… man findet im Index oft lange geloscht oder für immer verloren geglaubte Dinge. Das ist zwar mitunter rührend, hilft aber der aktuellen Site nicht bei der Herstellung einer möglichst hohen Abdeckung.

Grundsätzlich wird es aber nicht immer gelingen, alle Seiten der eigenen Domain in den Index zu bekommen. Und mit wachsendem Umfang der Domain wird es auch immer komplizierter, sich mit der ungewissen Aufgabe der Steuerung der Suchmaschinen zu befassen. Da hilft im Zweifelsfall also nur eine Konzentration auf das Wesentliche:

Aufräumen, wenn dies wie oben beschrieben durch Eliminieren unnötiger Inhalte möglich ist und
die Optimierung der internen und externen Verlinkung für die besonders wichtigen Seiten.

Eigentlich unnötig: Wer z. B. Links auf der Startseite und an anderen zentralen Stellen durch andere ersetzt, um Seiten zu stärken, die noch nicht im Index vorhanden sind, muss sich bewusst sein, dass dies ggf. Auswirkungen auf die nun nicht mehr von diesen promenenten Links profitierenden Seiten haben wird. „A-Seiten“ gegen „B-Seiten“ auszutauschen, ist also ggf. keine gute Idee, wenn die erstgenannten nicht ohne diese Links auskommen können…