öffentlich
Redaktion Druckversion

Massenindizierung von sehr großen Websites

Tipps und Lösungsansätze für das Powerindexing

Das Problem

Damit die Nutzer von Suchmaschinen alle Seiten Ihrer Website finden können, müssen diese komplett indiziert sein. Das heißt, Sie sollten dafür sorgen, dass alle Seiten inklusive der Unterseiten von Suchmaschinen eingelesen und im Index abgespeichert werden.

Bei kleineren Websites, also Websites mit höchsten ein paar Tausend Seiten, ist das oft gar nicht so schwierig. Was aber, wenn Sie eine Website mit 200.000 oder gar 10.000.000 Unterseiten in den Suchmaschinen-Index bekommen möchten? Die Antwort darauf ist das Powerindexing. In diesem Beitrag wird erklärt, wie das funktioniert.

Warum werden nicht automatisch alle Webseiten indiziert?

Gehen wir mal davon aus, dass Ihre Website-Struktur einwandfrei ist. Sie haben zwar sehr viele Seiten, aber jede einzelne davon ist erreichbar. Technische Probleme, die die Suchmaschinen bzw. ihre Robots oder Spider daran hindern würden, die Seiten zu erreichen und einzulesen, bestehen nicht.

So weit, so gut. Trotzdem heißt das noch lange nicht, dass alle Seiten auch tatsächlich "gespidert" werden. Seit einigen Jahren sind die großen Suchmaschinen, allen voran Google, dazu übergegangen, ihre Spider-Tätigkeiten zu priorisieren. Im Internet gibt es mittlerweile so viele einzelne Seiten, dass es nicht praktisch ist, alles, was neu ist, auch sofort einzulesen. Die Suchmaschinen wollen erst mal nur das einlesen, was gut ist.

Wie beurteilen die Suchmaschinen, wie viele Seiten einer Website sie indizieren?

Die Suchmaschinenrobots denken so: "Ich gehe grundsätzlich erstmal dort hin, wohin die Leute auch verlinken. Wenn niemand auf Ihre neue Website mit 2 Millionen Unterseiten verlinkt, dann kann sie wohl kaum wichtig sein." Der Link ist also mal wieder der Übel- oder besser Wohltäter: Wer gute Links auf seine Website hat, der wird auch von den Suchmaschinen indziert. Je besser die Links sind, desto mehr Seiten werden eingelesen.

Jedes Mal, wenn der Suchmaschinenspider auf Ihre Website kommt, errechnet er vorher, wie viele Seiten er bei diesem Lauf maximal besucht. Dafür verwendet er eine Formel, die in etwa so aussehen könnte:

Gesamtzahl (G) = Startkapital (S) + Für jeden Link (Qualitätsfaktor des Links (Q) * Basisfaktor Anzahl Seiten (B))
  • Das "Startkapital (S)" ist so etwas wie ein Vertrauensvorschuss. Für unsere Zwecke definieren wir seinen Wert einfach als 1.000. Die Suchmaschine indiziert also auf jeden Fall schonmal 1.000 Seiten, unabhängig von der Anzahl der Links.

  • "Für jeden Link" ist eine Summenfunktion, die alle Ergebnisse der Unterformel Q * B addiert.

  • Der "Qualitätsfaktor des Links (Q)" ist eine Zahl zwischen Minimum 1 und Maximum 10. Der genaue Wert oder die Berechnungsweise ist wohl das große Geheimnis einer jeden Suchmaschine. Dabei ist es wahrscheinlich ein großer Unterschied, ob der Link von der eigenen Website (intern) oder von einer anderen Website (extern) herkommt.

  • Der "Basisfaktor Anzahl Seiten (B)" steht für die Menge an Unterseiten, die die Suchmaschinen pro Lauf zu indizieren gewillt sind, z.B. 1.000.

Wir können unsere Formel auch in Kurzform darstellen: G = S + Summe(Q * B)

Oder sogar als kleines PHP-Programm:

$Website = 'http://www.meinewebsite.xy';
$Qualitaetsfaktoren = hole_alle_linkwerte_zu($Website);
$Gesamtzahl = $Startkapital;
foreach ($Qualitaetsfaktoren as $Qualitaetsfaktor)
{
  $Gesamtzahl = $Gesamtzahl + $Qualitaetsfaktor;
}

Beispiel:

Rechnen wir das einfach mal für ein konkretes Beispiel aus. Unsere Website (meinewebsite.xy) hat 10.000 Unterseiten. Jede dieser Seiten ist durch 3 Klicks erreichbar. Die Startseite verlinkt auf die Sitemap und die Sitemap auf alle 10.000 Unterseiten. Jede Unterseite hat damit genau einen internen Link.

Ein Blick auf unsere Analysesoftware zeigt schnell: Die Suchmaschinen besuchen bei jedem Durchgang nur die ersten 1.000 unserer 10.000 Unterseiten. Das liegt daran, dass wir bisher nur unser Startkapital ausnutzen. Setzen wir einfach mal die Werte in die Formel ein:

  • Startkapital: 1.000

  • Anzahl der Links auf Unterseiten: 0
    (Interne Links zählen wir in diesem Beispiel nicht.)

G = 1.000 + Summe(0 * 1.000) = 1.000

Die Suchmaschinen besuchen nur insgesamt 1.000 Seiten. Was brauchen wir, damit alle 10.000 Seiten besucht werden? Zum Beispiel neun externe Links mit einem Qualitätsfaktor von mindestens 1.

G = 1.000 + Summe(1 * 1.000 + 1 * 1.000 + 1 * 1.000 + 1 * 1.000 + 1 * 1.000 + 1 * 1.000 + 1 * 1.000 + 1 * 1.000 + 1 * 1.000) = 10.000

Voila: Jetzt wird die ganze Website indiziert!

Diese Darstellung ist natürlich etwas vereinfacht und erfüllt keinen Anspruch auf absolute Wahrheit oder Vollständigkeit. Aber so oder so ähnlich gehen die Suchmaschinen bei der Indizierung vor. Das Internet wird schließlich nicht kleiner. Damit die Suchmaschinen ihren Besuchern auch immer nur die besten (neuen) Websites anzeigen, müssen sie in Zukunft immer wählerischer werden - sie müssen die Indizierung neuer Websites auf irgendeine Weise sinnvoll reglementieren.

Strukturprobleme und Linkziele

Ein wichtiger Faktor ist noch die Struktur der Website, vor allem bei Websites mit deutlich mehr als 10.000 Unterseiten. In solchen Fällen ist es nicht immer praktisch, alle Unterseiten von einer einzigen Sitemap aus zu verlinken. Die Konsequenz ist, dass nicht jede Unterseite bereits mit zwei oder drei Klicks erreicht werden kann. Die Spider wollen zwar, wie im Beispiel, 10.000 Unterseiten besuchen, aber nur dann, wenn diese auch "nah beisammen" liegen. "Nah beisammen" kann man als Klickentfernung verstehen: Je mehr Klicks zu einer Unterseite notwendig sind, desto größer ist die Distanz, die der Spider zurücklegen muss, um die Seite zu erreichen. Das gibt Minuspunkte für ihre Gesamtzahl.

In der Praxis erkennt man die Strukturtiefe einer Website an der Anzahl der "Kategorieseiten". Das sind die Übersichtsseiten, die im Grunde nur aus Links zu den "eigentlichen" bzw. wichtigen Unterseiten bestehen. Sie möchten nicht, dass die Kategorienseite hoch positioniert wird, sondern die Unterseite selbst (also z.B. die Produktdetailseite). Diese "Verbindungsseiten" haben aus Sicht der Suchmaschinenoptimierung keinen Wert, sind jedoch essentiell für die Indizierung. Wenn Sie viele solcher Verbindungsseiten haben, dann müssen Sie darauf achten, dass Sie nicht nur Links auf die Startseite, sondern auch auf die Verbindungsseiten sowie auf die einzelnen Detailseiten setzen.

Definition des Problems

Zusammenfassend können wir also von zwei Problemen ausgehen: Damit große Websites mit vielen Unterseiten vollständig indiziert werden, brauchen wir:

  1. Eine gute Seitenstruktur, d.h. die richtige Anzahl an Verbindungsseiten, die alle Detailseiten mit so wenig Klicks wie möglich erschließen.

  2. Jede Menge Links - interne, vor allem aber qualitativ hochwertige externe Links zu den wichtigsten Schnittpunkten der Website.

Eine gute Seitenstruktur zu erstellen, haben wir selbst in der Hand - das ist einfach. Das eigentliche Problem ist, jede Menge externe Links auf unsere Detailseiten zu bekommen, sogenannte "Deeplinks". Denn nichts hilft so effektiv bei der Indizierung wie ein paar wohl platzierte Deeplinks.

Nur: Wer verlinkt schon auf Detailseiten eines Online-Shops oder gar auf dessen Verbindungsseiten? Das beste Mittel zur lückenlosen Indizierung ist eine massive Herausforderung, weil wir dabei auf andere Webmaster angewiesen sind. Die haben jedoch oft keine Motivation, uns dabei zu unterstützen. Was andere nicht für uns machen, das müssen wir selbst in die Hand nehmen.

Beitrag bewerten

Ihre Wertung:

 

Mitglied werden, Vorteile nutzen!

  • Sie können alles lesen und herunterladen: Beiträge, PDF-Dateien und Zusatzdateien (Checklisten, Vorlagen, Musterbriefe, Excel-Rechner u.v.a.m.)
  • Unsere Autoren beantworten Ihre Fragen

Downloads zu diesem Beitrag

Newsletter abonnieren