öffentlich
Redaktion Druckversion

Suchmaschinenoptimierung und Content Management Systeme (CMS)

4.583335
(12)
Beitrag bewerten
Kommentar schreiben
Stand: 21. Januar 2009

Kein Duplicate Content

Duplicate Content verhindern: Textdoubletten-Prävention

Allgemeine Prinzipien zur Verhinderung doppelter Inhalte

Interner Duplicate Content sollte von vornherein verhindert werden. Die Lösung des Problems lässt sich auf ein allgemeines Prinzip für das Content Management zurückführen: Alle Inhalte sind einzigartig.

Die goldene Regel lautet also: Jedes Stück Inhalt existiert genau einmal unter einer Adresse. Das muss auch für Auszüge von Inhalten gelten, wie beliebige Textschnipsel, die Sie zum Beispiel auf der Startseite oder auf Kategorieübersichtsseiten als Anreißer hinterlegen.

Da es unmöglich ist, alle Auswüchse von Fehlern, die DC erzeugen, zu dokumentieren, will ich mich hier mal auf einige Beispiele beschränken. Als Entwickler müssen Sie sich immer fragen: "Wenn ich dieses Feature implementiere, kann es sein, dass der Inhalt, der an dieser Stelle eingegeben wird, irgendwie an einer anderen Stelle auftaucht, sodass ihn die Suchmaschine mehr als einmal sieht?"

Typische Fehler, die Duplikate verursachen

  • Textausschnitte, Teaser und Anreißer auf der Startseite. Verwenden Sie dafür ein Extrafeld oder zwei.

  • Textausschnitte auf Kategorieseiten. Setzen Sie Kategorieseiten auf NoIndex,Follow (die Links sollen verfolgt werden!).

  • Navigation sowohl über Kategorieseiten als auch mit einem Tagging-System. Verwenden Sie nur ein System von beiden oder sperren Sie das zweite mit NoIndex, Nofollow für die Suchmaschinen.

  • Seite-1-Problem bei Links, mit denen man durch Archive oder Kategorieseiten blättern kann. Dort hat die erste Seite oft eine URL wie: http://website.xy/kategorie/12/angeln/. Wenn man auf die zweite Seite geht, lautet die URL http://website.xy/kategorie/12/angeln/seite/2/ und zurück auf die erste Seite kommt man mit http://website.xy/kategorie/12/angeln/seite/1. Damit gibt es die erste Seite der Übersicht unter zwei URLs und das ist schlecht.

... und so weiter - Sie sehen, das Problem ist immer das Gleiche: Das System macht irgendetwas "falsch" und deshalb taucht ein und derselbe Inhalt unter mehr als einer URL auf. Genau das darf eben nicht passieren.

für Programmierer

Lassen Sie etwas Vorsicht walten. Es ist mit ein wenig Aufwand verbunden, sicherzustellen, dass die "Seite 1" nur eine mögliche URL haben kann:

[phpcode]
seitenurl = "http://website.xy/kategorie/$id/$name/";
if ($seite > 1) seitenurl .= "seite/$seitennummer/";
# Also nur wenn die Seitenanzahl größer als 1 ist, wird etwas angehangen. 
# Sonst bleibt es bei einen festen URL
[/phpcode] 

Ich kann gar nicht genug betonen, wie entscheidend das ist. Links auf Kategorieseiten sind mit das wichtigste Instrument, um bessere Rankings für Kategoriebegriffe zu erzielen (Markenbegriffe wie "Adidas Fußballschuhe", Produktgruppen wie "Flachbildfernseher" oder inhaltliche Kategorien wie "Nachrichten Devisenhandel"). Sie sorgen auch dafür, dass Unterseiten überhaupt erst eingelesen werden.

Zudem sind Links auf Kategorieseiten selten, man sollte sie nicht verschenken! Wie oft wird schon freiwillig auf Kategorieseiten verlinkt? Wenn es doch passiert, dann nicht mit der Haupt-URL, oder wenn es sogar zwei Links gibt, die aber auf zwei unterschiedliche URLs zeigen, dann ist so etwas einfach "tragisch". So etwas treibt selbst gestandenen SEOs die Tränen in die Augen. Vor allem, wenn es nur an einer fehlenden Funktion des CMS liegt, die sich oft mit einer Zeile zusätzlicher Programmierung beheben lässt. Ein solches Problem begegnet mir jedoch fast bei jedem einzelnen Kunden, für den ich eine Fehleranalyse mache.

Anreißerseiten/Teaser-Seiten

Ein besonderes Augenmerk möchte ich den Anreißerseiten widmen. Was sind Anreißer? Anreißer sind einfach Textschnipsel oder Teaser z. B. von einer Nachricht, einem Artikel oder einer Produktbeschreibung. Fast jede Website hat sie.

Unten sehen Sie ein Beispiel von spiegel.de (Fotos wurden aus Copyright-Gründen entfernt). Auf der linken Seite des Bildes sehen Sie die Kategorieseite "Sport", auf der die Anreißer untereinander angeordnet sind. Mit Klick auf die Überschrift oder den "Mehr-Link" kommt man auf den vollen Beitrag (rechte Seite). Der Anreißer-Text auf der Kategorieseite ist identisch mit dem ersten Paragrafen auf dem Vollbeitrag.

Bild vergrößernDer Artikelanfang liefert den Anreißer - so ergibt sich duplizierter Inhalt

Hier haben wir ihn wieder, den klassischen internen Duplicate Content. Das alles wäre aus Sicht der Suchmaschinenoptimierung nicht weiter problematisch, wenn diese Übersichtseite automatisch mit dem Hinweis versehen würde, dass sie nicht indiziert werden soll. Das ist sie aber nicht: Im HTML-Dokument steht der Meta-Tag "robots" mit dem Wert "index, follow, noarchive".

Die Konsequenzen reichen von "keine" bis "schlimm". Man kann es prüfen, indem man nach verschiedenen Begriffskombinationen sucht, die in diesem duplizierten Text vorkommen. Mein Test ergab, dass diese und ähnliche Seiten für enthaltende Begriffe entweder kein Ranking erhalten oder erst weit abgeschlagen.

Dummerweise liegt die Entscheidung, ob und wie der gefundene Text gerankt werden soll, bei Google. Die Suchmaschine sieht ein Duplikat und muss entscheiden, ob es ausgefiltert werden soll oder nicht. Diese Entscheidung sollten wir fällen, indem wir der Suchmaschine mitteilen "Hier auf dieser Seite findest du nur wiederverwertete Textschnipsel. Du sollst diesen Text nicht einlesen. Aber bitte verfolge den Link, denn dahinter befindet sich der eigentliche Text, den du auch bitte ranken solltest."

Diese Anweisung geben wir mit dem Meta-Tag <meta content="noindex, follow, noarchive" name="robots"/>. Das CMS sollte es möglich oder konfigurierbar machen, diese Entscheidung für Google zu treffen. Es gibt verschiedene Fälle, die zu berücksichtigen sind:

  • Fall 1: Wenn das CMS Übersichtsseiten mit Links und duplizierten Anreißern generiert (wie im spiegel.de-Beispiel): "noindex, follow".

  • Fall 2: Wenn das CMS Übersichtsseiten mit Links, aber ohne Anreißer generiert, also ganz ohne Text: ebenfalls "noindex, follow".

  • Fall 3: Das CMS bietet die Möglichkeit, einen anderen Anreißertext zu schreiben. Es wird also nicht automatisch der erste Paragraf verwendet, sondern es existiert ein eigenes Feld für den Anreißer. Das ist dann zwar mehr Arbeit für die Autoren, es steigert aber auch die Wahrscheinlichkeit, dass die Übersichtsseite an sich besser gerankt wird, denn diese hat dann schließlich einzigartige Texte, die auch über "index, follow" indiziert werden sollten.

  • Für Fall 1-2 gilt die Ausnahme: Falls sich auf den Übersichtsseiten neben den Links auch noch einzigartiger Zusatzinhalt befindet, dann "index, follow" - idealerweise kombiniert mit einer Technik, die der Suchmaschine die "Anreißer-Schnipsel" vorenthält (sie z.B. per JavaScript oder iFrames anzeigt etc).

  • Ähnliches gilt für den Spezialfall Startseite: Auch die Startseite ist oft eine Anreißerseite. Auf ihr befindet sich oft eine Mischung von Anreißern und Links plus einem Begrüßungstext oder ähnliches.

Wichtig ist vor allem, dass Sie das dahinterstehende Prinzip verstehen: Alle Inhalte (ganze Seiten und Auszüge) sind einzigartig. Jeder Schnipsel Text will sein eigenes Zuhause haben. Und wenn ich als Suchender eine Begriffskombination aus diesem Text in eine Suchmaschine eingebe, dann soll ich genau "eine" Fundstelle erhalten.

Aus Sicht der Suchmaschinen grenzt alles andere an Manipulation, auch wenn diese vielleicht ungewollt ist. Die Suchmaschinen müssen deshalb Entscheidungen über Ihre Website treffen, die zu einer Abwertung führen können. Nehmen Sie diese Entscheidungen selbst in der Hand. Mit genügender Sorgfalt ist das alles kein Problem.

Mitglied werden, Vorteile nutzen!

  • Sie können alles lesen und herunterladen: Beiträge, PDF-Dateien und Zusatzdateien (Checklisten, Vorlagen, Musterbriefe, Excel-Rechner u.v.a.m.)
  • Unsere Autoren beantworten Ihre Fragen

Downloads zu diesem Beitrag

Über den Autor:

bild117266

Saša Ebach ist freier Suchmaschinenoptimierer und Webentwickler mit der festen Meinung, dass Suchmaschinenoptimierung nicht "nachträglich" in eine Webanwendung eingebaut werden darf. In seiner Video-S ...

Newsletter abonnieren