öffentlich
Redaktion Druckversion

Suchmaschinenoptimierung

4.42857
(7)
Beitrag bewerten
Kommentar schreiben
Stand: 11. August 2008

Analyse

PageRank, robots.txt, Google Index

PageRank

Der PageRank bezieht sich laut Google auf die Einstufung der Wichtigkeit einer Webseite: "PageRank nimmt eine objektive Bewertung der Wichtigkeit von Webseiten vor." Mehr zu dieser Technologie ist unter www.google.at/intl/de/corporate/tech.html zu finden. Der PageRank fließt als eine Variable von hunderten in den ausgefeilten Google-Algorithmus mit ein, mit dem die wichtigsten und relevantesten Suchergebnisse präsentiert werden. Dieser Wert kann zwischen 0 (sehr niedrig) und 10 (sehr hoch) liegen.

Bild vergrößernPageRank von akademie.de

Erfahrungsgemäß spidert Google Websites mit einem hohen PageRank öfter und geht dabei auch mehr in die Tiefe der Präsenz. Außerdem gilt ein hoher PageRank als stabilisierend für die jeweilige Position von Keywords in den Suchmaschinen.

PageRank

Zu beachten ist, dass der angezeigte PageRank in der Google-Toolbar jedoch lediglich ein Richtwert ist und niemals der tatsächliche, da diese Anzeige nur alle zwei bis fünf Monate upgedated wird.

Akademie-Autor Sasa Ebach hält es übrigens für einen Irrtum, dass der Google PageRank ein echter Maßstab sei: Vergessen Sie den PageRank.

Gespeicherte Seiten der Website im Google-Index

Um in einer großen Datensammlung wie dem World Wide Web schnell auf Daten zugreifen zu können, wird ein Index genutzt. Bei einer Suchmaschine stellt der Index ihren kompletten Datenbestand dar. Der Webcrawler von Google, "Googlebot" genannt, hat vor kurzer Zeit die billionste URL gefunden (Quelle: googleblog.blogspot.com/2008/07/we-knew-web -was-big.html). Die Aufnahme von neuen URLs in den Index wird als Indizierung bezeichnet.

Mittels der "site:"-Abfrage können Sie feststellen, wie viele URLs Ihrer Domain im Google-Index enthalten sind.

site:spiegel.de

Abfrage der gespeicherten Seiten im Google-Index

Sollten nicht alle Seiten indiziert sein, liegt dies häufig an der Seitenstruktur und/oder an in Navigationspunkten eingefügten Javascripts, was das Crawlen der Website erheblich erschweren bzw. unmöglich macht, da Suchmaschinen keine Javascripts ausführen.

Zudem sollten Sie Ihre sogenannte "robots.txt-Datei" überprüfen:

Die robots.txt-Datei

In der robots.txt-Datei werden die Zugriffsrechte der Webcrawler bestimmt, also festgelegt, welche Crawler welche Bereiche (Verzeichnisse und Dateien) der Website durchsuchen dürfen. Eine ggf. bereits vorhandene robots.txt-Datei, die sich immer im Root-Verzeichnis (Stammverzeichnis, http://www.nureinbeispiel.com/robots.txt) der Website befindet, sollte auf ihre Richtigkeit überprüft werden.

Ein robots.txt-Syntaxchecker ist unter www.sxw.org.uk/computing/robots/check.html zu finden. Im Textfeld (Site) dieses Online-Tools gibt man die gewünschte Domain ein und klickt anschließend auf "Submit this site's robots.txt file for checking", um zur Ergebnisseite zu gelangen.

Zudem sollte ermittelt werden, ob diese Datei die jeweiligen Crawler nicht versehentlich abweist und ob alle gewünschten Verzeichnisse und Dateien zugänglich sind. Die folgenden Zeilen in einer robots.txt-Datei würden z. B. jedem Crawler das Crawlen der kompletten Website verbieten:

User-agent: *

Disallow: /

Google hat ein neues robots.txt-Feature eingeführt, mit dem man direkt in der robots.txt die genaue URL einer etwaigen Sitemap hinzufügen kann:

Sitemap: http://www.nureinbeispiel.com/sitemap.xml

Mitglied werden, Vorteile nutzen!

  • Sie können alles lesen und herunterladen: Beiträge, PDF-Dateien und Zusatzdateien (Checklisten, Vorlagen, Musterbriefe, Excel-Rechner u.v.a.m.)
  • Unsere Autoren beantworten Ihre Fragen

Inhalt

Downloads zu diesem Beitrag

Über den Autor:

bild80522

Rainer Lemmerer arbeitet seit acht Jahren professionell im EDV-Umfeld. Vor fünf Jahren hat er sich auf den Bereich Suchmaschinen-Optimierung und Online-Marketing spezialisiert.

Bei "Geomix" ist er fü ...

Newsletter abonnieren