PageRank, robots.txt, Google Index
PageRank | Gespeicherte Seiten der Website im Google-Index | Die robots.txt-Datei
PageRank
Der PageRank bezieht sich laut Google auf die Einstufung der Wichtigkeit einer Webseite: "PageRank nimmt eine objektive Bewertung der Wichtigkeit von Webseiten vor." Mehr zu dieser Technologie ist unter www.google.at/intl/de/corporate/tech.html
zu finden. Der PageRank fließt als eine Variable von hunderten in den ausgefeilten Google-Algorithmus mit ein, mit dem die wichtigsten und relevantesten Suchergebnisse präsentiert werden. Dieser Wert kann zwischen 0 (sehr niedrig) und 10 (sehr hoch) liegen.
Erfahrungsgemäß spidert Google Websites mit einem hohen PageRank öfter und geht dabei auch mehr in die Tiefe der Präsenz. Außerdem gilt ein hoher PageRank als stabilisierend für die jeweilige Position von Keywords in den Suchmaschinen.
Anmerkung: PageRank
Zu beachten ist, dass der angezeigte PageRank in der Google-Toolbar jedoch lediglich ein Richtwert ist und niemals der tatsächliche, da diese Anzeige nur alle zwei bis fünf Monate upgedated wird.
Akademie-Autor Sasa Ebach hält es übrigens für einen Irrtum, dass der Google PageRank ein echter Maßstab sei: Vergessen Sie den PageRank.
Gespeicherte Seiten der Website im Google-Index
Um in einer großen Datensammlung wie dem World
Wide Web schnell auf Daten zugreifen zu können,
wird ein Index genutzt. Bei einer Suchmaschine
stellt der Index ihren kompletten Datenbestand
dar. Der Webcrawler von Google, "Googlebot"
genannt, hat vor kurzer Zeit die billionste URL
gefunden (Quelle: googleblog.blogspot.com/2008/07/we-knew-web
-was-big.html
). Die Aufnahme von neuen URLs in den
Index wird als Indizierung bezeichnet.
Mittels der "site:"-Abfrage können Sie
feststellen, wie viele URLs Ihrer Domain im
Google-Index enthalten sind.
site:spiegel.de
Sollten nicht alle Seiten indiziert sein, liegt dies häufig an der Seitenstruktur und/oder an in Navigationspunkten eingefügten Javascripts, was das Crawlen der Website erheblich erschweren bzw. unmöglich macht, da Suchmaschinen keine Javascripts ausführen.
Zudem sollten Sie Ihre sogenannte "robots.txt-Datei" überprüfen:
Die robots.txt-Datei
In der robots.txt-Datei werden die Zugriffsrechte der Webcrawler bestimmt, also festgelegt, welche Crawler welche Bereiche (Verzeichnisse und Dateien) der Website durchsuchen dürfen. Eine ggf. bereits vorhandene robots.txt-Datei, die sich immer im Root-Verzeichnis (Stammverzeichnis, http://www.nureinbeispiel.com/robots.txt) der Website befindet, sollte auf ihre Richtigkeit überprüft werden.
Tipp:
Ein robots.txt-Syntaxchecker ist unter www.sxw.org.uk/computing/robots/check.html
zu finden. Im Textfeld (Site) dieses Online-Tools gibt man die gewünschte Domain ein und klickt anschließend auf "Submit this site's robots.txt file for checking", um zur Ergebnisseite zu gelangen.
Zudem sollte ermittelt werden, ob diese Datei die jeweiligen Crawler nicht versehentlich abweist und ob alle gewünschten Verzeichnisse und Dateien zugänglich sind. Die folgenden Zeilen in einer robots.txt-Datei würden z. B. jedem Crawler das Crawlen der kompletten Website verbieten:
User-agent: *
Disallow: /
Anmerkung:
Google hat ein neues robots.txt-Feature eingeführt, mit dem man direkt in der robots.txt die genaue URL einer etwaigen Sitemap hinzufügen kann:
Sitemap: http://www.nureinbeispiel.com/sitemap.xml
Das ist eine Leseprobe
Tipp: Möchten Sie den gesamten Beitrag lesen?
Als Probemitglied haben Sie Zugriff auf über 99% unserer mehr als 430 Info-Pakete und Tausende von Artikeln bei akademie - und das ohne finanzielles Risiko: Sie können während der ersten zwei Wochen jederzeit kostenlos stornieren!
Mit der Blitz-Anmeldung Sie in drei Minuten "drin"!
Dabei bleibt alles kostenlos für Sie, wenn Sie in 14 Tagen Probezeit
stornieren (Email genügt). Alle weiteren Informationen finden Sie auf
unserer Infoseite zur Mitgliedschaft und in unseren AGB.
Funktionen für diese Seite: Druckversion, empfehlen, Feedback etc.
Copyright: akademie.de 2010