Disallow und / oder noindex? Hält doppelt wirklich besser?

noindex oder nofollowIch stoße immer mal wieder auf das Thema „noindex“ oder „disallow in der robots.txt“. Grundsätzlich geht es immer darum, Seiten aus dem Google-Index zu halten, also entweder gar nicht crawlen lassen oder – falls die Seiten schon im Index sind – Seiten aus dem Index entfernen.

Was macht Disallow?

Disallow wird in der robots.txt eingetragen und dient zur Steuerung der Crawler. Sie sagt diesen genau, wo Inhalte zu finden sind bzw. was der Crawler nicht crawlen soll. So können Seitenbereiche, die z.B. für Suchmaschinen irrelevante Informationen enthalten von Crawling ausgenommen werden (z.B. unnötige Bilderverzeichnisse oder Seiten, die für Suchmaschinen irrelevante oder gar gleiche Inhalte besitzen (Stichwort: Duplicate Content)).

Bsp:

Disallow: /thumbnails/

Die weitverbreitete Meinung ist nun, dass Seiten, die über „disallow“ in der robots.txt gesperrt sind, nicht im Index landen können. DAS IST FALSCH!
Historisch gesehen war der Zweck der robots.txt, den Suchmaschinen-Crawler von den Bereichen einer Website fern zu halten, die eine besonders hohe Serverlast erzeugten. Der Nebeneffekt war, daß die per robots.txt “geschützten” URLs nicht in den Index gelangten.
Inzwischen besitzen Links aber eine hohe Bedeutzung. Das führt dazu, dass bereits ein einziger Link auf eine Seite eines per disallow „geschützten“ Verzeichnisses ausreicht, um die Seite in den Index zu bringen. Zwar wird der Bot diese Seite(n) nicht crawlen, aber die URL und der Anchor-Text des Links sind bekannt – und damit im Index der Suchmaschine.

Also lieber noindex in den Metatags?

Das „noindex“-Tag verbietet den Crawlern, die Seite in den Index aufzunehmen. Noindex wird z.B. für Seiten verwendet, die aus rechlichen Gründen nicht in den Index sollen, oder auch Seiten, die aus SEO-Gründen gesperrt werden sollten, wie z.B. Suchergebnis- oder Filterseiten.

Bsp:

<meta name="robots" content="noindex">

Eine Variante davon ist, den Tag durch „follow“ zu ergänzen. Das bewirkt, dass zwar die jeweilige Seite nicht indiziert wird, der Bot aber den Links auf der Seite zu anderen Seitenbereichen folgt, und diese dann indizieren kann.

Bsp:

<meta name="robots" content="noindex,follow">

Möchte ich ausdrücklich NICHT, dass der Bot den Links auf einer gesperrten Seite folgt, kann ich ihm das ebenfalls mitteilen:

<meta name="robots" content="noindex,nofollow">

Auch wenn diese Angaben ebenfalls nur als Empfehlung an die Bots dienen, werden sie im Regelfall doch zuverlässig beachtet.

[Tweet „In zweifelhaften Fällen entscheide man sich für das Richtige – Karl Kraus“]

Disallow + Noindex = doppelt sicher?

Wenn man nun weiß, wie disallow und noindex funktionieren könnte man auf die Idee kommen, beides einzusetzen, um die Anweisungen besonders sicher zu machen. Aber dem ist leider nicht so! Warum? Nun – ganz einfach: Wenn ihr eine Seite nicht im Index haben wollt, tragt ihr dort einen robots-Metatag mit „noindex“ ein. Findet nun ein Bot einen Link zu dieser Seite, liest er den Anchor-Text des Links auf, nimmt die Seite in den Index und crawlt sie – NICHT! Denn das Crawling der Seite wird ja durch das „disallow“ in der robots.txt verboten. Und damit wird der Bot nie das „noindex“ auf der Seite finden – und damit ist die Seite im Index 🙂

Hier nochmals kurz die Regeln:

Ein „disallow“ in der robots.txt ist überall dort sinnvoll, wo wir verhindern wollen, dass ein Crawler auf bestimmte Seitenbereiche und URLs zugreift und dort unnötige Ressourcen vergeudet, die wir gerne auf andere Seitenbereiche lenken möchten. Dennoch können URLs der über „disallow“ vom Crawling ausgenommene Seiten im Index landen.

Das „noindex„-Metatag wird dann verwendet, wenn ihr nicht möchtet, dass bestimmte Seiten im Index auftauchen. Damit der Bot dieses Tag aber finden und beachten kann, muss ihm der Zugriff auf die Seite erlaubt sein.

2017-08-18T14:50:40+00:00 SEO|0 Kommentare

Hinterlasse einen Kommentar