Weitere Artikel aus dem Webentwickler Blog
SEO - Suchmaschinen - Technik

 

Suchmaschinen - Robots

Allen Suchmaschinen gemein ist die Einhaltung eines speziellen Verhaltenskodex: Wenn im Hauptverzeichnis unter der Domain eine Datei mit dem Namen robots.txt steht, wird auch diese eingelesen und analysiert.

 

Bei der robots.txt handelt es sich um eine gewöhnliche Textdatei, über die beliebige Bereiche der Website für den Indexierungsvorgang der Suchmaschine ausgeschlossen werden können. Wie wir später sehen, kann dies nicht nur im Rahmen einer Suchmaschinenoptimierung, sondern auch aus Gründen der Datensicherheit oder aber auch zur Reduktion starken Datenverkehrs, der durch die Besuche der Suchmaschinen entstehen kann, erforderlich werden.

 

Insbesondere größere Internet-Präsenzen mit permanent wechselnden Inhalten gehören zu ständigen Robot-Gastgebern. Die Kommandos zur Definition der Einschränkungen sind recht simpel und in der Regel an den User-Agent des Aufrufers geknüpft, wie Sie dem folgenden Beispiel entnehmen können:

 

User-agent: *

Disallow: /temp/

 

Zunächst wird der User-Agent festgelegt, für den der anschließend definierte Ausschluss gelten soll. In unserem Beispiel wird über den Stern (*) allen Suchmaschinen die Indexierung des Verzeichnisses temp untersagt.

 

Würden Sie eine spezielle Suchmaschine ausgrenzen wollen, könnten Sie das durch die konkrete Angabe des User-Agents bewerkstelligen. Im Folgenden finden Sie deshalb die User-Agents der wichtigsten Suchmaschinen:

 

SuchmaschineUser-Agent
Google

Googlebot

Googlebot-Image
Googlebot-Mobile

Yahoo!Slurp
Bingmsnbot/2.0b

 

Sollte beispielsweise »Slurp« Ihren Server so oft besuchen, dass er bereits erste Leistungsschwächen zeigt, können Sie über die robots.txt auch die Indexierungsgeschwindigkeit drosseln:

 

User-agent:Slurp
Crawl-delay: 5

 

Für gewöhnlich treten Crawler unter ihren User-Agent-Namen in Erscheinung, die beispielsweise auch in den Server-Logfiles zu finden sind. Es ist allerdings anzunehmen, dass nicht ausschließlich so verfahren wird: Da der User-Agent ja über den Header übertragen wird, wäre es also möglich, ihn auszulesen und der Suchmaschine eine andere Website zu präsentieren als dem menschlichen Besucher.

 

In einem solchen Fall spricht man von Cloaking (dazu ebenfalls später mehr). Im Sinne des hohen Qualitätsanspruches werden sicherlich einige Robot-Besuche auch unter der Kennung eines regulären Browsers getätigt. Die Regeln, die durch die robots.txt vorgegeben werden, hält die Suchmaschine nach außen hin aber in jedem Fall ein. Eine Liste aktueller User-Agents finden Sie unter www.user-agents.org/.

 

 

 

Die passende Ergänzung zu diesem Artikel:
 Suchmaschinenoptimierung & Usability - 2. Auflage
Suchmaschinenoptimierung & Usability - 2. Auflage

Produktart: Buch. 526 Seiten, Softcover, CD-ROM
ISBN 978-3-645-60105-4
Versandkostenfrei* direkt beim Verlag bestellen

39,95 €

 


Kundenkommentare
Social Bookmarks
elo-web bookmarken bei: Mr. Wong elo-web bookmarken bei: Webnews elo-web bookmarken bei: Icio elo-web bookmarken bei: Oneview elo-web bookmarken bei: Yigg elo-web bookmarken bei: Linkarena elo-web bookmarken bei: Digg elo-web bookmarken bei: Reddit elo-web bookmarken bei: Simpy elo-web bookmarken bei: StumbleUpon elo-web bookmarken bei: Netscape elo-web bookmarken bei: Furl elo-web bookmarken bei: Yahoo elo-web bookmarken bei: Blogmarks elo-web bookmarken bei: Diigo elo-web bookmarken bei: Technorati elo-web bookmarken bei: Newsvine elo-web bookmarken bei: Blinkbits elo-web bookmarken bei: Ma.Gnolia elo-web bookmarken bei: Smarking elo-web bookmarken bei: Netvouz elo-web bookmarken bei: Folkd elo-web bookmarken bei: Spurl elo-web bookmarken bei: Google elo-web bookmarken bei: Blinklist
URL zu dieser Seite
Einfach den Quelltext kopieren und auf Ihrer Webseite einbinden

Kontakt
Newsletter | Kontakt | RSS Feed
Warenkorb: 0 Artikel
Gesamtwert: EUR 0,00
Home SEO & Webmarketing  Suchmaschinen - Robots