blogoscoop

Wordpress SEO: robots.txt

Heute habe ich mich ein wenig mit Suchmaschinenoptimierung beschäftigt und festgestellt, dass Google doch sehr viel doppelten Content aus diesem Blog indexiert. Doppelter Content ist von Google nicht so gerne gesehen und kann zu einer schlechteren Plazierung in den Suchergebnissen führen. Deshalb sollte man dem Googlebot mitteilen, was er indizieren darf und was nicht.

Um das zu ermöglichen, gibt es den Robots Exclusion Standard. Nach diesem Standard muß man eine Textdatei mit dem Namen robots.txt erstellen und diese im Stammverzeichnis der Domain plazieren, so daß Robots sie finden. Die Suchpfade sehen dann z.B. so aus:

http://www.beispiel.de/robots.txt

http://download.beispiel.de/robots.txt

http://beispiel.de:8080/robots.txt

Nun habe ich mir die Ordnerstruktur meines Wordpress-Blogs angesehen, und dabei eine robots.txt erstellt, die für alle Wordpress Blogs recht nützlich sein sollte.

Zuerst teilen wir allen Robots mit, wo sich die Datei sitemap.xml befindet und verbieten die Indexierung der Wordpress-Verzeichnisse und der Trackback-Links.

User-agent: *
Sitemap: http://www.[url].de/sitemap.xml
 
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/

Dem Googlebot verbieten wir die Indexierung aller PHP und sonstigen Dateien sowie des kompletten wp-content Verzeichnisses, bis auf den darin enthaltenen Order uploads.
Außerdem verbieten wir die Indexierung der Seiten für die Kategorien und Tags des Blogs, da sich darin der doppelte Content befindet.

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /category/
Disallow: /tag/
Disallow: /wp-*
Allow: /wp-content/uploads/

Dem Googlebot für die Bildersuche geben wir vollen Zugriff auf alle Verzeichnisse:

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

Der AdSense-Bot darf ebenfalls die gesamte Seite bis auf wp-admin und wp-includes indexieren:

# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$

Anschliessend verbieten wir noch die Archivierung des Blogs:

# disallow archiving site
User-agent: ia_archiver
Disallow: /
 
# disable duggmirror
User-agent: duggmirror
Disallow: /

Herausgekommen ist nun eine für Wordpress-Blogs optimierte robots.txt:

User-agent: *
Sitemap: http://www.[url].de/sitemap.xml
 
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/
 
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /category/
Disallow: /tag/
Disallow: /wp-*
Allow: /wp-content/uploads/
 
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
 
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$
 
# disallow archiving site
User-agent: ia_archiver
Disallow: /
 
# disable duggmirror
User-agent: duggmirror
Disallow: /

Diese Datei sollte man noch an die eigenen Bedürfnisse anpassen und um die Einträge der Verzeichnisse der installierten Plugins erweitern. Zum Beispiel:

Flickr Photo Album

Disallow: /photos/tags/
Disallow: /photos/photo/

WP Super Cache

Disallow: /wp-content/cache/
Disallow: /wp-content/advanced-cache.php/

Bei Fehlern, Kritik und Verbesserungsvorschlägen freue ich mich über Anmerkungen in den Kommentaren. Aber nun heißt es erstmal abwarten auf Pagerank 10.

http://www.ni-c.de/wp-content/plugins/downloads-manager/img/icons/winzip.gif download: lastgraph.zip (2.96MB)
added: 26/05/2009
clicks: 253
description: My last.fm History

Related Posts

5 Comments »

  1. [...] Zuge der Suchmaschinenoptimierung dieses Blogs bin ich auf eine weitere leichte Möglichkeit der Optimierung gestoßen: Durch [...]

    Pingback by Wordpress Metatag SEO — November 9, 2008 #

  2. Sehr schön, da ich leider sehr viel Doppelten Content habe ist es genau das was ich suche. Vielen Dank für den ausführlcihen Tipp. Mal sehen ob ich damit meinen Doppelten Content wieder los bekomme ;-)
    Viele Grüße
    Thomas

    Comment by hombertho — February 26, 2009 #

  3. Interessanter Artikel!

    Comment by Hamburger — May 15, 2009 #

  4. Ein echt interessanter Artikel den ich noch ein bisschen erweitert habe.

    Comment by Mirco — May 23, 2009 #

  5. hey this is a very interesting article!

    Comment by KeHoeff — May 29, 2009 #

Leave a comment

Entries RSS | Comments RSS | Activities RSS | Site Admin

34 queries | 7.626 seconds