Wordpress SEO: robots.txt
Posted by ni.c - 08/11/08 at 7:56 pmHeute habe ich mich ein wenig mit Suchmaschinenoptimierung beschäftigt und festgestellt, dass Google doch sehr viel doppelten Content aus diesem Blog indexiert. Doppelter Content ist von Google nicht so gerne gesehen und kann zu einer schlechteren Plazierung in den Suchergebnissen führen. Deshalb sollte man dem Googlebot mitteilen, was er indizieren darf und was nicht.
Um das zu ermöglichen, gibt es den Robots Exclusion Standard. Nach diesem Standard muß man eine Textdatei mit dem Namen robots.txt erstellen und diese im Stammverzeichnis der Domain plazieren, so daß Robots sie finden. Die Suchpfade sehen dann z.B. so aus:
http://www.beispiel.de/robots.txt
http://download.beispiel.de/robots.txt
http://beispiel.de:8080/robots.txt
Nun habe ich mir die Ordnerstruktur meines Wordpress-Blogs angesehen, und dabei eine robots.txt erstellt, die für alle Wordpress Blogs recht nützlich sein sollte.
Zuerst teilen wir allen Robots mit, wo sich die Datei sitemap.xml befindet und verbieten die Indexierung der Wordpress-Verzeichnisse und der Trackback-Links.
User-agent: * Sitemap: http://www.[url].de/sitemap.xml # disallow all files in these directories Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/themes/ Disallow: /wp-content/plugins/ Disallow: /trackback/ Disallow: /*?* Disallow: */trackback/
Dem Googlebot verbieten wir die Indexierung aller PHP und sonstigen Dateien sowie des kompletten wp-content Verzeichnisses, bis auf den darin enthaltenen Order uploads.
Außerdem verbieten wir die Indexierung der Seiten für die Kategorien und Tags des Blogs, da sich darin der doppelte Content befindet.
User-agent: Googlebot # disallow all files ending with these extensions Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.cgi$ Disallow: /*.wmv$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /*.jpg$ Disallow: /*.cgi$ Disallow: /*.xhtml$ Disallow: /*.php* Disallow: */trackback* Disallow: /*?* Disallow: /category/ Disallow: /tag/ Disallow: /wp-* Allow: /wp-content/uploads/
Dem Googlebot für die Bildersuche geben wir vollen Zugriff auf alle Verzeichnisse:
# allow google image bot to search all images User-agent: Googlebot-Image Allow: /*
Der AdSense-Bot darf ebenfalls die gesamte Seite bis auf wp-admin und wp-includes indexieren:
# allow adsense bot on entire site User-agent: Mediapartners-Google* Disallow: /*?* Allow: /wp-content/ Allow: /tag/ Allow: /category/ Allow: /*.php$ Allow: /*.js$ Allow: /*.inc$ Allow: /*.css$ Allow: /*.gz$ Allow: /*.cgi$ Allow: /*.wmv$ Allow: /*.cgi$ Allow: /*.xhtml$ Allow: /*.php* Allow: /*.gif$ Allow: /*.jpg$ Allow: /*.png$
Anschliessend verbieten wir noch die Archivierung des Blogs:
# disallow archiving site User-agent: ia_archiver Disallow: / # disable duggmirror User-agent: duggmirror Disallow: /
Herausgekommen ist nun eine für Wordpress-Blogs optimierte robots.txt:
User-agent: * Sitemap: http://www.[url].de/sitemap.xml # disallow all files in these directories Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/themes/ Disallow: /wp-content/plugins/ Disallow: /trackback/ Disallow: /*?* Disallow: */trackback/ User-agent: Googlebot # disallow all files ending with these extensions Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.cgi$ Disallow: /*.wmv$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /*.jpg$ Disallow: /*.cgi$ Disallow: /*.xhtml$ Disallow: /*.php* Disallow: */trackback* Disallow: /*?* Disallow: /category/ Disallow: /tag/ Disallow: /wp-* Allow: /wp-content/uploads/ # allow google image bot to search all images User-agent: Googlebot-Image Allow: /* # allow adsense bot on entire site User-agent: Mediapartners-Google* Disallow: /*?* Allow: /wp-content/ Allow: /tag/ Allow: /category/ Allow: /*.php$ Allow: /*.js$ Allow: /*.inc$ Allow: /*.css$ Allow: /*.gz$ Allow: /*.cgi$ Allow: /*.wmv$ Allow: /*.cgi$ Allow: /*.xhtml$ Allow: /*.php* Allow: /*.gif$ Allow: /*.jpg$ Allow: /*.png$ # disallow archiving site User-agent: ia_archiver Disallow: / # disable duggmirror User-agent: duggmirror Disallow: /
Diese Datei sollte man noch an die eigenen Bedürfnisse anpassen und um die Einträge der Verzeichnisse der installierten Plugins erweitern. Zum Beispiel:
Disallow: /photos/tags/ Disallow: /photos/photo/
Disallow: /wp-content/cache/ Disallow: /wp-content/advanced-cache.php/
Bei Fehlern, Kritik und Verbesserungsvorschlägen freue ich mich über Anmerkungen in den Kommentaren. Aber nun heißt es erstmal abwarten auf Pagerank 10.
|
|
download: lastgraph.zip (2.96MB) added: 26/05/2009 clicks: 253 description: My last.fm History |
Related Posts
5 Comments »
Leave a comment
This work is licensed under a Creative Commons License







Comments RSS
Trackback URL


[...] Zuge der Suchmaschinenoptimierung dieses Blogs bin ich auf eine weitere leichte Möglichkeit der Optimierung gestoßen: Durch [...]
Pingback by Wordpress Metatag SEO — November 9, 2008 #
Sehr schön, da ich leider sehr viel Doppelten Content habe ist es genau das was ich suche. Vielen Dank für den ausführlcihen Tipp. Mal sehen ob ich damit meinen Doppelten Content wieder los bekomme ;-)
Viele Grüße
Thomas
Comment by hombertho — February 26, 2009 #
Interessanter Artikel!
Comment by Hamburger — May 15, 2009 #
Ein echt interessanter Artikel den ich noch ein bisschen erweitert habe.
Comment by Mirco — May 23, 2009 #
hey this is a very interesting article!
Comment by KeHoeff — May 29, 2009 #