Als u al langer bezig bent met het optimaliseren van uw website ten behoeve van zoekmachines, dan bent u wellicht op de hoogte dat zoekmachines zoals Google gebruik maken van zogeheten webcrawlers. Deze webcrawlers zijn scripts die websites scannen en indexeren aan de hand van de afgelezen informatie.
Het is echter goed voor te stellen dat als u een website heeft er een aantal pagina's zijn waarvan u liever niet heeft dat deze geïndexeerd worden. Denk hierbij aan pagina's die momenteel in onderhoud zijn en pagina's die voor administratieve doeleinden gebruikt worden.
Het is mogelijk om deze pagina's door middel van code te verbergen. Helaas is dit omslachtig en biedt bovendien niet 100% garantie dat de pagina niet alsnog geïndexeerd wordt door webcrawlers.
Een snellere en betrouwbare methode is het toevoegen en bijhouden van het robots.txt bestand. U kunt in dit bestand verwijzen naar uw sitemap en daarna aangeven welke mappen u wilt blokkeren voor het crawlen.
Een voorbeeld:
Sitemap: http://www.voorbeeldsite.be/sitemap.xml
User-agent: *
Disallow: /scripts/
Disallow: /phpbb/install
Disallow: /wordpress/install |
Op http://www.robotstxt.org kunt u meer lezen over dit onderwerp.