Wat is een: robots.txt?

Een robots.txt is een .txt bestand, geplaatst in de root van een website, waarin staat welke directories, pagina’s en bestanden een zoekmachine niet mag crawlen. Instructies die in een robots.txt bestand kunnen staan zijn:

User-agent: *                                                                  
User-agent: Googlebot                                                
User-agent: Slurp!                                                          
User-agent: Bingbot                                                      
User-agent: Duckduckbot                                           
Disallow: /                                                                          
Disallow: /personal/                                                      
Disallow: /private-file.htm                                          
Sitemap: http://domein.com/sitemap.xml         

Geldt voor alle spiders
Google spider
Yahoo spider
Bing spider
Duckduckgo spider
Sluit hele website af
Sluit directory uit
Sluit een pagina uit
Verwijzing naar sitemap

Achter het commando hoort altijd een spatie te staan. Wil je een gehele directory uitsluiten? Maak dan gebruik van een trailing slash (/) achter de naam van de directory. Alle bestanden en directories die niet in de robots.txt voorkomen zullen door een zoekmachine spider gecrawled worden.

In de robots.txt kunnen ook bepaalde wildcards gebruikt worden voor het uitsluiten van URL’s met een bepaald teken of het uitsluiten van bepaalde extensies. Wil je alle URL’s met een vraagteken er in uitsluiten? Maak dan gebruik van de volgende opdracht:

  • Disallow: /?*

En voor het uitsluiten van bijvoorbeeld .GIF bestanden geldt:

  • Disallow: /*.gif$

 


 

Deel deze pagina: