Zo richt je robots.txt in

Je hebt je webshop helemaal op orde en SEO vriendelijk gemaakt. Aan de autoriteit heb je ook gewerkt en technisch zit hij tiptop in elkaar. Eén ding merk je echter op: alle filters op je e-commerce website worden geïndexeerd door Google, wat veel te veel crawl budget kost. In dit artikel neem ik je mee in de wereld van robots.txt, waarmee je leert onder andere deze situatie te voorkomen.

Mariska Paul Geplaatst op 18 september 2020 Laatste update op 17 januari 2024

Too long to read

Robots.txt is een klein tekstbestand dat robots instructies geeft omtrent het crawlen voor indexering.
Robots.txt goed inrichten is verstandig voor SEO doeleinden.
Voordelen toevoegen Robots.txt:
- Geeft zoekmachines toegang tot bepaalde delen van je website of sluit pagina’s uit (Disallow:).
- Voorkomt duplicate content
- Zorgt voor efficiëntere crawls
Robots.txt wordt gebruikt als advies. Bots kunnen hiervan afwijken.
Met ‘User-agent’ geef je aan welke bots je site mogen crawlen, bijvoorbeeld de Google bot of Slurp van Yahoo.
Met * geef je aan dat elke bot mag crawlen.
Voeg altijd de sitemap toe aan het Robots.txt bestand.

Hoe werkt robots.txt?

Robots.txt is een klein tekstbestandje dat instructies geeft aan ‘robots’ die het web crawlen voor indexering. Bots zijn spiders die websites crawlen. Zoekmachines hebben allemaal hun eigen bots. Google heeft een heel leger met spiders die allemaal bepaalde onderdelen crawlen, zoals afbeeldingen, AdSense, Ads enzovoort. Met robots.txt kan je communiceren met alle bots die je website bezoeken, waaronder alle bots van Google. Bijvoorbeeld: een bot bezoekt onze website https://www.scherponline.nl. Voordat hij de website crawlt, bezoekt hij eerst het robots.txt bestand https://www.scherponline.nl/robots.txt. Elke website mag maar één robots.txt hebben die ook deze naam moet dragen en op het hoofddomein moet staan. Zijn er subdomeinen van toepassing, dan creëer je voor elk subdomein een aparte robots.txt. Je hebt er dan één voor voorbeeld https://www.scherponline.nl en één voor subdomein.scherponline.nl.

Is een robots.txt-bestand verplicht?

Nee, het toevoegen van een robots.txt-bestand is niet verplicht, maar wel heel belangrijk en aan te raden voor SEO. Een robots.txt bestand vertelt zoekmachines namelijk welke pagina’s hij wel en niet mag crawlen. Het is echter wel maar een advies vanuit de webmaster. Zoekmachines kunnen ervoor kiezen dit advies niet te volgen.

Wat zijn de voordelen van robots.txt?

Robots.txt heeft drie functies:

Je geeft zoekmachines toegang tot bepaalde delen van je website en kan er ook pagina’s mee uitsluiten.
Je voorkomt duplicate content problemen
Je zorgt voor efficiëntere crawls van je website, omdat zoekmachines maar een beperkte crawltijd hebben.

Welke User-agent moet ik toevoegen?

Een robots.txt-bestand begint met ‘User-agent’. Hiermee geeft je aan welke bots je site mogen crawlen. Er zijn verschillende bots die zich allemaal als een bepaalde user-agent identificeren. Zo identificeert bijvoorbeeld een Google robot zich met ‘Google bot’ en een robot van Yahoo met ‘Slurp’. Als elke bot dezelfde crawlrechten heeft, geef dat dan aan met een *, ook wel de ‘wildcard’ genoemd. Dus: User-agent: * betekent: alle bots mogen alle pagina’s van mijn website crawlen. Als je voor verschillende robots andere richtlijnen hebt, zet dan de naam van de bot bij de user-agent. De richtlijnen die daarna volgen, hebben alleen toepassing op de betreffende robot, totdat de volgende ‘User-agent’ verschijnt. Bijvoorbeeld: User-agent: Googlebot

Download 7 tips om jouw WordPress website sneller te maken.

Hoe sluit ik pagina’s van mijn website uit voor Google/robots?

Allereerst zal ik het verschil uitleggen tussen crawlen en indexeren. Bij indexering wordt de URL van de pagina’s onthouden na het bezoeken van de website, niet de inhoud van de pagina’s. Bij crawlen onthoudt de spider ook alle content op de pagina’s die meetellen voor pagerank.

Je kan met via een robots.txt eenvoudig secties, categorieën of pagina’s uitsluiten voor robots (spiders). Je gebruikt hiervoor de Disallow-richtlijn. Dat kan er bijvoorbeeld zo uitzien: Disallow: /wp-admin/. Hierbij is ‘Disallow’ de richtlijn en /wp-admin/ het pad dat niet toegankelijk is voor de user-agent.
Wanneer je een bepaald bestand uit een uitgesloten sectie wel wilt laten crawlen, gebruik je de Allow-richtlijn. Dat kan er zo uitzien: Allow: /uitgesloten-map/bestand-in-map-die-wel-mag-worden-gecrawld.html. Het is met de Disallow-richtlijn ook mogelijk om URL’s met bepaalde tekens uit te sluiten. Als je bijvoorbeeld alle URL’s met een &-teken uit wilt sluiten, komt dat er zo uit te zien: Disallow: /*&. Hetzelfde geldt voor url’s met hetzelfde einde. Dat doe je met het $-teken. Als je alle URL’s wilt uitsluiten die bijvoorbeeld eindigen op .pdf, dan voeg je dit toe aan je robots.txt: Disallow: /*.pdf$.

Helaas betekent het niet altijd dat pagina’s worden uitgesloten voor indexatie in zoekmachines als je de Disallow-richtlijn opneemt, bijvoorbeeld wanneer er veel links verwijzen naar een pagina. Als dit gebeurt, zie je de pagina in de zoekresultaten zonder omschrijving, omdat de bots de content niet kunnen lezen. Gaat het je vooral om het niet indexeren van een pagina, kies dan voor ‘noindex’. Deze tag zet je in de <head> van de pagina: <meta name=”robots” content=”noindex” />. Hiermee geef je een signaal aan Google af dat de pagina mag worden gecrawld en linkwaarde doorgegeven mag worden, maar niet in de zoekresultaten mag verschijnen. Houd er rekening mee dat er soms een tijd overheen gaat voordat je pagina verdwijnt uit de zoekresultaten van Google na het toevoegen van de tag.

Sitemap toevoegen aan robots.txt?

Een sitemap is een bestand met daarin de tekstlinks naar alle pagina’s van de website. Soms bestaat een website uit wel honderden pagina’s wat het lastig maakt voor bots om te crawlen. De sitemap helpt ze daarbij. Je kunt het zien als een soort inhoudsopgave van een website die ervoor zorgt dat de indicatie sneller verloopt. Op die manier zijn al jouw belangrijke pagina’s terug te vinden in zoekmachines. Zonder sitemap kan het zijn dat er dieperliggende pagina’s niet worden geïndexeerd, wat je wellicht een hoop (kostbare) bezoekers kan kosten.

Het is aan te raden om je sitemap in je robots.txt op te nemen. Robots.txt wordt door zoekmachine-bots als eerste bezocht. Door hierin te verwijzen naar de sitemap, weten de bots je sitemap direct te vinden. Het is mogelijk om meerdere XML sitemaps toe te voegen in het robots.txt bestand.

Opmerkingen toevoegen

Soms kan het handig zijn om opmerkingen toe te voegen aan het robots.txt-bestand. Opmerkingen zijn niet bedoeld voor bots, maar voor webmasters. Je kan hier bijvoorbeeld in kwijt waarom je bepaalde keuzes hebt gemaakt of wat iets betekent. Bots lezen dit niet als je je opmerkingen na een ‘#’ plaatst. Het maakt niet uit of je een opmerking direct achter een regel plaatst of op een nieuwe regel. Dit kan er als volgt uit zien: Disallow: /*.pdf$ #Geen toegang tot alle pdf’s, omdat we daar niet op gevonden willen worden.

Tips

Ten slotte wil ik je nog een paar tips meegeven: check na lancering van nieuwe functie of lancering van een nieuwe website het robots.txt-bestand. Het kan zijn dat er nog een (of meerdere) Disallow-richtlijn in staat die nu niet meer van toepassing is. Een andere tip is om de zoekresultaten uit te sluiten van crawlen, omdat deze bijna niet te optimaliseren en/of relevant zijn voor zoekmachines. Dit doe je ook met een Disallow-richtlijn: Disallow: /search/. Andere pagina’s die je standaard uit kan sluiten voor bots zijn: 404-pagina’s, tag- en author archief pagina’s en de admin sectie.

Heb jij je robots.txt-bestand op orde? Bij twijfel kijken wij er graag even naar voor je!