Zie Google als een ontzettend nieuwsgierige bezoeker die bij je langskomt. Zonder instructies trekt hij elke kast open, kijkt hij in je administratie en rommelt hij in je rommellaatje. Dat wil je niet.
Gelukkig is er een manier om deze bezoeker te sturen. Dat doe je met een simpel tekstbestandje genaamd robots.txt. In dit artikel wordt robots.txt uitgelegd: wat is het, hoe werkt het en hoe voorkom je dat je per ongeluk je hele website uit Google gooit?
Wat is robots.txt? (De Uitsmijter)
Het robots.txt bestand is de uitsmijter van je website. Het is een openbaar tekstbestand dat op je server staat. Voordat zoekmachines (zoals Googlebot) je site bezoeken, lezen ze éérst dit bestand. Hierin staat precies waar ze wel en niet mogen komen.
Je kunt het zien op elke website door /robots.txt achter de domeinnaam te typen.
Bijvoorbeeld: https://marketingmaatwerk.nl/robots.txt
De taal van robots (Simpeler dan je denkt)
Je hoeft geen programmeur te zijn om dit te lezen. Het bestaat uit twee hoofdcommando’s:
- User-agent: Voor wie is deze regel bedoeld? (Bijv.
*voor iedereen, ofGooglebotvoor alleen Google). - Disallow: Waar mogen ze NIET komen?
Voorbeeld 1: De standaard (Alles mag)
Dit zie je op de meeste WordPress sites:
User-agent: *<br> Disallow: /wp-admin/<br> Allow: /wp-admin/admin-ajax.php
Hier staat: “Beste robots, jullie mogen overal kijken, behalve in de beheerdersomgeving (/wp-admin/). Dat is privé.”
Voorbeeld 2: De SEO-Killer (Alles geblokkeerd)
PAS OP! Deze regel zorgt ervoor dat je hele website uit Google verdwijnt:
User-agent: *<br> Disallow: /
Die enkele slash / betekent “de hele website”. Dit wordt vaak gebruikt tijdens de bouw van een site, maar ontwikkelaars vergeten dit soms weg te halen bij livegang. Resultaat: 0 bezoekers.
Waarom zou je pagina’s blokkeren?
Je wilt dat Google zoveel mogelijk ziet, toch? Meestal wel. Maar er zijn uitzonderingen:
- Privacy / Beveiliging: Inlogpagina’s of mappen met klantgegevens hoeven niet in Google.
- Dubbele content: Printversies van pagina’s of PDF’s die exact hetzelfde zijn als de webpagina.
- Crawl Budget: Heb je een webshop met 100.000 filter-opties (blauw, maat L, katoen)? Je wilt niet dat Google zijn kostbare tijd verspilt aan al die nutteloze combinaties. Blokkeer de filters, zodat Google focust op je belangrijke pagina’s.
Het verschil tussen Disallow en Noindex
Dit is een technisch detail, maar wel belangrijk.
- Robots.txt (Disallow): Zegt tegen Google: “Niet binnenkomen!” (Google leest de pagina niet, maar kan de URL soms nog wel tonen als anderen ernaar linken).
- Noindex tag: Zegt tegen Google: “Je mag binnenkomen en lezen, maar zet deze pagina NIET in de zoekresultaten.”
Wil je een pagina écht uit Google hebben? Gebruik dan liever een noindex tag op de pagina zelf.
Hoe check je jouw robots.txt?
Ben je bang dat je per ongeluk iets blokkeert? Google heeft een handige ‘Robots.txt Tester’ in de oude Search Console tools, maar je kunt ook gewoon in Google Search Console kijken onder ‘Pagina’s’.
Staat daar de melding “Geblokkeerd door robots.txt” bij een belangrijke pagina? Dan moet je direct in actie komen.
Twijfel je aan je techniek?
Robots.txt is een krachtig middel, maar met grote kracht komt grote verantwoordelijkheid. Een typefoutje kan desastreus zijn.
Wil je zeker weten dat Google jouw site volledig kan crawlen en indexeren? Ik check dit standaard bij mijn Technische SEO Audit. contact/">Neem contact op, dan kijk ik of jouw ‘uitsmijter’ zijn werk goed doet.