Wanneer gebruik je Noindex, Nofollow en Disallow?

De termen noindex, nofollow en disallow worden soms in één zin gebruikt, maar het zijn verschillende begrippen. Ik leg je graag uit wat het is, hoe ze werken, en wanneer je ze wel of niet moet gebruiken.

Wat is Noindex Nofollow?

Noindex vind je terug in de meta robots tag in de <head> van een pagina. Hiermee geef je voornamelijk iets aan over de indexeerbaarheid van een pagina. Nofollow is een aanvulling in de meta robots tag. Dit zijn instructies die Google en elke andere zoekmachine gebruikt hoe ze met die pagina om moeten gaan. Er zijn verschillende opties om deze tag te gebruiken, met een ander doel als gevolg.

1) <meta name=”robots” content=”noindex,nofollow”>

Google mag de pagina niet indexeren, en de links die op de pagina staan wil je niet laten volgen. Google kan via interne links door je website heenlopen, maar dat doet het in dit geval dus niet voor de links op die specifieke pagina.

Je wilt niet dat bepaalde pagina’s in de zoekresultaten terecht komen en via Google te bezoeken zijn. Je gebruikt deze meta tag vaak voor:

Bedankpagina’s na een aankoop;
Testpagina’s die je gebruikt om dingen op uit te proberen;
Funnelpagina’s, zoals de winkelmand of check-0ut;
Klachtenpagina’s die je wel beschikbaar wil hebben, maar niet makkelijker vindbaar dan nodig;
Login pagina’s.

2) <meta name=”robots” content=”noindex,follow”>

Google gaat deze pagina niet indexeren, maar volgt wel de links op de pagina. In de praktijk komt deze combinatie weinig voor.

3) <meta name=”robots” content=”index,nofollow”>

Google mag deze pagina wel indexeren, maar mag de links niet volgen op de pagina. In de praktijk komt deze combinatie weinig voor.

4) <meta name=”robots” content=”index,follow”>

Google mag deze pagina wel indexeren en de links volgen. Deze meta tag gebruik je als het goed is voor het overgrote deel van je website. Alle landingspagina’s, productpagina’s, klantenservice-pagina’s geef je deze meta tag mee.

Wat is Disallow?

Disallow kom je alleen tegen in het robots.txt-bestand. Hiermee geef je voornamelijk iets aan over de crawlbaarheid van een pagina of hele website.

Disallow gebruik je dus voornamelijk om preventief ervoor te zorgen dat Google die pagina’s niet eens gaat crawlen/lezen. En wat niet gecrawlt kan worden, kan niet geïndexeerd worden. 🙂

Deze tag is alleen minder effectief dan noindex/nofollow, ook omdat het een ander doel nastreeft. Google bezoekt alleen niet altijd je robots.txt-bestand als eerst of volgt de instructies op, en je pagina’s zijn vaak te bezoeken via andere linkjes. Robots.txt geeft een signaal om het niet te crawlen, maar die is dus niet helemaal waterdicht.

Je kunt er hele url mappen mee uitsluiten van je eigen domein, maar ook bepaalde filters en parameters.

Als je problemen hebt met bots die de hele brandbreedte of het crawlbudget van je website opslurpen, is het soms ook fijn om bepaalde crawlbots te disallowen. Google-bot is namelijk niet de enige bot die je website bezoekt. Je geeft hiermee simpelweg aan dat bepaalde bots niet binnen mogen komen als ze op de deur kloppen. Wanneer je bijvoorbeeld niet wilt dat een bepaalde crawlbot je website kan lezen, kun je op je gehele domein een disallow plaatsen voor een specifieke bot.

Veelgestelde vragen

Nog niet gevonden wat je zocht? Hieronder vind je nog een paar veelgestelde vragen over noindex, nofollow en disallow.

Moet ik de meta robots tag altijd invullen?

Nee, wanneer geen van bovenstaande meta robots tags is meegegeven aan een pagina, dan behandelt Google deze altijd als index follow. Dus je pagina is altijd indexeerbaar en volgbaar, tenzij anders aangegeven. 😉

Mijn pagina staat in de zoekresultaten, wat moet ik doen?

Verander de meta robots tag naar Noindex nofollow. Dit is op zich gemakkelijk op te lossen, maar dit kan wel even duren. Google moet namelijk deze pagina opnieuw bezoeken, de instructies opvolgen en zijn zoekresultaten weer bewerken.

Heeft een disallow in robots.txt nog zin als deze al geindexeerd is?

Nee, het heeft geen zin om alleen de robots.txt disalow aan te vullen als je een pagina uit de zoekresultaten wilt halen. De pagina is al gecrawlt en geindexeerd. Alleen met noindex follow geef je de juiste signalen om de pagina uit de index, en dus ook de zoekresultaten te krijgen.

Wanneer gebruik je de disallow in robot.txt dan?

Denk aan volledige url categorieën waarvan de hele map niet geindexeerd mag worden, specifieke filters, of parameters. Het liefst voor pagina(groepen) die Google nog niet in zijn zoekresultaten heeft staan.

Kun je disallow en noindex combineren?

It depends. 😉 Als je een pagina uitsluit om te worden gecrawld via het robots.txt-bestand, dan zullen eventuele instructies voor indexatie niet worden gevonden en dus worden genegeerd. Als het nodig is om bepaalde regels voor indexering te volgen, mogen de url’s die deze regels bevatten niet worden uitgesloten om te worden gecrawld.

Staat een pagina in de index, en je hebt de noindex meta robots tag en de disallow in robots.txt ingevuld, dan kan je wachten tot je een ons weegt; die pagina blijft lekker in Google staan.

Staat de pagina nog niet in de index en je wilt dat deze daar nooit komt te staan, dan loont het om de ze beiden in te vullen. Doe dit echter niet voor 1 simpele pagina. Dan is een noindex nofollow voldoende. Heb je een hele map met nieuwe pagina’s die je niet (en vooral ‘nooit’) in de index wil, dan loont de combinatie. Denk hierbij aan:

Een hele map bedankpagina’s;
Staging-websites die je nooit geïndexeerd wild hebben.

De robots.txt is dan leidend, maar omdat Google die niet altijd handhaaft, heb je de noindex nofollow om op terug te vallen.