Wat is crawl budget en wanneer wordt het een probleem?

Een van de dingen die je misschien weleens hoort is dat je rekening moet houden met het crawl budget. Want je zou zomaar eens tegen de limieten van het crawl budget aan kunnen lopen. Die kans is echt heel klein en zoiets zal voor maximaal 10% van alle websites gelden. Je kan dus onmiddellijk stoppen met lezen, of toch even doorlezen als je wilt weten wat crawl budget nu precies inhoudt en wanneer het wel een probleem wordt. 

Wat is crawl budget nu precies?

Crawl budget is het aantal URL’s dat een crawler (meestal Googlebot) kan en wil crawlen op je website, en hoeveel de crawler toegestaan is om te crawlen. Het belangrijkste om hierbij te weten is dat het geen vast gegeven is. Crawl budget gebeurt op basis van RPS: requests per second. Oftewel: hoeveel verzoeken kan een crawler per seconde doen? Crawl budget bestaat uit twee onderdelen:

  1. Crawl rate-limiet: hoeveel parallelle connecties Googlebot mag gebruiken om de website te crawlen, gecombineerd met hoeveel tijd er tussen het ophalen van de data mag zitten.
  2. Crawl demand: hoeveel URL’s de bot wil crawlen, onder andere gebaseerd op links naar die URL’s en het actueel houden van de index – dus het opnieuw crawlen van bekende URL’s om die waar nodig te actualiseren.

Dit kan negatief beïnvloed worden door ‘faceted navigation‘, wat met name bij filteropties op een website kan ontstaan, en door dubbele inhoud (duplicate content). Verder tellen ook ‘soft 404’s’ mee voor je crawl budget. 

Snelle servers helpen ook

Zo’n crawl budget heeft onder andere te maken met hoeveel jouw servers belast worden en hoeveel die servers aan kunnen. Dat betekent dus dat snelle servers ervoor zorgen dat je veel minder snel tegen je crawl budget aanloopt. Als een crawler je pagina’s snel kan ophalen, kunnen er in dezelfde tijd meer pagina’s worden gecrawld, dit noemt Google ‘crawl health’. Loopt de crawler tegen problemen aan, dan zal die gas terugnemen op je website om ervoor te zorgen dat jouw website niet in de problemen komt.  Wanneer de problemen opgelost zijn, zal Googlebot weer langzaamaan de crawlfrequentie te verhogen.

Crawllimiet instellen

Vind je dat er te veel gecrawld wordt of is er een reden om de crawls zelf meer in de hand te houden, dan kan je een limiet instellen in Google Search Console. Je vindt deze instelling niet zelf in Search Console, maar komt er via de link op deze pagina. Daarvoor moet je natuurlijk wel ingelogd zijn met je Google account. De kans dat je dit echt moet gebruiken is heel klein, ga er sowieso niet zomaar mee aan de slag zonder te weten wat je doet.

Wanneer moet je je echt druk maken over crawl budget?

De kans dat jij je echt druk hoeft te maken om crawl budget is bijzonder klein. Je kan pas tegen problemen aanlopen als je een website hebt met minstens een miljoen pagina’s. Dat gebeurt dus niet zo gauw. Zelfs grote webshops hebben daar lang niet altijd mee te maken. Coolblue heeft om en nabij de 500.000 geïndexeerde pagina’s in Google, en Wehkamp heeft er zo’n 700.000.  Alleen Bol.com komt op zo’n 14 miljoen pagina’s en zou zich dus druk kunnen maken om hun crawl budget.

Resultaat uit Google voor site:coolblue.nl, waarbij je boven de zoekresultaten zelf ziet staan "Ongeveer 538.000 resultaten (0,18 seconden)".

Het crawl budget is zoals je je vast wel kunt voorstellen vooral iets om in de gaten te houden bij enorme e-commercewebsites en nieuwswebsites. De eerder genoemde ‘faceted navigation’ en dubbele inhoud komen vooral veel voor bij webwinkels en in mindere mate bij nieuwswebsites. Heb je dan 1 miljoen pagina’s of meer, dan kan je eens kijken of je in de problemen komt met je crawl budget.

Wat geen problemen oplevert

Er zijn ook zaken die helemaal geen problemen opleveren voor je crawl budget. 404-pagina’s bijvoorbeeld, tellen niet mee. Een pagina wordt niet gevonden en dus ook niet gecrawld. Simpel toch? Datzelfde geldt voor redirects, of dat nu een 301– of 302-redirect is. De pagina zelf wordt niet gecrawld en telt dus niet mee voor je crawl budget.

Zelf checken of je in de problemen komt

Natuurlijk kan je zelf checken of je in de problemen komt met je crawl budget. En net zo natuurlijk is het dat je dat in Google Search Console doet. Voor de volledigheid: wanneer je minder dan 1 miljoen pagina’s op je website hebt, hoef je hier dus echt geen tijd en moeite in te steken. In een paar stappen zie je hoe jouw website er voor staat:

  1. Ga naar Google Search Console (en log in als je niet al ingelogd bent);
  2. Ga naar Instellingen en klik in het blok Crawlen bij Crawlstatistieken op ‘Rapport onenen’;
  3. Je ziet het aantal crawlverzoeken, plus nog wat andere details omtrent het crawlen van je website.

Crawlstatistieken in Google Search Console, waarbij je een grafiek ziet met een nogal grillige lijn en daarboven blokken met getallen. Het eerste blok geeft het totaal aantal crawlverzoeken weer, in dit geval 34,5 K, de totale downloadgrootte in Bytes, te weten 985 miljoen, en de gemiddelde reactiesnelheid, die in dit geval 831 milliseconden is. De grafiek loopt van 1 maart 2023 tot ongeveer 25 mei 2023, een periode van 90 dagen.

Op zich is dit wel iets wat je zo af en toe eens kan checken, zelfs als je niet aan die 1 miljoen pagina’s komt. Wie weet zie je daar iets geks, bijvoorbeeld dat er veel 404’s staan onder ‘Per reactie’.  Dat kan bijvoorbeeld betekenen dat er interne links zijn naar niet-bestaande URL’s.

Zoals je ziet is de kans klein dat jij tegen problemen aanloopt met crawl budget. Zelfs bekende grote websites lopen niet zo snel tegen die limieten aan. Heb je nog vragen of wil je iets delen, laat het hieronder weten in de reacties. Je krijgt altijd een reactie terug.

 | Website

Of je SEO nu interessant vindt of er helemaal geen interesse in hebt, als je een website hebt, heb je er nu eenmaal mee te maken. Juist omdat ik het leuk vind, schijf ik er graag en vaak over en uit reacties blijkt dat het zelfs mensen met een aversie tegen zoekmachine-optimalisatie helpt.

Begonnen in 2012 met het idee webteksten te schrijven, ben ik me steeds verder gaan verdiepen in SEO en het daarmee verbonden CRO (conversie-optimalisatie). In al mijn artikelen help ik je jouw website te verbeteren om er zo meer omzet uit te halen. Wedden dat je het nog leuk gaat vinden ook?

0 antwoorden

Plaats een Reactie

Meepraten?
Draag gerust bij!

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.