Best practices om Google jouw relevante content te laten crawlen

We beginnen deze blog met een quote: ‘Content is King’. Elke online marketeer is bekend met deze uitspraak. Om een hoge positie in Google te scoren is het van uiterst belang dat je goede content op je website plaatst en deze content ook goed onderhoudt. Goede content houdt bijvoorbeeld in dat je teksten schrijft met de juiste keyword intensiteit, goed geoptimaliseerde afbeeldingen, technisch goed ingerichte teksten etc. Nu komt het wel eens voor dat je pagina’s op je website hebt staan die content technisch niet goed ingericht zijn zoals bijvoorbeeld een winkelwagen. Hoe zorg je ervoor dat je Google score niet lijdt onder zulke pagina’s?

Robots.txt

Het antwoord op deze vraag is een robot.txt bestand op je website plaatsen! Maar wat is robot.txt bestand?
Google heeft duizenden robots die dagelijks alle websites die online staan scannen en als het ware een ‘score’ hangen aan het resultaat. Deze robots (ook wel spiders of bots genoemd) scannen tijdens dit proces verschillende SEO factoren. Zoals bovenstaand genoemd is de kans groot aanwezig dat je bepaalde pagina’s hebt op je website waarvan gewenst is dat ze niet geïndexeerd worden door deze bots. Door een robots.txt bestand op je website te plaatsen zorg je ervoor dat deze pagina’s niet gescand worden door de bots.

Hoe is een robots.txt bestand opgesteld?

Je hebt verschillende commando’s binnen dit bestand:

  1. Allow: /
    Dit stukje code zorgt ervoor dat alle pagina’s standaard geïndexeerd worden.
  2. Disallow: /pagina.hmtl of Disallow: /folder/
    Dit stukje code zorgt ervoor dat een bepaalde pagina of een bepaalde folder niet geïndexeerd wordt.
  3. Disallow: /*kleur of Disallow: /*maat
    Als je een filter op je webshop hebt staan (bijvoorbeeld filteren op maat, kleur, stof of prijs) dan worden alle verschillende combinaties die mogelijk zijn qua paginasamenstelling gezien als individuele pagina’s. Dit zorgt ervoor dat Google deze pagina’s indexeert als pagina’s met duplicate content (dezelfde content op meerdere pagina’s), wat er weer voor zorgt dat je SEO score daalt. Belangrijk is dus om deze pagina’s uit te sluiten.
  4. Disallow: /*dir= of Disallow: /*order= of Disallow: /*limit=
    Dit stukje code zorgt ervoor dat de sortering van een pagina niet geïndexeerd wordt.
    Je hebt binnen een webshop ook vaak de optie om te sorteren op bijvoorbeeld een prijs of datum van toevoeging. Als dit gedaan wordt zie je vaak dat er een parameter aan de URL wordt meegegeven, bijvoorbeeld: www.webshop.nl/order=pric. Deze pagina’s worden door Google gezien als identieke pagina’s omdat elke optie weer een unieke URL genereerd. Belangrijk om deze pagina’s ook uit te sluiten om dubbele content te voorkomen.
    online marketing robot.txt
  5. Disallow: /*p=1$
    Dit stukje code zorgt ervoor dat de pagina navigatie niet geïndexeerd wordt.
    Bij grotere webshops bestaat een bepaalde categoriepagina vaak uit tientallen producten die verdeeld zijn over meerde pagina’s. Bij zo’n nummering wordt elke pagina wederom apart geïndexeerd en krijg je duplicate content als je de pagina niet uitsluit.

online-marketingbureau-navigatiemenu

Welke pagina’s moet je uitsluiten?

Kort samengevat raden wij de volgende pagina’s aan om uit te sluiten:

  • Pagina’s met duplicate content;
  • Pagination pagina’s (pagina’s met 1-2-3-4 optie);
  • Account pagina’s;
  • Admin pagina’s;
  • Winkelwagen;
  • Chats;
  • Bedankt-pagina’s;
  • Filters;
  • Pagina’s met sorteer opties.

Twee feitjes die goed zijn om te weten bij robots.txt:

  1. Nooit een javascript en css file blokkeren. Om dit te checken wordt vaak de ‘Fetchen als Google-tool’ gebruikt;
  2. Het is handig om de locatie van je sitemap in de robot.txt te vermelden omdat dit het eerste bestand is dat een Google Bot doorneemt. Zo help je de bot om de locatie van je sitemap makkelijker te vinden.

Op pagina-niveau uitsluiten met Meta Robot Tags

Het kan voorkomen dat aparte pagina’s uitgesloten moeten worden. Dit is te doen via robots.txt maar dit kan het beste via Meta Robot Tags. Dit zijn aparte Tags die je in de broncode van de pagina implementeert.
Je hebt wederom een aantal commando’s binnen de Meta Robot Tags:
Index, follow  Een bot toestemming geven om een pagina met zijn links te indexeren;

  • Noindex, nofollow – Een pagina uitsluiten van indexatie;
  •  Index, nofollow – Toestemming geven om een pagina te indexeren maar de links uit te sluiten;
  • Noindex, follow – Een pagina uitsluiten maar de links van deze pagina wel laten indexeren.

Conclusie

Ook al heb je 30 goed geoptimaliseerde pagina’s.. als je daarnaast 30 slecht SEO scorende pagina’s hebt dan is je uiteindelijke score alsnog slecht. Naast het schrijven van content en het juist invullen van keywords is het ook uiterst belangrijk om je website op technisch gebied op orde te hebben zodat Google je website optimaal kan indexeren. Dus zorg ervoor dat je je robots.txt in orde is; denk na of je pagina’s hebt die geen relevante content bevatten en slecht kunnen zijn voor je SEO score.

Wil je meer weten over een robots.txt bestand plaatsen op je website? Neem vrijblijvend contact met ons op om te kijken wat MvH Media voor jou kan betekenen!

Bronnen: Google Crawl Visual – © Google

Meer updates?

We houden je graag op de hoogte.

Meer blogs over

online marketing

Online Marketing
Mark van Hattum

Boekentips 2023

Met de zomer voor de deur is het vaak een goed moment om even een stapje terug te doen. Lekker relaxen tijdens een welverdiende vakantie.

Lees meer
50%

Je bent er bijna

Waar mogen we hem naar toe sturen?