URL’s blokkeren met robots.txt

Het eenvoudigste robots.txt-bestand gebruikt twee belangrijke termen, namelijk User-agent en Disallow. User-agents zijn zoekmachinerobots (of webcrawlers). De meeste user-agents worden vermeld in de database met webrobots. Disallow (‘niet toestaan’) is een opdracht voor de user-agent die aangeeft dat een bepaalde URL niet mag worden doorzocht. Als u Google echter wel toegang tot een bepaalde URL wilt verlenen en deze URL een onderliggende directory van een bovenliggende ‘niet toegestane’ directory is, gebruikt u een derde trefwoord, namelijk Allow.

Google gebruikt verschillende user-agents, zoals Googlebot voor Google Zoeken en Googlebot-Image voor Google Afbeeldingen. De meeste user-agents van Google respecteren de regels die u opstelt voor Googlebot, maar u kunt deze optie overschrijven en ook specifieke regels opstellen die alleen voor bepaalde user-agents van Google gelden.

De syntaxis voor het gebruik van de trefwoorden is als volgt:

User-agent: [the name of the robot the following rule applies to]

Disallow: [the URL path you want to block]

Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]

Deze twee regels worden beschouwd als één item in het bestand, waarbij de regel Disallow alleen van toepassing is op de bovenliggende user-agent(s). U kunt zo veel items opgeven als u wilt. U kunt meerdere Disallow-regels en meerdere user-agents in een item zetten.U kunt instellen dat de opdracht User-agent van toepassing is op alle webcrawlers door een asterisk (*) toe te voegen zoals in het onderstaande voorbeeld:

User-agent: *

 

De hele site blokkeren met een schuine streep (forward slash) (/): Disallow: /
Een directory en de bijbehorende inhoud door een schuine streep (forward slash) achter directorynaam te plaatsen: Disallow: /sample-directory/
Een webpagina door na de schuine streep de webpagina op te geven: Disallow: /private_file.html
Als u de toegang wilt blokkeren tot alle URL’s die een vraagteken (?) bevatten. Met de voorbeeldcode worden bijvoorbeeld alle URL’s geblokkeerd die beginnen met uw domeinnaam, gevolgd door een willekeurig tekenreeks, gevolgd door een vraagteken en die eindigen op een willekeurige tekenreeks: User-agent: Googlebot

Disallow: /*?

Als u alle URL’s wilt blokkeren die op een bepaalde manier eindigen, gebruikt u het teken $. Met de voorbeeldcode worden bijvoorbeeld alle URL’s geblokkeerd die eindigen op .xls: User-agent: Googlebot

Disallow: /*.xls$

Zie het voorbeeld rechts als u patronen wilt blokkeren met de instructies ‘Allow’ en ‘Disallow’. Het vraagteken ? staat in dit voorbeeld voor een sessie-ID. URL’s die deze ID’s bevatten, moeten voor Google worden geblokkeerd om te voorkomen dat er dubbele pagina’s worden gecrawld. Als u bepaalde URL’s met een vraagteken ? aan het eind juist wel wilt toevoegen, kunt u de volgende benadering volgen om de instructies voor ‘Allow’ en ‘Disallow’ te combineren:

  1. Met de instructie Allow: /*?$ worden alle URL’s toegestaan die eindigen op een vraagteken ? (de instructie staat alle URL’s toe die beginnen met uw domeinnaam, gevolgd door een willekeurige tekenreeks, gevolgd door een ?, zonder tekens na de ?).
  2. Met de instructie Disallow: / *? worden alle URL’s geblokkeerd die een ? bevatten (de instructie blokkeert alle URL’s die beginnen met uw domeinnaam, gevolgd door een willekeurige tekenreeks, gevolgd door een vraagteken, gevolgd door een willekeurige tekenreeks).
User-agent: *

Allow: /*?$

Disallow: /*?

 

This entry was posted in seo

Leave a Comment

Your email address will not be published.