Google komt met Canonical Tag 2.0
Het lijkt alweer een eeuwigheid geleden: op vrijdag 13 februari werd bekend dat Google, Yahoo en Live Search een nieuwe manier gingen introduceren om site eigenaren te helpen bij het duplicate content probleem. De oplossing ging schuil onder de naam de “Canonical Tag”. Nu, 8 maanden later, komt Google met een update van deze tag. Het is nu nog makkelijker om je duplicate content probleem op te lossen. Of toch niet?
Duplicate content
Terug naar het probleem: wat is eigenlijk duplicate content? De standaard definitie: (precies) dezelfde content op verschillende URLs. Dit kan ontstaan omdat aan de URL een bepaalde variabelen worden toegevoegd. Denk bijvoorbeeld aan een productpagina, waar je een winterjas kan kopen. Deze is in verschillende kleuren leverbaar en door een andere kleur te selecteren, wordt deze kleur aan de URL toegevoegd:
URL voor de winterjas:
http://www.winterjas-r-us.nl/winterjassen
URL voor de winterjas in het blauw:
http://www.winterjas-r-us.nl/winterjassen?kleur=blauw
De content is hetzelfde, alleen de kleur van de jas is anders. Maar de kleur zorgt wel voor een nieuwe URL waar dezelfde content op te vinden is. Misschien nog bekender is het probleem met de session-id:
http://www.winterjas-r-us.nl/winterjassen?SESSID=234JLKJSDF34234
Als je als zoekmachine een mission statement hebt waarin staat dat je het hele internet in je database wilt hebben, dan kan je je voorstellen dat je het druk hebt. Daarnaast heb je ruimte in je database nodig en wil je geen informatie dubbel opslaan. En welke informatie is nou het beste voor de (be)zoeker? Lastige keuzes!
Zoekmachines bieden zelf de oplossing
De oplossing? Helaas is er maar een echte oplossing: de structuur van de website aanpakken. Het kan een ingrijpende verandering zijn, maar het wel de oplossing die definitief het probleem zal verhelpen. Maar ook zoekmachines begrijpen dat dit niet altijd te doen is. Daarom bieden ze een “lap middel”: de Canonical Tag. Een meta tag die je kunt opnemen in de pagina’s die duplicate zijn om ze zo te groeperen. In de Canonical Tag geef je aan wat de originele pagina is. In het voorbeeld van de winterjassen is dit dus:
<link rel=“canonical” href=“ www.winterjas-r-us.nl/winterjassen; />
Het is voor zoekmachines een
indicatie
van hoe het zou moeten zijn. Geen vaste wetenschap dus, maar wel een mogelijkheid om van die hardnekkige duplicate content af te komen zonder de complete website over de kop te zetten.
SMX aankondiging: canonical tag 2.0, cross domain
Nu de herfstblaadjes weer beginnen te vallen, is het tijd voor zoekmachine marketeers om bij elkaar te komen in New York tijdens de SMX East. Uiteraard zijn tijdens dit congres ook de grote zoekmachines vertegenwoordigd. Google wist hier te vertellen dat ze momenteel werken aan een 2.0 versie van de canonicaltag. Deze biedt de mogelijkheid om het top level domein te ontstijgen. Dus stel dat je unieke content over verschillende domeinen wordt gebruikt. Dan kun je door middel van de nieuwe canonical tag aangeven welk domein het origineel is. Het kan ook zijn dat je content hebt gebruikt, met toestemming!, van een andere site. Puur voor gebruikers (ja, dit komt nog voor). Om dan geen problemen te krijgen met duplicate content, kun je met de vernieuwde Canonical Tag dit probleem verhelpen.
Laten we het voorbeeld van onze winterjassen nemen. We zijn reseller geworden van Tommy Hilfiger Winterjassen en hebben een stuk content gekregen om op onze productpagina te plaatsen. Deze content wordt ook gebruikt op de Tommy site, dus eigenlijk hebben we nu duplicate content. Toch willen de content laten staan voor bezoekers, want daar biedt het toegevoegde waarde. De oplossing zou hier dus zijn om een canonical tag te plaatsen:
<link rel=“canonical” href=“ www.tommyhilfiger.nl/producten/winterjassen; />
En Yahoo en Bing dan?
Dat is een goede vraag. Tijdens de eerste aankondiging in februari van dit jaar, gaven Yahoo en toen nog Live aan dat ze binnenkort ook de canonical tag zouden gaan ondersteunen. Tijdens de SMX hebben ze gezegd dat ze nu bijna klaar zijn om de 1.0 versie van de canonical tag te gaan ondersteunen. De nieuwe cross-domain canonical tag zal alleen werken voor Google. Het wachten is nu op de officiële publicatie.
Maar laat ik het nog een keertje benadrukken: de canonical tag is een hulpmiddel. Om echt het probleem van duplicate content op te lossen moet je goed naar je site structuur kijken.
Toch vraag ik me af of het niet meer kwaad dan goed doet. Ik kan bijvoorbeeld een artikel van MF op mijn eigen blog overnemen en met een canonical element claimen dat ik de bron ben. En in het voorbeeld dat jij schetst zou ik als reseller met mijn content wel boven die van Tommy willen komen, dus ook daar zou ik mijn eigen content als de originele bron beschouwen.
Het enige legitieme voorbeeld is wanneer je zelf eigenaar bent van een aantal sites die dezelfde content hebben, je kunt nu kiezen welke Google als origineel zou moeten zien.
Ik vraag me af of dit misbruik het effect van het element niet teniet gaat doen.
Hoe zie je dat misbruik dan werken ?
Maar jij kunt die tag toch niet op de tommy hiilfiger site dplaatsen met een verwijzing naar jouw site!
Je kunt toch alleen vanaf je eigen site naar tommy verwijzen ??
@André,
Je kunt slechts aangeven dat je zelf de bron niet bent. Misbruik is dan alleen mogelijk als je de tag oneigenlijk kunt plaatsen op een andere website met dezelfde content. De tag heeft dan geen effect op de pagina genoemd in de tag.
@Gerron: Als je met die bedoeling bezig bent kun je (lijkt mij) eenvoudig een aantal pagina’s dupliceren met de gestolen content, en daarop aangeven dat 1 van jouw pagina’s de bron is?
Goed dat je aangeeft dat de Canonical tag het duplicate probleem niet echt oplost, Siegfried.
Ik denk dat je duplicate content – op je eigen domein – het beste in deze volgorde kunt oplossen:
1) Goede site structuur (voorkom dubbele content)
2) Permanente redirect 301 (zowel bezoekers als zoekmachines worden permanent doorverwezen)
3) Dubbele pagina’s uitsluiten van crawling en indexatie met Robots.txt bestand en Meta robots tag
4) Canonical tag (als de voorgaande verbeterpunten niet toepasbaar zijn)
Tot op heden lijkt de Canonical tag echter nog niet altijd goed te werken, waardoor ik deze nu als laatste optie noem.
Ik ben inderdaad ook benieuwd hoe de cross domain canonical tag geïmplementeerd en gerespecteerd gaat worden. Want nu lijkt misbruik makkelijk.
@Eduard
Ik zou de canonical tag wel iets hoger willen zetten, in ieder geval boven uitsluiten via robots.txt. Immers, Google past de canonical toe als een 301 naar de door jou opgegeven pagina. En de resultaten die ik zie bevestigen dat ook grotendeels.
Overigens werkt dit natuurlijk alleen echt goed als de pagina’s daadwerkelijk hetzelfde zijn en alleen de url verschilt. in dat geval zal de canonical suggestie die je doet sowieso heel snel gevolgd worden door G.
@Eduard: ja, dat vind ik eigenlijk het probleem met dit soort “oplossingen”. Het lijkt een oplossing, maar is eigenlijk meer een lapmiddel tegen een groter probleem.
Ik ben het eens met je lijstje, alhoewel ik ook denk dat je punt 3 & 4 zou moeten omdraaien. Het 301 karakter van de canonical tag doet mij eerder grijpen naar die oplossing dan de robots.txt.
Dat laatste wat je zegt, ik zeker interessant! Hoe gaan ze om met shady domeinen die een canonical gebruiken naar een ander domein? Wat pakken ze wel op en wat niet? En hoeveel kracht houd je dan nog over in je 2.0 tag.
@Wouter Barry @Siegfried
Ik heb inderdaad getwijfeld over de volgorde van punt 3 en 4 🙂
Als je duplicate content echt kunt voorkomen, dan kom je wat mij betreft niet verder dan stap 2.
Mocht het een niet te voorkomen gevolg zijn, dan neig ik ook steeds meer naar de canonical tag. Zeker als deze zich sterk als een 301 gaat gedragen.
@Eduard Ook al zou je nooit zover willen komen als punt 3 en 4, zorg je er met het uitsluiten van pagina’s er toch alleen maar voor dat de vindbaarheid beperkt wordt? Wanneer gelijkwaardige content is verspreid over meerdere url’s, zal een zoekmachine de pagina’s ordenen en filteren. Wat als de uitgesloten pagina in sommige gevallen nou beter uit te verf komt? Daarnaast is de canonical tag een hulpmiddel voor iets wat ze ook op andere manieren trachten te doen. Met het uitsluiten van pagina’s elimineer je de mogelijkheid voor zoekmachines om content en populariteit gecentraliseerd te positioneren in de zoekresultaten. Dit zie je vaak terug bij hoofdpagina’s van websites; de PageRank is gelijk op bijvoorbeeld example.com/, example.com/index.html, http://www.example.com/, etc. Zelf zou ik het probleem willen voorkomen, maar alternatieve oplossingen niet willen uitsluiten.
@Gerron
Deels eens, deels niet 🙂
Duplicate content wil je in principe gewoon vermijden. Zowel zoekmachines als bezoekers hebben niets aan dezelfde content op meerdere locaties te vinden. En dan kom je in ‘mijn lijstje’ niet verder dan stap 2.
Het argument wat je noemt om zoekmachines niet uit te sluiten, is wat mij betreft het argument om eerst de canonical tag te gebruiken en pas later (of niet) zoekmachines de toegang tot dubbele content te weigeren. En dat ben ik met je eens 🙂
Dat Google daarnaast snapt dat example.com en http://www.example.com bij elkaar horen en de toolbar PageRank combineert, is logisch. Maar met duplicate content, zeker met dubbele domeinen, verdeel je echter wel degelijk de linkwaarde.
Gerelateerde artikelen
Marketingfacts. Elke dag vers. Mis niks!
Marketingfacts. Elke dag vers. Mis niks!