Google Top 3000
Henk van Ess bracht in 2003 voor het eerst de Google Top 100 met daarin de honderd ‘meest invloedrijke’ websites van Nederland. Recentelijk melden wij op dit weblog dat van Ess werkt aan een Google Top 3000 welke medio september zal worden gepubliceerd. Afgelopen week stond hierover al een voorpublicatie in de Automatisering Gids. Belangrijkste vraag is natuurlijk: wat zijn de ‘meest invloedrijke’ websites van dit moment? Maar ook: hoe serieus moeten we deze lijst nemen?
Een aantal conclusies uit de voorpublicatie en het discussieforum op voelspriet.nl:
-
De top van de Google Top 3000 is hier en daar behoorlijk dubieus en illustreert hoe gevoelig Google is geworden voor slimme spamtechnieken en/of ‘optimaliseertrucs’ van webmasters die gekunsteld hun site populair maken met programmeer- en HTML-trucjes.
-
Elsevier is met elsevier.nl zijn toppositie kwijt. De website besloot na de uitverkiezing tot belangrijkste website voor Google opeens bezoekers ook naar andere delen van het concern te verwijzen. Google strafte dat af door de PageRank (PR) van Elsevier van 9 naar 8 te verlagen.
-
De nieuwe nummer één is google.nl met een PR van 9, 9.640 verwijzingen van andere websites en ruim 60.000 citaten (met daarin het woord Google). Dit is de enige Nederlandse website (eindigend op .nl) die een PR van 9 haalt.
-
Nummer twee is kelkoo.nl. Deze firma weet deze positie vooral te bereiken met een vernuftig systeem van linkjes bij producten die steeds apart door Google worden opgeslagen. Kelkoo heeft een PR van 8 en maar liefst 79.200 directe verwijzingen (vooral naar zichzelf) en 375.000 citaten.
-
Uitgeverij Kluwer blijft met wkap.nl keurig op de derde positie staan zonder rare trucs. Kluwer heeft een PR van 8, telt 11.300 verwijzingen en 173.000 citaten.
-
De Top 10 bestaat verder uit headliner.nl, elsevier.nl, ns.nl, xs4all.nl, nwo.nl, apple.nl en adobe.nl.
-
Verderop in de lijst valt dir.goom.nl op. Goom.nl weet door slimme linkjes, vooral naar de eigen inhoud, Google te imponeren. De site staat op plek 27 met een PR van 7 en 4.090 verwijzingen. Bij de voorbereidingen van de nieuwe Google Top 3000 kwam deze site met een PR van 9 zowaar eventjes op de eerste plek uit, maar een melding van Voelspriet aan Google deed deze wonderbaarlijke prestatie compleet te niet.
De Google Top 3000 zal in september ongetwijfeld door alle media worden aangehaald als DE lijst van ‘meest invloedrijke’ websites van Nederland. Toch moet bij deze lijst een aantal opmerkingen worden geplaatst:
-
De PR is niet allesbepalend voor de positie van een website in de zoekresultaten. Google gebruikt een groot aantal criteria om de positie van een website te bepalen; de PR is er daar slechts een van.
-
De Top 3000 bestaat alleen uit websites met extensie .nl. Veel Nederlandse websites hebben een andere extensie zoals .com, .net en .org (volgens een van de forumleden op voelspriet.nl zou dit aantal zelfs twee keer zoveel zijn als .nl). Zo staat bijvoorbeeld netstatbasic.net niet in de lijst maar heeft het wel een PR van 9.
-
Niet alle websites uit het .nl domein zijn Nederlandstalig waardoor er geen sprake is van een Nederlandse of Nederlandstalige Top 3000 maar van een .nl Top 3000.
Ik ben uiteraard ook erg benieuwd naar de definitieve lijst maar ik hoop wel dat de media net als ik de lijst kan relativeren. Het is gewoon een leuke lijst, niets meer en niets minder!
Update 22/8
Dat de PageRank een invloed heeft op de positionering in Google is wel duidelijk. De mate waarin de PageRank bijdraagt is echter onduidelijk, ook onder de zoekmachine marketing specialisten gezien de discussie op voelspriet.nl.
Om de (non-)relevantie van de PageRank aan te tonen heb ik een klein experimentje gedaan waarbij ik de Google-resultaten van de bovenstaande top-100 heb gesorteerd op relevantie (standaard ranking) en PageRank. Zo staat google.nl in het eerste geval op de derde plaats en in he tweede geval op de eerste plaats, etc. Deze resultaten zijn vervolgens grafisch tegen elkaar uitgezet. Een correlatie van 1,0 zou betekenen dat de ranking alleen afhankelijk zou zijn van de PageRank; een correlatie van 0,0 zou betekenen dat de ranking in zijn geheel onafhankelijk zou zijn van de PageRank.
De correlatie tussen de ranking en de PageRank blijkt ongeveer 0,3 te zijn. Met andere woorden, ca. 30% van de ranking is te verklaren door de PageRank, ca. 70% wordt verklaard door andere factoren.
Ik moet daarbij opmerken dat deze correlatie slechts is berekend op basis van de eerste 100 zoekresultaten. Wil je een echte wetenschappelijke onderbouwing dan zou je dit over een veel groter aantal zoekresultaten en zoekopdrachten moeten uitvoeren!
Discussie @ voelspriet:
http://www.voelspriet.nl/forum/
Meer lezen over PageRank:
Peter, kreeg nav bovenstaand item een email van headliner.nl dat ze recentelijk een PR0 (PageRank Zero) hebben gekregen van Google. Logisch dus dat je ze niet terug ziet in de eerste 100 zoekresultaten. Headliner.nl heeft de PR0 waarschijnlijk gekregen door aanpassingen in link- en taalgebruik. Heel vervelend voor headliner.nl, maar helaas de dagelijkse realiteit. Heb zelf voor een grote klant iets vergelijkbaars meegemaakt. Prima ranking in Google, kleine aanpassing in homepage en binnen een paar weken niet meer vindbaar in Google.
Zoek maar eens op “PR0”, “PageRank Zero” of “Google Penalty” en je zult ongetwijfeld meer informatie vinden over het waarom websites soms terugvallen in PageRank.
Terugkomend op je vraag. Van kelkoo.nl zou ik me kunnen voorstellen dat de PageRank teveel is gebaseerd op interne verwijzingen. Van nwo.nl en apple.nl begrijp ik zowiezo niet dat ze in de lijst van voelspriet staan. Beide hebben een autodirect naar een andere pagina. In het geval van apple.nl ga je zelfs naar een ander domein, i.e. apple.com/nl/. Van adobe.nl weet ik alleen dat de broncode (de html-code van de homepage) een drama is voor zoekmachines en dus ook voor Google. Wellicht heeft dat er iets me te maken!?
Maar misschien dat een van de zoekmachine marketing specialisten hier iets meer over kan zeggen?
Beste Marco
Kun je over volgende zaken wat meer uitleg geven, svp:
– Welke zoekstring gebruikte je bij de sortering op relevantie (standaard ranking)?
– Welk criterium gebruikte jijzelf om deze resultaten te sorteren op relevantie?
– Over welke ranking heb je het precies in je bewering dat 30% van de “ranking” te verklaren is door PageRank? (Bedoel je hier de ranking die Google weergeeft als zoekresultaat? Indien dit zo is, op basis waarvan kun je zulks beweren? Berekende je immers niet enkel de correlatie tussen PageRank en ranking op relevantie?)
– Je spreekt over een correlatie van 0.30. Dit wijst toch enkel op een samenhang, maar niet op een oorzakelijk verband tussen de variabelen (“te verklaren door”)? Het kwadraat van deze correlatiecoëfficiënt (0.30) geeft daarentegen het gedeelte van de variantie van de ene variabele dat kan toegeschreven worden aan de lineaire samenhang met de andere variabele. Of met andere woorden: op basis van jouw resultaten lijkt het me dat slechts 9% van de onderlinge verschillen in relevantie kan worden toegeschreven aan PageRank.