Conclusies AOL’s ‘gelekte’ zoekmachine data

23 november 2006, 07:34

Drie maanden geleden gaf de grootste Amerikaanse internet provider America Online (AOL) een 2,2GB groot bestand vrij. In dat bestand staan 21 miljoen zoekopdrachten van 657.000 AOL gebruikers, en data over waar deze gebruikers op klikten. Het bestand was bedoeld voor onderzoekers, om het zoekgedrag van mensen te analyseren. Snel na het vrijgeven en veel kritiek online vanwege de privacy implicaties, trok AOL het bestand terug. Uiteraard was het leed al geschied en het bestand verspreid.

Het gaat in dit bestand nadrukkelijk alleen om de “gewone” (natuurlijke/ organische) zoekresultaten. Het interessante is dat de data anoniem is, maar elke gebruiker wel herkenbaar is aan een uniek nummer. Door de vele persoonlijke zoekopdrachten zijn gebruikers echter goed te herkennen, omschrijft CNET leuk:

[…] it’s possible to guess that AOL user 710794 is an overweight golfer, owner of a 1986 Porsche 944 and 1998 Cadillac SLS, and a fan of the University of Tennessee Volunteers Men’s Basketball team. The same user, 710794, is interested in the Cherokee County School District in Canton, Ga., and has looked up the Suwanee Sports Academy in Suwanee, Ga., which caters to local youth, and the Youth Basketball of America’s Georgia affiliate.

That’s pretty normal. What’s not is that user 710794 also regularly searches for “lolitas,” a term commonly used to describe photographs and videos of minors who are nude or engaged in sexual acts.

Gelukkig zijn er ook interessantere conclusies te trekken op basis van de zoekopdrachten:

Representatief voor Nederland?

De data van AOL is misschien niet representatief voor Nederland, aangezien Amerikanen ongetwijfeld ander gedrag vertonen. AOL gebruikers zijn over het algemeen wel minder ervaren internet gebruikers dan andere Amerikanen, die Google, Yahoo!, MSN of Ask gebruiken. Tegelijk moet bedacht worden dat AOL zijn zoekresultaten betrekt van Google.

Google heeft in Nederland een marktaandeel van meer dan 90%. Dus wat betreft kwaliteit en vormgeving van zoekresultaten zijn de gebruikers in de VS aan dezelfde variabelen blootgesteld als Nederlanders. Verder lijken Nederlanders altijd iets achter te lopen wat betreft online gedrag. Doe hier dus je voordeel mee…

Er is vreemd genoeg weinig aandacht geweest op Nederlandse blogs. Beter laat dan nooit wil ik de belangrijkste en leukste conclusies uit de data op een rij zetten. Uiteraard kijken we vooral naar de implicaties voor online marketeers, en met name zoekmachine marketeers.

Wat telt: de top en anders niets

Ruim 42% van de klikken gaat naar de nummer 1. Dat is 3,5x zoveel als het aantal klikken op de nummer 2, waar slechts 11% landt. Vanaf daar gaat het snel bergafwaarts in deze analyse van 9.038.794 zoekopdrachten en de daarop volgende 4.926.623 klikken:

Positie Klikken Verschil
Vergeleken met #1
1: 2,075,765
2: 586,100 = 3.5x less
3: 418,643 = 4.9x less
4: 298,532 = 6.9x less
5: 242,169 = 8.5x less
6: 199,541 = 10.4x less
7: 168,080 = 12.3x less
8: 148,489 = 14.0x less
9: 140,356 = 14.8x less
10: 147,551 = 14.1x less
Vergeleken met # erboven
1: 2,075,765
2: 586,100 = 3.5x less than ^
3: 418,643 = 1.4x less than ^
4: 298,532 = 1.4x less than ^
5: 242,169 = 1.2x less than ^
6: 199,541 = 1.2x less than ^
7: 168,080 = 1.2x less than ^
8: 148,489 = 1.1x less than ^
9: 140,356 = 1.05x less than ^
10: 147,551 = 1.05x more than ^

Dat ziet er grafisch zo uit:

Hier is goed te zien dat het verschil tussen de nummer 1 en 2 enorm is, waarna de klikratio meer geleidelijk afneemt. Je kunt je dus beter concentreren op het verbeteren van een nummer 2 positie, dan op het verbeteren van iets lagers. Als je ervan uitgaat dat dezelfde moeite dezelfde stijging oplevert, wat helaas natuurlijk niet zo is. Maar duidelijk is dat het enorm loont om toch nog te proberen de nummer 1 positie te pakken, als je “al” op nummer 2 staat. Voor goede zoekmachine marketing specialisten is dit natuurlijk geen verrassing.

Ook een leuk weetje is dat de nummer 10 altijd iets beter scoort dan de nummer 9. Dit komt doordat dat het laatste resultaat is, dus dat valt iets meer op.

Verder nog een andere analyse van 7.752.953 klikken, gekeken naar de percentages klikken per resultaatpagina:

Zoekresultaten Klikken %
1-10 6955461 89,71%
11-20 338558 4,37%
21-30 187744 2,42%
31-40 82751 1,07%
41-50 44500 0,57%
51-60 33590 0,43%
61-70 23354 0,30%
71-80 15960 0,21%
81-90 13430 0,17%
91-100 11178 0,14%
100 67383 0,87%

En dat je toch echt op de eerste pagina moet staan om te scoren, mag ook duidelijk zijn.

Geen klik op veel zoekopdrachten

46% van de zoekoprachten levert geen klik op een zoekresultaat op. Dit kan echter ook betekenen dat die klik is geland op een gesponsord resultaat. Ook zitten daarbij nog de mensen die naar een volgende zoekresultaten pagina doorklikken. Maar in any case is dit een alarmerend percentage, kennelijk vinden veel mensen nog steeds niet wat ze hoopten te vinden.

Domeinnamen nog vaak als zoekopdracht

Een bekend fenomeen is het intikken van domeinnamen als zoekopdracht. Veel gebruikers zijn zo gewend geraakt aan het invulveld van hun zoekmachine, dat ze de adresbalk van hun browser niet meer gebruiken. SEOmoz (een erg goed zoekmachine marketing blog!) beschrijft dat 3,5 miljoen van de 17 miljoen geanalyseerde zoekopdrachten (20%!) een domeinnaam extensie bevatten. Volgens een meer gedetailleerde analyse is dit percentage zelfs 28,26%.

Hierin herken je een vaak terugkerend patroon van veel internet gebruikers, en zeker niet alleen in zoekmachines. Als eenmaal een succesvolle route is gevonden, wordt de route een routine. Gedrag verandert pas als geen succes meer word behaald, en zelfs dan pas als het echt niet meer gaat.

Overigens wordt aangetekend in een reactie dat AOL gebruikers vaak een AOL browser gebruiken waarbij er 1 invulveld is voor een zoekopdracht en een webadres. De invloed hiervan op de data is mij niet geheel duidelijk, als iemand hier meer van weet hou ik me aanbevolen!

Toch meerdere pagina’s bekeken?

Ook bij WWWScoped wordt geschreven dat 42% van alle zoekopdrachten op een volgende pagina waren, dus niet de eerste pagina. Dit getal lijkt mij ook erg hoog, maar WWWScoped wijst ook naar eerder bewijs dat dit ondersteunt. Data van Altavista uit 1998 (PDF, 690kB) geeft aan dat 32% van de zoekopdrachten naar een volgende pagina leiden.

Aantal zoekopdrachten per gebruiker

Omdat er ook datums in de data te vinden zijn, en natuurlijk de gebruiker ID’s, is te achterhalen hoe vaak mensen zoeken. SEO Portal analyseerde het aantal klikken per gebruiker. Dit is dus het aantal succesvolle zoekopdrachten. Gemiddeld zocht een gebruiker 30 keer, dus slechts 10 keer per maand. De percentages zijn logischerwijs nogal verdeeld, dus ik heb de data even geaggregeerd:

Zoekopdrachten uit meerdere woorden

Hierin lijkt het Nederlandse publiek over het algemeen iets achter te lopen op hun Amerikaanse broeders. Waarschijnlijk doordat hier gewoon minder ervaring is, en minder zoekmachine spam.

De gemiddelde lengte van een zoekopdracht is 2,34 woorden. Als je de zoekopdrachten met domeinnamen niet meetelt kom je zelfs tot 2,86 woorden.

Vreemd genoeg kon ik nergens rauwe data vinden over de verdeling van het aantal woorden per zoekopdracht. Alleen een PDF van AOL zelf (PDF, 227kB) geeft een overview in een grafiek.

Daarin is ook te zien dat de mediaan zelfs op 3,5 woorden ligt.

Overigens wordt heel regelmatig door leveranciers van webstatistieken onderzoek gedaan naar het aantal woorden per zoekopdracht, omdat deze data ook uit referrers gehaald kan worden.

Andere grappige, interessante of verontrustende bevindingen

  • Uit deze analyse blijkt dat 1,85% van de kliks naar Google.com gaat. Dat zijn dus 143.666 mensen die vanuit Google zoekresultaten doorklikken naar Google…
  • 6,5% van de gebruikers zocht naar kinderporno (“child porn”), minstens 3,5% zocht nog naar andere vormen van porno (bron).
  • Oprah Winfrey is de populairste vrouw-als-zoekopdracht. Ja. Paris Hilton is de schamele nummer 2.

Tools en resources

Er is heel veel geschreven over de AOL data. Uiteraard is met name de zoekmachine optimalisatie gemeenschap er met enorme gretigheid in- en opgedoken. Dit zijn een aantal resources die voor mij van waarde waren:

Ruben Timmerman
Directeur bij Eduhub BV

Ruben Timmerman is zelfstandig adviseur, trainer en spreker op het gebied van usability en online marketing. Hij heeft ruim 5 jaar ervaring in projecten voor o.a. Hyves, Thomas Cook, Campina, FNV, NS, Talpa, Het Rode Kruis en VNU Media. Ruben schrijft over zijn passie op zijn usability weblog Usarchy.com en daarnaast op o.a. Marketingfacts en Frankwatching. Hij is aan LECTRIC en de Hogeschool Utrecht verbonden als usability docent. Momenteel werkt hij hard aan zijn volgende startup Eduhub, een vergelijkingssite voor trainingen en opleidingen op o.a. marketing en internet gebied.

Categorie
Tags

10 Reacties

    Roy Huiskes

    hahaha, kut ik was ongeveer op de helft van mijn artikel met precies dezelfde inhoud 😀

    goed artikel ruben! ik plaat wel gewoon een link en dat ik goed artikel vind.


    23 november 2006 om 08:23
    RubZie

    Heh, Roy sorry, en dank je 🙂 Deze staat ook al een hele tijd te wachten in mijn concepten, ik moest eerst eens al die verkiezingsreviews afmaken… Maar heb jij nog andere conclusies getrokken/ kunnen vinden?


    23 november 2006 om 08:26
    Roy Huiskes

    behalve dat het totaal niet relevant is voor Nederland op vele gebieden niet. Bijvoorbeeld het gebruik van 3.5 zoekwoorden…

    Ik heb wel zitten denken of ik die CTR’s voor NL na kan rekenen of vergelijken aan de hand van resultaten (of iig kan vergelijken), maar is de CTR per ‘branche’ ook behoorlijk verschillend, waardoor dit eigenlijk niet nauwkeurig echt goed te doen is.

    Verder is de invloed van je browser te vergelijken met de invloed van je live.com resultaten in Internet Explorer 6 en 7. Op moment dat je een typefout maakt (of soms geheel willekeurig) krijg je een zoekopdracht in plaats van een URL. Uiteindelijk kom je wel terecht waar je moet zijn maar met een tussenstap. Vandaar ook de autofocus die Google op haar searchbox heeft gezet. Dit levert gewoon domweg meer informatie op. Vanuit de Google (en MSN) Toolbar kom je overigens rechtstreeks op de website zonder de SERP’s van je zoekmachine te zien.

    Wat ik ook leuk vind is dat je zelfs op het aantal zoekopdrachten per maand kunt zien dat en hoe de long tail werkt 😉

    Wat mij nog meer verbaasde is het feit dat je op nummer 10 maar 0.7x meer bezoek kreeg als op nummer 9. Terwijl juist door vele SEO’s werd gezegd dat dit vele malen interessanter zou zijn qua clicks. Ik zou dan ook wel graag een Eyetracking met Heatmap willen zien. Misschien zijn deze plaatsen voor de Branding wel interessant.


    23 november 2006 om 08:44
    RubZie

    Ik weet niet of het totaal niet relevant is voor Nederland. Ik schrijf inderdaad ook dat wij nog wat achterloopen, dus die 3,5 termen lijkt me inderdaad niet relevant. Maar qua klikgedrag kan ik me wel voorstellen dat het hier hetzelfde is. Er is echter geen manier om dat betrouwbaar te onderzoeken zonder data van een zoekmachine.

    De invloed van browsers lijkt mij niet erg groot, zoals jij het omschrijft. Er is hier echter een ander groot browserprobleem; voor deze data zijn gebruikers met de AOL Client omschreven. En hoe die werkt, weet ik niet. Maar dat dat onervaren gebruikers zijn is wel zeker. Er wordt daarover ook redelijk weinig geschreven, ik kon er dus alleen dit van bakken:

    Overigens wordt aangetekend in een reactie dat AOL gebruikers vaak een AOL browser gebruiken waarbij er 1 invulveld is voor een zoekopdracht en een webadres. De invloed hiervan op de data is mij niet geheel duidelijk, als iemand hier meer van weet hou ik me aanbevolen!


    23 november 2006 om 08:50
    foppestrikwerda

    Top artikel, goede info!

    Ook interessant om te zien dat de nr 11 positie blijkbaar meer kliks oplevert dan de nr 3!


    23 november 2006 om 09:52
    RubZie

    Foppe: dat is helaas niet waar. Mijn grafiek is kennelijk niet duidelijk genoeg, maar het is 11 – …, dus positie 11 en alles daarna.


    23 november 2006 om 11:33
    Ulco

    > Ook interessant om te zien dat de nr 11 positie blijkbaar meer kliks oplevert dan de nr 3!

    Dat klopt niet helemaal, in de grafiek is de laatste bar voor de zoekresultaten 11 t/m oneindig.


    23 november 2006 om 11:36
    RubZie

    C.: hmmm die was ik nog niet tegengekomen gek genoeg. Ik heb er op de andere bronnen ook niks over gelezen, maar ga er nog wel effe induiken want ik snap het inderdaad ook niet.

    Een logische oplossing voor dat probleem zou zijn dat die mensenn nog een search doen door op een knop te klikken die kennelijk als “result” aangemerkt staat. Als je op niks zoekt op search.AOL,com, staat er een link naar “About this page”, misschien is dat automatisch een zoekresultaat ofzo…?


    24 november 2006 om 06:25
    Mark van Zanten

    Volgens mij klopt de volgende uitspraak niet volledig:

    “Je kunt je dus beter concentreren op het verbeteren van een nummer 2 positie, dan op het verbeteren van iets lagers”

    Buiten het feit dat er iets van waarheid in zit (maar probeert niet iedereen in principe op 1 te komen) zou ik je willen vragen deze twee percentages naast elkaar te zetten:

    Kliks op nummer 1 zoekresultaat: 42%

    Invoeren van domeinnaam in zoekbalk: 28,6%

    Bij het invoeren van de domeinnaam komt de website van de domeinnaam als eerste resultaat naar boven. Het is te eenvoudig om het tweede percentage af te trekken van het eerste percentage.

    Maar voor de correcte weergave van de cijfers, zouden de zoekresultaten waarbij een domeinnaam als zoekterm is gebruikt, moeten worden uitgesloten.

    Indien je deze veel complexere rekensom maakt, zul je zien dat het verschil tussen 1 en 2 aanzienlijk kleiner is.


    24 november 2006 om 16:22

Marketingfacts. Elke dag vers. Mis niks!