Google-index bereikt mijlpaal van 1 biljoen URL’s

26 juli 2008, 05:05

Gisteren maakten Jesse Alpert en Nissan Hajaj, beide software engineers van Google’s Web Search Infrastructure Team, bekend dat Google inmiddels meer dan 1 biljoen URL’s telt in haar database. De eerste Google-index in 1998 telde al 26 miljoen pagina’s. Twee jaar later in 2000 werd de grens van 1 miljard pagina’s bereikt.

Alpert en Hajaj leggen ook uit hoe ze aan die 1 biljoen URL’s komen:

(…) We start at a set of well-connected initial pages and follow each of their links to new pages. Then we follow the links on those new pages to even more pages and so on, until we have a huge list of links. In fact, we found even more than 1 trillion individual links, but not all of them lead to unique web pages. Many pages have multiple URLs with exactly the same content or URLs that are auto-generated copies of each other. Even after removing those exact duplicates, we saw a trillion unique URLs, and the number of individual web pages out there is growing by several billion pages per day. (…)

Het is dus niet exact bekend hoeveel unieke pagina’s het web telt. Bovendien moeten we ons realiseren dat Google ook niet alles indexeert, zodat het totale web waarschijnlijk groter is dan de 1 biljoen die de Google-index nu telt. Zelf gebruik ik vaak de Web Server Survey van Netcraft als indicatie voor de omvang van het web. Op dit moment telt Netcraft ruim 172 miljard websites. Beduidend minder dus dan het aantal URL’s dat Google in haar database heeft zitten!

Marco Derksen
Partner bij Upstream

Oprichter/partner Upstream, Marketingfacts, Arnhem Direct, SportNext, TravelNext, RvT VPRO, Bestuur Luxor Live, social business, onderwijs, fotografie en vader!

Categorie
Tags

9 Reacties

    chi666

    Dat het totale web veel groter is, is logisch. Als je kijkt naar de overlap van zoekresultaten tussen Google, Yahoo en MSN live search zie je dat die er bijna niet is. Slechts een paar procent in de top 100 op sommige zoekopdrachten. Dus het is veel, veel groter nog.


    26 juli 2008 om 05:46
    Max

    Netcraft telt sites (domeinen, om precies te zijn), google telt afzonderlijke pagina’s. Dat zijn twee hele verschillende zaken.


    26 juli 2008 om 12:02
    media

    @Max: in dit geval gaat het om URL’s die Google telt, niet om de pagina’s!


    26 juli 2008 om 12:11
    Jeroen

    @Max en @Marco: een URL verwijst inderdaad naar een individuele pagina en niet naar een hele website. Volgens mij zijn we dan ook appels met peren aan ’t vergelijken, maar daar verschiet ik ook niet van als ik zie hoe de termen “url”, “pagina” en “websites” door elkaar gehaald worden.


    26 juli 2008 om 13:07
    media

    @Jeroen: hmmm, ik heb URL’s als aparte domeinen geinterpreteerd; als het pagina’s zijn, dan is de vergelijking met Netcraft inderdaad onterecht!


    26 juli 2008 om 13:13
    Max

    @marco: er kan een verschil zijn in aantal urls en aantal documenten – meerdere urls kunnen naar 1 document verwijzen. Dat werd in het artikel ook al vermeld, en ook dat google die er in hun telling hebben uitgefilterd. En een domein is natuurlijk maar een deel van de url.

    Los daarvan: zolang je de gegevens van netcraft en google los van elkaar blijft zien kunnen ze elkaar wel aanvullen.


    26 juli 2008 om 19:14
    Jasper van Weerd

    en wat nou als een CMS pakket met smart URL’s werkt, hoe wordt er dan geteld? per dir / page, elk dir opent namelijk een page… maar is het dan een zelfstandige url? etc…


    27 juli 2008 om 03:55
    Max

    @Jasper: Dat maakt verder niet uit. Het zal Google worst zijn hoe de URL er precies uit ziet (dus of dat nou “smart” is of niet). Het gaat erom waar die URL naar wijst. Als je niet met een CMS werkt kan een dir ogenschijnlijk ook naar een pagina leiden — de meeste webservers vertallen /mijn/url/ automagisch naar /mijn/url/index.html (en aanverwanten). Google houdt rekening met dat gedrag.


    27 juli 2008 om 04:54
    Roy Huiskes

    @jasper, in deze telling geven ze aan dat dit wel zo word opgeslagen, en dat er pas later naar gekeken word op de betreffende pagina al voorkomt.

    Overigens stopt google er al vrij vlot mee als hij in de gaten krijgt hoe dubbel bepaalde URL’s zijn… (voorheen supplemental)


    27 juli 2008 om 04:57

Marketingfacts. Elke dag vers. Mis niks!