Miljoenste link voor Startpagina. Of, nou ja…

4 oktober 2005, 09:27

“Vandaag heeft Startpagina de magische grens van de miljoenste hyperlink bereikt.”, stellen Startpagina en search engine mediabureau Checkit in een gezamenlijk persbericht. Gezamenlijk, want alle links van Startpagina worden voortdurend gecontroleerd op dode en gewijzigde links door de LinkChecker software van Checkit.

Een machtig mooi product, al zegt Checkit het zelf: “We gebruiken het bijvoorbeeld ook voor onze Search Engine Ranking klanten. De LinkChecker heeft na 6 jaar zijn bestaansrecht duidelijk nog niet verloren”. Ook Bert Wiggers, directeur van Startpagina, is lovend over de LinkChecker. “De kwaliteit van Startpagina en de links is onze hoogste prioriteit, en daarbij is Checkit een betrouwbare partner.”

Uhhmm.. Ja. Jammer alleen dat die LinkChecker een beetje si?sta aan het houden is.

Zo stuitte ik toevallig vorige week op http://mediaplan.pagina.nl/

Ik noem een paar links op, je mag ze zelf opzoeken op de pagina.

Media Insight… 404 not found

Mediaedge:cia… Bestaat niet meer

Initiative Media… 404 not found

Telmar… 404 not found

MDS… 404 not found

Nommedia… 404 not found

Zweden… 404 not found

Alle links in het kader “Mediaplanning dagbladen”… Error

Is bovenstaande pagina misschien een uitzondering? Een paar links die er doorheen zijn geglipt? Nou… niet echt:

http://link-popularity.pagina.nl/

Reciprocal Linking is a crucial… 404 not found

Ilse top15 & de populairste sites… 404 not found

Disturbing Search Request… 404 not found

Link Popularity Analyzer… 404 not found

Access to linkage information… 404 not found

Analyzing hyperlink structure… 404 not found

http://google.pagina.nl/

Using Google – A Tutorial… 404 not found

Google instant messages… 404 not found

Google offers voice messaging … Bestaat niet meer

Google saved my ass… 404 not found

Early archive restored… Bestaat niet meer

Privacy concerns GG archive… 404 not found

Google: An engine of change… 404 not found

The world according to Google.. Bestaat niet meer

Disturbing Search Request… 404 not found

Google Dance Tool #1… Bestaat niet meer

Definitie zoekmachine spam… 404 not found

Loogie (10 good sites)… 404 not found

The anatomy of a large-scale…. 404 not found.

Google alpha versie 1998… Bestaat niet meer

Googlevillage.info… Server gehacked (evenals Googlology)

Googuide.com… Bestaat niet meer

Googleguy says… 403 permission denied

I-search… Bestaat niet meer

International Herald: GGHacks… Bestaat niet meer

Intel: Google Snapshot… 404 not found

Anders, Anders, Anders, wat loop je weer te mopperen. Dat zal best, maar feiten liegen niet. Ik snap best dat het up-to-date houden van een miljoen links een pittig karwei is, maar de lyrische toon van het persbericht is niet op zijn plaats. Er zijn veel gratis open source-programmaatjes die bovenstaande foute links – in ieder geval de 404’s – er wel zonder enig probleem uithalen.

Categorie
Tags

15 Reacties

    Erik

    Het is natuurlijk niet de tool van Checkit, maar de betreffende beheerder die zit te slapen. Als laatstgenoemde geen opvolging geeft aan hetgeen de tool van Checkit signaleert, tja, dan krijg je dus dergelijke resultaten…


    4 oktober 2005 om 10:03
    ralphbom

    Wordt een goed kip-ei-verhaal op deze manier:

    * Wat heb je aan een ’tool’ als deze alleen signaleert?

    * Wat heb je aan een beheerder die niets doet aan dode links?


    4 oktober 2005 om 11:37
    TA

    “Er zijn veel gratis open source-programmaatjes die bovenstaande foute links – in ieder geval de 404’s – er wel zonder enig probleem uithalen.”

    Ken ook nog een paar leuke:

    Anders bouwt zijn eigen huis

    Anders heeft zijn eigen weblog

    Anders host zelf zijn eigen weblog

    Anders maakt zijn eigen computer

    Anders maakt zijn eigen auto

    nee…nog sterker…

    Anders bouwt zijn eigen auto

    Sorry hoor…maar is weer schoppen en schoppen op niks af…

    PS:

    Anders gaat zelf nadenken? 😉


    4 oktober 2005 om 11:50
    Eric

    Linkchecks zijn altijd moment opnamen, een link die de ene dag dood lijkt te lopen, kan de volgende dag weer werken.

    Daar houden startpaginadochter beheerders vaak rekening mee. Ik beheer zelf vele pagina’s. Ik verwijder de dode links dus ook niet na de eerste melding. Pas na 2 (of soms) 3 meldingen, gaat een dode link er af (omdat de kans dat het alsnog terug komt, dan wel heel klein is).

    En nee, zelden komt mijn dode link percentage boven de 2%

    Maar als je met vakantie bent, wil het wel eens gebeuren dat je er geen zicht op hebt, want zelfs beheerders hebben wel eens rust nodig. 😉


    4 oktober 2005 om 11:53
    Jeroen van de Wiel

    Hmmmmmm, ik geloof dat twee van die voorbeelden hier boven van mij zijn 😉

    Ik geloof dat de menselijke factor bij een link checker ook altijd nog een factor mee speelt. Laat ik nu net vandaag een nieuwe dochter hebben gelanceerd in plaats van de links na te lopen. Een leuk weetje: om alle links op de Google.pagina.nl na te lopen ben ik ruim 3 dagen full time bezig aangezien het er meer dan 3.500 zijn…

    Ik zal de twee genoemde voorbeelden (link-popularity en Google.pagina) die ik in beheer heb vandaag in ieder geval nog even na lopen. Dank voor het lijstje 😉


    4 oktober 2005 om 12:08
    Støf

    @TA; Het verschil is dat Anders zich niet specialiseert in auto’s of huizen bouwen. En doen dat wel met hun linkchecker. Ook geven ze een persbericht aan hoe goed ze zijn, maar een simpele test wijst anders uit?


    4 oktober 2005 om 12:36
    Jeroen van de Wiel

    Ik ben even wat dieper in gedoken om te kijken wat er aan de hand is. Allereerst even de werking: Checkit controleert eens in de week (meestal op vrijdag) de links op alle 4650 en nog wat dochters. De resultaten worden in een rapport geplaatst en een samenvatting wordt gemaild aan de beheerder. Het is dus niet zo dat de check tool de links ook direct verwijderd! Dit is onder andere waarschijnlijk gedaan om de beheerder de volledige regie over de dochter te laten behouden. Als er dus links niet werken dan is er dus sprake van een menselijke fout, niet primair van de checker.

    Nu naar de voorbeelden: De google.pagina.nl heeft in totaal ruim 420 links. (uit mijn hoofd) Daarvan zijn er door de linkchecker van Checkit 17 aangemerkt als niet werkend. Dit is +/- 3,5 % van alle links op de pagina. Dit is veel, te veel zelfs, maar volgens de Startpagina richtlijnen mag maximaal 5% een foutmelding geven en als je er dan niets aan doet dan ben je je pagina kwijt. Ik zelf denk dat 2% niet werkend een max zou moeten zijn voor een kwalitatieve pagina.

    De checker telt er 17 en jij hebt er 20 gevonden. Dit waren met name links die geen 404 melding gaven maar een ander bericht.

    Dan in heel erg detail: Van die 17 links waren er 4 recent geplaatst. (ik houd de checker aan, daar baseer ik me op met het onderhoud). Daarnaast waren er onlangs van een aantal universiteiten de structuren van de site veranderd. Allen geen reden om een pagina zo veel links niet te laten werken, maar ik hoop op een beetje begrip 😉

    Met een vriendelijke groet, Jeroen


    4 oktober 2005 om 14:28
    René

    “Ik verwijder de dode links dus ook niet na de eerste melding. Pas na 2 (of soms) 3 meldingen, gaat een dode link er af”

    Wat zeg je nu Eric? Kan die lyrische linkchecker niet eens zelf zo’n tellertje bijhouden en pas na 3 keer dood signaleren? Ik heb zelf ooit in anderhalve dag een linkchecker geprogrammeerd die dat wel kan.

    Het zou weleens kunnen zijn Anders, zeg ik speculerend, dat het ding niet op de database werkt maar web-spiderend en dat het daarbij zijn hoofd stoot tegen de idiote Javascript-code in sommige dochters.


    4 oktober 2005 om 14:29
    Jeroen van de Wiel

    > Het zou weleens kunnen zijn Anders, zeg ik speculerend, dat het ding niet op de database werkt maar web-spiderend en dat het daarbij zijn hoofd stoot tegen de idiote Javascript-code in sommige dochters.

    De linkchecker maakt rechtstreeks gebruik van de XML feed waarin de links staan.

    Als je kijkt naar wat het doel van al die javascript code is dan vind ik die bij benadering geniaal. Duik er maar eens diep in en probeer te doorgronden wat het allemaal moet doen. Dan begrijp je sommige bizarre keuzes ook. Ik heb ooit een klein stukje nodig gehad en heb me er echt over zitten verwonderen hoe het allemaal geprogrammeerd is.

    Ik begrijp je reactie ook maar Startpagina is een complexe site waar 2000 beheerders ook nog eens een en ander in te zeggen hebben. Dat betekent dat veel keuzes (werking linkchecker bijv.) onder consensus gemaakt moeten worden. Alles moet voor iedereen goed werken. Ik denk wel dat deze post tot nadenken zal zetten over bepaalde keuzes. In ieder geval werken nu alle links op twee van de drie voorbeelden hier boven.


    4 oktober 2005 om 16:26
    Peter Stam

    citaat “Wat zeg je nu Eric? Kan die lyrische linkchecker niet eens zelf zo’n tellertje bijhouden en pas na 3 keer dood signaleren? Ik heb zelf ooit in anderhalve dag een linkchecker geprogrammeerd die dat wel kan.”

    Nee dit zegt Eric niet, linckchecker geeft keurig aan dat een site 1 , 2 of 3 keer bij controle offline is. Zoals al eens eerder gemeld heeft het geen zin om bij de eerste melding direct een pagina van een Startpagina af te halen. Vele factoren kunnen debet zijn aan het (tijdelijk) offline zijn van een site en het zou dan niet gepast/gewenst zijn deze link meteen te verwijderen. De Startpaginabehherder is hierzelf voor verantwoordelijk.


    5 oktober 2005 om 09:14
    Marco van Veen

    Het is gelukkig weer een opbouwende discussie 🙂

    De linkchecker is ooit begonnen om een extra service te bieden aan de dochterbeheerders, namelijk een makkelijke manier om overzicht te krijgen of alle linkjes wel of niet goed werken. De kwaliteit van de Startpagina is mede afhankelijk van dit technische aspect. De service is best complex daar het hier veel links (meer dan miljoen over duizenden pagina’s) te verwerken krijgt en individuele mailrapportages verstuurd. Dit alles wordt geanalyseerd en gearchiveerd.

    Het resultaat: sinds de start zien we dat het percentage foutmeldingen enorm is afgenomen, wat weer ten goede komt voor de gebruikers.

    Is het mogelijk om de links automatisch weg te halen? Natuurlijk! Is het gewenst? Vraag het me af. Uiteidenlijk zal een beheerder zich afvragen wat er met de link is gebeurt…is het linkblokje niet meer compleet, moeten ze weer gaan zoeken…is de URL wellicht gewijzigd etc. Ook dit kost tijd. Er is voor gekozen de regie in handen te houden van de Startpaginadochters.

    Verder is de service uitgebreid met een kwaliteitssysteem dat mede zorg draagt voor een verdere waarborging van de (gebruikers)kwaliteit. De heer Anders had het liever wellicht anders gezien, maar wij en opdrachtgever Startpagina zijn tevreden 🙂


    5 oktober 2005 om 10:35
    Eric

    quote: Is het mogelijk om de links automatisch weg te halen? Natuurlijk! Is het gewenst? Vraag het me af.

    Dat is zeker niet gewenst, vaak gaat het om dode deeplinks, die dan op een ander gedeelte van de website alsnog weer zijn terug te vinden. Nee hoor, het werkt heel goed (en de collega’s die me kennen, weten dat ik zoiets niet snel zeg).


    7 oktober 2005 om 14:14
    Ruud Steltenpool

    Het lijkt mij handig dat als een link in de laatste n tests ook n keer een 404 teruggeeft deze URL voor de bezoeker ‘verdwijnt’ tussen HTML comments <!– –> en voor de beheerder in een vagere tint wordt weergegeven.


    8 oktober 2005 om 23:14
    Peter Stam

    Ruud, (dit wordt nu een discussie tussen beheerders onderling, mischien voor buitenstaanders slecht te volgen)

    die optie is afhankelijk of je via de online (dan is het mogenlijk) of via de offline editor werkt (dan heeft het geen zin)


    9 oktober 2005 om 06:02
    Steven

    Ik als beheerder en mede programmeur van websites ben na een aantal maanden van mijn beheerverleden begonnen aan een eigen database waarin mijn links staan inclusief een site waar ik ze mee beheer. Noem het een offline editor omdat de xml die mijn systeem uitspuugt uiteindelijk nog weer naar startpagina moet worden upgeload (handmatig). Tegelijkertijd is het ook een online editor omdat ik mijn beheersite overal ter wereld per internet kan bereiken en daarnaast kunnen bezoekers het systeem weer gebruiken voor het aanmelden en wijzigen van hun links. Daarbij ben ik inmiddels ook begonnen met een linkchecker die snachts even alle links naloopt, of een ‘aantal beruchte’. Dat is nog niet af, maar een beheerder heeft het dus zoals je ziet ook wel zelf in de hand om dit deels te automatiseren. Mijn website is in staat om links nonactief te stellen en een nieuwe xml aan mij te emailen om te worden upgeload.

    Wat ik nog even kwijt wil over Linkchecker:

    Linkchecker is een handige tool voor de beheerder om vrij snel links te controleren en dus door de herhaalde controle zien of een link een echte dode is of alleen een webserver die snachts off gaat voor backup etc.

    Helaas heeft Linkchecker ook nog een probleempje:

    “Let op: Het domein yahoo.com accepteert binnen een bepaalde tijd maar een beperkt aantal pagina opvragen. Omdat alle dochters bij elkaar ruim 5000 keer naar Yahoo linken, hebben we helaas moeten besluiten de yahoo-pagina’s check over te slaan. Het is dus verstandig zelf de yahoo links op uw pagina regelmatig te controleren! “

    Kortom vertrouw ook niet 100% op linkchecker, anders heb je alsnog mogelijk dode yahoo links.

    Verder is startpagina opgezet vanuit het oogpunt dat beheerders die verstand hebben van hun onderwerp een eigen links site te kunnen beheren. Deze beheerder moet dus actief bezig gaan met het beheren, plaatsen en verwijderen van de links. Startpagina is niet een standaard (commerciele) linkjesdatabase zoals vele linkportals die je nog wel eens ziet als je een verkeerd adres intikt.


    13 oktober 2005 om 10:43

Marketingfacts. Elke dag vers. Mis niks!