Van illusie naar innovatie: Hoe NS International de betrouwbaarheid van haar A/B testprogramma radicaal heeft verbeterd
Wat als de resultaten van je A/B-testen niet kloppen? Wat als beslissingen worden genomen op basis van data die niet betrouwbaar blijken te zijn?
In mijn samenwerking met Hans Nauta en Eline van Baal, drijvende krachten achter het A/B testprogramma van NS International, stelden we ons die kritische vragen. Het leidde tot een samenwerking die hun A/B-testprogramma volledig transformeerde, geïnspireerd door recente ontwikkelingen in wetenschappelijk gedragsonderzoek. Het resultaat: betrouwbaarheid als kernwaarde en een prestigieuze award op zak. In deze (samen geschreven) blogpost delen we enkele inzichten en lessen die niet alleen marketingteams, maar ook organisaties breder kunnen inspireren.
Wat de replicatiecrisis marketeers leert over A/B-testen
Misschien heb je al eens gehoord van de “replicatiecrisis” in de wetenschap.
Dit probleem draait om het gegeven dat veel ogenschijnlijk robuuste onderzoeksbevindingen bij herhaling (“replicatie”) niet standhouden. Studies die aanvankelijk sterke conclusies ondersteunden, komen bij replicatie vaak tot geheel andere resultaten. Het woord “crisis” is hier terecht gekozen, want de essentie van wetenschap is toch waarheidsvinding. Dit probleem vereist(e) dan ook een grondige herziening van gangbare onderzoekspraktijken en -methoden.
Je vraagt je misschien af: Wat heeft dit met marketing te maken?
Meer dan je denkt.
Hetzelfde probleem speelt bij A/B-testen en datagedreven marketing. Ook daar worden conclusies soms te snel getrokken, met alle gevolgen van dien.
Samen met NS International zijn we de uitdaging aangegaan om hun testprogramma te verbeteren, geïnspireerd door initiatieven binnen de gedragswetenschappen, met het doel de betrouwbaarheid van de bevindingen – en dus de relevantie voor marketing – te verhogen.
A/B test valkuilen
Marketingteams vertrouwen steeds vaker op A/B-testen om datagedreven beslissingen te nemen. Hoewel deze aanpak een ogenschijnlijke zekerheid biedt, schuilt het gevaar in het blinde vertrouwen op vaak twijfelachtige testresultaten. Hier zijn enkele valkuilen die desastreus zijn voor de betrouwbaarheid van die resultaten:
Illusionaire winnaars
Bij A/B-testen is er een reëel risico (en veel groter dan men vaak bewust van is) dat je denkt een winnaar te hebben gevonden, terwijl er eigenlijk geen verschil is tussen de varianten. Dit komt vaak door de manier waarop tests worden uitgevoerd. Hier zijn de belangrijkste oorzaken:
1. Te kleine aantallen: Zelfs bij erg grote bezoekersaantallen kan het aantal deelnemers aan je test onvoldoende zijn om een effect betrouwbaar te detecteren. Hoewel de aantallen bij A/B tests vaak indrukwekkend lijken, blijken ze in de praktijk vaak te klein voor betrouwbare conclusies. Neem bijvoorbeeld een website zoals NS International, waar dagelijks duizenden bezoekers met een specifiek doel komen: meestal om een treinticket te boeken of informatie te zoeken. De meeste bezoekers zijn simpelweg niet beïnvloedbaar door kleine veranderingen op de website, omdat ze al een duidelijk doel voor ogen hebben.
Stel dat je een A/B test uitvoert met 100.000 bezoekers. Dit lijkt indrukwekkend, maar als slechts 5% (5.000 bezoekers) daadwerkelijk beïnvloedbaar is, kan het effect van een subtiele verandering (zoals bijvoorbeeld het overslaan van een pagina in de check-out) te klein zijn om te detecteren.
De vraag is dus niet: ‘hoeveel bezoekers heb ik in mijn A/B test?’, maar: ‘hoeveel beïnvloedbare bezoekers heb ik in mijn A/B test?’
Kortom: zelfs ogenschijnlijk grote aantallen blijken in de praktijk vaak onvoldoende, zeker als het effect dat je wilt meten klein is. Het is vanuit A/B perspectief misschien een deprimerend inzicht, maar voor veel A/B tests met subtiele wijzigingen op een webpagina heb je een veelvoud aan bezoekers nodig, simpelweg omdat de meeste bezoekers niet beïnvloedbaar zijn.
2. Schijnzekerheid: Hoewel de conclusie “90% kans op een betere versie” overtuigend klinkt, betekent dit nog steeds dat er 10% kans is dat deze versie niet daadwerkelijk beter is. Deze onzekerheid wordt vaak onderschat.
3. Te vroeg stoppen: De testduur wordt normaliter van tevoren vastgesteld (op basis van het verwachte effect en het aantal benodigde deelnemers). Echter, soms worden resultaten continu gemonitored en wordt een test gestopt zodra iets ‘significant’ lijkt. Dit leidt tot het verkeerd interpreteren van toevallige fluctuaties bij het verzamelen van data.
Selectieve rapportage
Binnen veel organisaties worden alleen de ‘winnende’ tests gedeeld, terwijl nulresultaten of verliezende varianten onder de radar blijven. In de wetenschap noemen we dit “publicatiebias”. Deze praktijk leidt tot een vertekend beeld van de werkelijkheid en kan tot verkeerde beslissingen leiden.
Hoe NS International het anders doet
NS International besloot deze uitdagingen recht in de ogen te kijken. In plaats van blindelings te vertrouwen op initiële testresultaten, herhaalden ze de A/B-testen van het afgelopen jaar. Wat bleek? Veel resultaten waren niet consistent. Sommige testresultaten draaiden zelfs volledig om bij herhaling. Dit was een belangrijke wake-upcall.
Naar aanleiding van de inconsistentie in testresultaten hebben we samen een robuuster testprogramma ontwikkeld, waarbij betrouwbaarheid centraal staat.
Kernpunten van deze aanpak zijn:
1. Hanteer een tweesporenaanpak: Maak een onderscheid tussen exploratieve en confirmatieve A/B tests.
Exploratieve tests: verken elk idee, hoe onconventioneel ook. Met andere woorden: durf te exploreren! Maar besef dat je exploreert. Indien je geen specifieke verwachting had binnen jouw context voordat je de test uitvoerde, kan je nog niet veel conclusies koppelen aan een positief testresultaat. Mogelijk levert dit resultaat nu wel een hypothese op achteraf. Wees je bewust dat die hypothese gevormd is door de evidentie die je reeds zag. Dat is geen probleem, zolang je de evidentie niet ziet als bewijs voor deze ‘post hoc hypothese’, en deze hypothese nu gaat toetsen in een confirmatieve toets. Wees je er bewust van dat exploratieve tests ook geen harde ‘datagedreven’ beslissingen horen te sturen, ze leveren enkel input voor toekomstige tests.
Confirmatieve tests: deze tests zijn bedoeld om vooraf opgestelde hypotheses te toetsen. Al te vaak gaat men er in praktijk vanuit dat een test confirmatief is, terwijl ze eigenlijk exploratief van aard is. Dit is een cruciaal verschil bij het interpreteren van de data. Om jezelf niks wijs te maken, is het raadzaam voor elke test aan te geven en vast te leggen indien die confirmatief dan wel exploratief van aard is alvorens de test live gaat. Bij een confirmatieve toets noteer je de predictie van tevoren. Heb je nog geen idee wat te voorspellen binnen jouw context, dan is de toets exploratief van aard.
2. Stop een test niet vroegtijdig: Bepaal van tevoren hoe lang een test online gaat. En hou je daaraan!
3. Herhaling als standaard: Eén test is geen test. Door replicatie wordt de betrouwbaarheid van resultaten aanzienlijk verhoogd. Ons devies: Bij elk positief resultaat volgt automatisch een replicatietest voordat de wijziging wordt uitgerold.
4. Transparantie in rapportage: Deel binnen je organisatie niet alleen de tests met winnaars, maar ook de tests met nulresultaten of verliezers (om te vermijden dat mogelijk ‘slecht presterende’ varianten live worden gezet).
5. Combineer methodes: Soms zijn A/B-testen niet genoeg; of is het onmogelijk een specifiek idee te toetsen met een A/B test. Werk samen met andere teams die gebruik maken van andere onderzoeksmethodes, en identificeer de juiste (combinatie van) methode(s) voor je specifieke onderzoeksvraag.
6. Werk samen met experts: Academici kunnen methodologieën en perspectieven bieden die je interne processen versterken.
Waarom betrouwbare testresultaten van belang zijn voor marketeers
Door het onnauwkeurig uitvoeren en interpreteren van A|B tests riskeer je als marketeer verkeerde strategische beslissingen te nemen, wat kan leiden tot erg ongewenste neveneffecten, zoals:
Verkeerde investeringen: Budgetten worden toegewezen op basis van dubieuze inzichten die niet stroken met de realiteit.
Gemiste kansen: Waardevolle ideeën blijven onbenut door een ongebreideld vertrouwen in onbetrouwbare testresultaten.
Slechte klantbeleving: veranderingen gebaseerd op foutieve inzichten kunnen klanten juist frustreren.
Kortom, een gebrek aan betrouwbaarheid in testresultaten ondermijnt potentieel je gehele marketingstrategie.
De impact van de nieuwe aanpak
De DDMA Experimentation Hero Award onderstreept het belang van deze aanpak. Het juryrapport benadrukte de vooruitstrevende visie van NS International, waarbij ze gevestigde werkwijzen durft te doorbreken en de keuze maakt voor innovatie en betrouwbaarheid boven kortetermijnresultaten. Deze benadering toont niet alleen moed, maar ook een diepgaand commitment aan kwaliteit en impact. Zoals Eline van Baal verwoordt: “Dankzij onze focus op betrouwbaarheid en samenwerking met experts […], hebben we echte impact kunnen maken. Deze award motiveert ons om te blijven vernieuwen.”
Van illusie naar innovatie
Het verhaal van NS International toont aan hoe een kritische blik op A/B-testen, en samenwerking met experts uit de academische wereld, kan leiden tot diepere inzichten en betrouwbaardere resultaten. Het is een voorbeeld dat andere organisaties kan inspireren om de betrouwbaarheid van hun eigen experimenten te verhogen.
Uiteindelijk draait het niet alleen om data, maar om betrouwbare data. Alleen betrouwbare data bieden de inzichten die nodig zijn om écht datagedreven beslissingen te nemen.
Conclusie
Durf je eigen testpraktijken en methodes kritisch te bekijken en maak betrouwbaarheid de kern van je onderzoekscultuur.