14 dagen op proef: de Simpson’s paradox
Sinds een aantal maanden heeft A/B-testen binnen Aegon een vogelvlucht genomen. Er staan gemiddeld ongeveer 8 tot 10 testen te draaien, wat een enorme verbetering is ten opzichte van een jaar geleden. Ook binnen de organisatie speelt het meer dan ooit en is er meer interesse in het testen van verschillende pagina’s. Business lines komen vaker naar de marketeers toe om hun ideeën te laten testen. Zo is ook de test omhoog gekomen die ik graag wil delen.
Dit artikel is geschreven in samenwerking met Jochen Meischke, werkzaam bij Aegon als contentmanager.
Doordat ik de data niet kan delen, heb ik dummy data gebruikt. Het effect blijft hetzelfde.
Bij verzekeraars is het mogelijk om tot 14 dagen na het afsluiten van een verzekering de verzekering kosteloos stop te zetten. Met andere woorden: je mag de verzekering eigenlijk 14 dagen proberen (voor zover dat kan).
Omdat we dachten hiermee zorg weg te nemen bij consumenten, kwam hieruit de volgende hypothese voor een A/B-test: “Door het toevoegen van de tekst ‘Verzeker zonder zorg: u heeft altijd 14 dagen bedenktijd’ bij de call to action-button, krijgen we een hogere click-trough rate (CTR) op de button”. (Omdat de aanvraagstraten verschilden, was dit de enige variabele die voor alle verschillende pagina’s overeen kwam.)
Al met al een test die redelijk standaard is en die voor drie weken werd uitgerold op vijf verschillende productpagina’s. De resultaten:
Control (geen tekst) |
Variatie (met tekst) |
|
Totaal |
3.82% (= 203/6216) |
3.27% (=221/5778) |
We zien met 90 procent significantie dat de versie zonder de tekst een hogere CTR heeft dan de versie met tekst.
Simpson’s paradox
We hadden deze uitkomst van de test niet verwacht: hoe kan het dat, als je klanten bedenktijd geeft, ze minder vaak doorklikken naar de aanvraagstraat? Zorgt het toevoegen van de tekst juist voor twijfel bij onze bezoekers?
Om beter tot een conclusie te kunnen komen, bekeken we de resultaten van alle pagina’s apart:
Control (geen tekst) |
Variatie (met tekst) |
|
Pagina 1 |
3.27% |
3.40% |
Pagina 2 |
4.71% |
4.98% |
Pagina 3 |
5.25% |
6.27% |
Pagina 4 |
6.81% |
5.21% |
Pagina 5 |
0.90% |
0.91% |
We zien dus dat er voor vier van de vijf pagina’s geldt – ondanks dat het niet significant is – dat de variatie beter is dan de control en slechts voor één pagina de control beter werkt. Dit (hier redelijke zwakke) effect lijkt erg op de Simpson’s paradox.
De Simpson’s paradox zegt dat als een bepaalde trend voorkomt in verschillende datagroepen apart, deze trend omgekeerd kan zijn als de groepen worden samengevoegd.
Een bekend voorbeeld stamt uit 1973, toen de Universiteit van Berkeley (Californië) werd beschuldigd van seksisme: mannen zouden gemakkelijker worden toegelaten op deze prestigieuze universiteit dan vrouwen. De gegevens die werden gebruikt in het rapport:
Mannen |
Vrouwen |
|
Acceptatie percentage (aantal aanmeldingen) |
44% (8442 aanmeldingen) |
35% (4321 aanmeldingen) |
Berkeley, zich van geen kwaad bewust, stelde een onderzoek in naar aanleiding van dit rapport en bekeek de acceptatie percentages voor de 6 grootste afdelingen binnen Berkeley apart:
Afdeling |
Man |
Vrouw |
A |
62% (825) |
82% (108) |
B |
63% (560) |
68% (25) |
C |
37% (325) |
34% (593) |
D |
33% (417) |
35% (375) |
E |
28% (191) |
24% (393) |
F |
6% (373) |
7% (341) |
Acceptatiepercentage (aantal aanmeldingen) per afdeling
De paradox is hier overduidelijk: in totaal lijken mannen voorgetrokken te worden ten opzichte van vrouwen, maar op de 4 van de 6 grootste afdelingen blijken vrouwen vaker geaccepteerd te worden. De paradox komt hier naar boven doordat vrouwen vaker solliciteren op afdelingen waar veel mensen uitvallen. Mannen, daarentegen, solliciteren juist erg veel op afdelingen waar ze gemakkelijk worden toegelaten. Hierdoor lijkt het geaggregeerd alsof er veel meer mannen worden toegelaten, maar dit komt door het verschil in acceptatieratio bij de verschillende afdelingen.
In de praktijk
En dit is precies waar het fout kan gaan met een A/B-test op meerdere pagina’s, ondanks het feit dat je A/B-test tool het verkeer ongeveer 50/50 verdeelt. Als sommige pagina’s binnen je test veel beter converteren dan andere en bij sommige pagina’s de ene variant vaker bezocht wordt (dit gebeurde bij ons ondanks dat de tool het verkeer ongeveer 50/50 verdeeld), kan de Simpson’s paradox opkomen.
Hierom moet er altijd worden gekeken naar de individuele resultaten en niet enkel de geaggregeerde resultaten. Uiteindelijk bleek slechts één pagina voor slechte conversie te zorgen. Maar deze pagina had wel een stevig effect op het eindresultaat van de test. Omdat we uniformiteit nastreven op onze productpagina’s, laten we deze tekst voorlopig achterwege. De volgende stap is bedenken of de tekst misschien ergens anders moet komen te staan. Het is ook denkbaar dat we deze boodschap anders moeten verwoorden. Wat in ieder geval vaststaat, is dat we resultaten voortaan altijd per pagina zullen analyseren.
Leuk verhaal Jochen,
Welke tools gebruiken jullie bij Aegon?
Dank Willem! We gebruiken voornamelijk Visual Website Optimizer (VWO) van Wingify – werkt heel intuïtief en heeft een erg prettige interface.
Leuk artikel Jochen! En goed om te zien dat A/B testen zo’n vlucht heeft genomen 🙂
Leuk artikel en mooie (dummy) resultaten. Ik ben benieuwd naar het vervolg.
Gerelateerde artikelen
Marketingfacts. Elke dag vers. Mis niks!
Marketingfacts. Elke dag vers. Mis niks!