De zin en onzin van 95 procent significantie bij A/B-testen

23 oktober 2014, 07:30

Praktische richtlijnen voor het omgaan met significantie bij A/B-testen

Iedereen die testen inzet voor conversie-optimalisatie kent het probleem van de positieve test met lage statistische significantie: 10 procent conversiestijging en 80 procent significantie. De stijging is veelbelovend, maar mag je de winnaar nu doorvoeren of niet? Een controversieel probleem dat vaak leidt tot lange discussies. Sommige online marketeers staren zich blind op significantie: “Onder de 95 procent accepteren we geen winnaar”. Naar mijn mening doen deze marketeers zichzelf en hun organisatie tekort. Ze verliezen veel tijd omdat ze vaak te lang doortesten.

Neem het bovenstaande voorbeeld van 10 procent conversiestijging. Stel dat het gaat om een eenvoudige testvariant, bijvoorbeeld het prominenter tonen van de unique selling points op iedere productpagina. Doorvoeren van zo’n soort testvariant op iedere pagina zou misschien 1.000 euro kosten. Verder nemen we aan dat de onderneming 1 miljoen euro online jaaromzet genereert met een marge van 30 procent.

In dat geval resulteert 10 procent conversiestijging in een extra jaarwinst van 30.000 euro. Een investering van 1.000 euro heeft dus een verwachte opbrengst van 30.000 euro. Dat is een ROI van 30. De terugverdientijd van de investering is 1,7 weken (52 weken/30).

Als je er zo naar kijkt, is significantie ineens geen issue. Zelfs als je heel conservatief naar deze testuitkomst kijkt en de lift en ROI deelt door 3, dan nog blijft het een aantrekkelijke investering. Vrijwel iedereen zal op basis van deze informatie besluiten de winnaar te accepteren. Wat je hier ziet, is dat een positieve business case op basis van testresultaten de significantie onzinnig maakt.

Of niet?

Nee, dan moet je nog steeds naar significantie kijken. Je moet altijd naar significantie kijken. Maar je moet het niet belangrijker maken dan het is.

Wat is significantie?

Significantie is een term uit de statistiek. Het verwijst naar het percentage toeval dat ten grondslag ligt aan je waarneming. In A/B-testtools komt het terug in de rapportage van de testresultaten. Het heet dan meestal iets als ‘chance to beat‘. Dat getal is 100 procent min de significantie van het experiment. In het bovenstaande voorbeeld betekent 80 procent significantie dat er 20 procent kans bestaat dat de waargenomen conversiestijging op toeval berust. 20 procent is niet volkomen toevallig. Dat is het geval bij een kans van 50 procent, zoiets als de kans op kop of munt.

Voor wetenschap is significantie essentieel

Wetenschappers hebben, afhankelijk van hun discipline, bepaalde doelen voor significantie in hun onderzoek. Voor sociale wetenschappen en economie is 95 procent veelvoorkomend. Dat betekent dat 1 op de 20 geconstateerde effecten op toeval mag berusten.

Voor de medische wetenschap ligt de eis voor significantie veel hoger. Je moet er niet aan denken dat het effect van medicijnen op toeval berust of dat schadelijke effecten nog voor 5 procent mogelijk zijn. Daar geldt dus vaak een significantie-eis van 99,99 procent of soms zelfs 99,999999 procent. Dit laatste percentage is het zogenaamde 5-sigmaniveau en komt neer op een kans op toeval van een op een miljoen.

Voor de online marketeer is significantie een middel en geen doel

Significantie is voor wetenschappers essentieel, omdat ze hun resultaten niet kunnen publiceren als hun uitkomsten niet significant zijn. Daarmee is significantie voor wetenschappers een doel op zich. Voor online marketeers ligt dat anders. Die zetten online experimenten in om een keuze te onderbouwen. Kies ik A, B of C?

Daarvoor moet een marketeer eerst weten welke variant het beste scoort. Vervolgens representeert significantie de kans dat de waargenomen uitkomst zich daadwerkelijk voordoet. Als de kans acceptabel is, kan de marketeer een keuze maken. Voor de marketeer is significantie daarmee een middel op basis waarvan hij verschillende keuze-opties evalueert. De eis voor significantie kan dan minder streng zijn.

Hoge significantie kost tijd

Hoge significantie komt met een prijs. Het kost vooral tijd en daarmee gaat het ten koste van het aantal testen dat je uitvoert. Vergeleken met 95 procent significantie is maar 45 tot 60 procent van de traffic nodig om 80 procent significantie te halen. Met andere woorden, in de tijd die je nodig hebt om 10 testen op 95 procent betrouwbaarheid te doen, kun je wel 20 testen doen op een betrouwbaarheidsniveau van 80 procent. Mocht je dit willen narekenen, gebruik dan een van de vele online steekproefomvang-calculators, zoals deze van Optimizely.

Voor de gevallen waarin snelheid van besluitvorming belangrijker is dan betrouwbaarheid, kun je daarom beter werken met lagere significantie.

Simpele richtlijnen voor significantie in relatie tot A/B-testen

Hieronder geef ik een paar praktische richtlijnen voor online marketeers voor het hanteren van significantie bij het uitvoeren van A/B-testen.

  1. Streef naar een hoge significantie van 95 procent wanneer de belangen groot zijn. Als je een test uitvoert waarvan het doorvoeren van de winnaar gepaard zal gaan met aanzienlijke kosten, is zekerheid belangrijker dan snelheid. Dit is bijvoorbeeld het geval bij het testen van grote aanpassingen aan de website, zoals bij herschrijven van content of het maken van nieuwe afbeeldingen. Voordat je alle productfoto’s gaat wijzigen, is het belangrijk dat je ‘zeker’ weet dat de investering een acceptabele terugverdientijd heeft. Omdat zekerheid hier zo belangrijk is, bevelen wij zelfs aan om dergelijke testen een of twee maal te herhalen voordat je de uitkomst als waarheid accepteert.
  2. Wees soepel met significantie en accepteer conclusies vanaf 80 procent significantie als snelheid van belang is. Dit is bijvoorbeeld het geval bij het testen van banners, e-mails, landingpagina’s en advertentieteksten. Hierbij wil je snel weten wat werkt en wat niet. Vaak heb je de tijd niet om te lang te testen. Hier heeft de test de functie de besluitvorming te verdiepen en te versnellen.
  3. Accepteer 80 procent significantie bij testen op goedkope aanpassingen aan de website. Denk hierbij bijvoorbeeld aan testen op paginatitels, call to actions en aanpassingen aan formulieren. Hierbij is snelheid natuurlijk van belang. Je wilt liever 20 dan 10 verbeteringen doorvoeren in dezelfde tijd. Maar hier is ook het risico van een verkeerde investering vrij beperkt. In het ergste geval besteed je wat tijd en een beperkt budget en heeft het geen effect.

Conclusie

Significantie is een belangrijke graadmeter voor de betrouwbaarheid van de uitkomsten van een A/B-test. Als zekerheid belangrijk is voor de besluiten die je gaat nemen op basis van een A/B-test, is het zinnig om 95 procent significantie na te streven. Als een verkeerde keuze geringe risico’s met zich meebrengt, is het onzinnig om te streven naar hoge significantie. Dan verlies je alleen maar tijd en dat is zonde.

Daniël Markus is oprichter en directeur van ClickValue, een performance based online marketing bureau uit Amsterdam. Data driven online marketing is zijn specialisme. Van daaruit helpt hij opdrachtgevers bij het blijvend verhogen van online rendement. Naast bloggen over dit onderwerp geeft Daniel regelmatig presentaties op nationale en internationale congressen en verzorgt hij cursussen via onder andere Beeckensteijn. ClickValue bestaat sinds 2003 en is inmiddels uitgegroeid tot een middelgroot bureau met meer dan 100 nationale en internationale klanten. Opdrachtgevers variëren van corporates als SNS, Harman Kardon, NUON en NS tot toonaangevende e-businesses als Kamera-Express, New York Pizza en Lamp&Licht;.

Categorie
Tags

17 Reacties

    jeroen

    Vooral het voorbeeld waarbij je de terugverdientijd berekend en met “echte” cijfers rekent maakt het heel confronterend.


    23 oktober 2014 om 12:49
    Guus

    Ik heb een beetje moeite met het artikel:

    10% conversiestijging… dat is van 1% naar 1,1%. of van 10% naar 11%. Dat is dus geen 10 procent punt stijging. een 10 procentpunt stijging is wel heel erg veel conversieverbetering voor bv alleen het noemen van een paar usp’s.

    Daarnaast stel je dat bij 80% significantie de aanpassing toch maar doorgevoerd moet worden omdat de investering niet hoog is. Echter er bestaat ook een grote kans dat het resultaat van de test door toeval ontstaan is. 1000 euro investeren in een aanpassing kan dus met eenzelfde kans ook voor een conversiedaling zorgen van bv 10 procent (punt in jouw beredenering). Dat betekent dus een flinke omzetdaling als gevolg van je beslissing. Daar zal je klant blij mee zijn als dat gebeurd!

    En dan het “conservatief” kijken naar een ROI van 30 en dan bepalen dat een ROI van 3 ook al goed zou zijn.. dit is wishful thinking. Je stelt het jezelf veel te positief voor, en denkt: een ROI factor 10 minder ben ik ook al blij mee. Je hebt helemaal geen voldoende significantie behaald in de test, dus hoe kan je dan in hemelsnaam een ROI van 30 conservatief bekijken en van een ROI van 3 uitgaan? Conservatief kijken is wat mij betreft ook serieus rekening houden met een negatieve ROI door conversie daling!

    Wat mij betreft kan je met zo’n redenatie net zo goed geen A/B test houden, en gewoon op buikgevoel beslissingen doorvoeren. Scheelt je ook nog de kosten van de A/B test.

    Voor iemand die zich directeur van een marketing bureau noemt, vind ik dit artikel dan ook behoorlijk ondermaats.


    23 oktober 2014 om 13:28
    daniel@clickvalue.nl

    Beste Guus,

    Bedankt voor je uitgebreide kritiek.

    Ik heb het idee dat ik sommige dingen misschien nog een beetje moet verduidelijken.

    Ten eerste stel ik nergens dat je zondermeer iedere testvariant met 10% lift en 80% kans moet doorvoeren. Wat ik aangeef is dat je dit alleen moet doen als de investering een aantrekkelijke ROI heeft en sprake is van een aanvaardbaar risico. De test uit het voorbeeld is zo’n geval.

    Verder denk ik dat je je statistiekboeken nog eens moet bekijken als je beweert dat het testvoorbeeld kan resulteren in “dezelfde kans” voor een conversiedaling van 10%. Dat is zodanig bezijden de waarheid dat ik het argument niet serieus kan nemen. Als je op dat niveau kijkt naar 80% significantie kan ik me voorstellen dat je geld uitspaart door maar helemaal niet te testen.

    Ik begrijp jouw kritiek op mijn conservatieve kijk niet helemaal. Wat ik bedoel is dat de test heeft geleid tot een positieve business case met een verwachte ROI van 30. Vervolgens kan je conservatief kijken en dit delen door 3. Dat zou dan leiden tot een ROI van 10. Vervolgens kan je beoordelen of je gaat investeren op basis van een conservatief ingeschatte business case met een ROI van 10.

    Als bureaudirecteur begeleid ik ondernemers bij het realiseren van online groei. Over het algemeen kent zo’n groeiproces vele momenten van besluitvorming. AB testen zijn een perfecte manier om de kwaliteit en de snelheid van die keuzemomenten te vergroten.

    Mijn artikel probeert duidelijk te maken hoe je balans kan houden tussen kwaliteit en snelheid. Als je daarover vragen hebt dan kijk ik uit naar je repliek.


    23 oktober 2014 om 14:19
    Harm Jan Bosscher

    Significantie heeft vooral te maken met het aantal conversies en niet zozeer de waarde van een conversie. Als je bijvoorbeeld 1 conversie hebt van €30.000 is de significantie hoog (0%). Handig om dit dus nog mee te nemen in je voorbeeld.


    23 oktober 2014 om 15:57
    BB

    Je doet een A/B test op basis van een hypothese. Mijn inziens wil je tenminste met 90/95% zekerheid de hypothese aannemen of verwerpen. Bij succes implementeren, bij verwerping opnieuw onderzoek doen.

    Op het moment dat je gaat implementeren bij <80% zal je de 20% toeval meenemen naar de volgende hypothese.

    Onder de streep zullen de toevalligheden toenemen; brengt je alleen maar verderweg van je eindresultaat (lees je doet er langer over).


    23 oktober 2014 om 19:52
    daniel@clickvalue.nl

    @BB als het gaat om kennisvergaring dan ben ik het helemaal met je eens. Oorspronkelijk had ik dat ook als vierde categorie van testen waarvoor een significantie van 95% zeker nastrevenswaardig is. Anders krijg je theorieen die op drijfzand zijn gebaseerd.

    @Harm Jan. Als ik je goed begrijp doel je op orderwaarden. In dat geval klopt het wat je zegt. Zo’n extreme conversie is dan een outlier die je niet zonder meer moet meenemen in je conclusies. Toch wil ik het in dit stuk eenvoudig houden en benadrukken dat je niet zonder meer altijd 95% significantie moet nastreven omdat de extra zekerheid geen rechtvaardiging is voor de extra tijd.


    23 oktober 2014 om 20:44
    Mike van Hoenselaar

    Wil graag opmerken dat veel auteurs hier op MF (maar ook bezoekers) iets op kunnen steken van de manier van communiceren en de kwaliteit van de discussie.

    Chapeau en compliment voor beide.


    29 oktober 2014 om 13:14
    city financial services

    Heeft u een lening tegen 3% nodig? indien ja, gelieve ons te contacteren voor meer informatie via deze directe e-mail: cityfinancialservices@hotmail.com


    11 november 2014 om 05:25
    Mieke de Jong

    @Ton Wesseling. Ik ben aan het zoeken geweest, maar ik kom er niet achter hoe je power level berekend. Kun je me dat uitleggen?

    Groet,

    Mieke


    17 februari 2015 om 09:26
    Jacob Wiebenga

    Belangrijk is om je als conversie specialist te realiseren dat de meeste a/b-test pakketten eenzijdig toetsen (zodat je sneller significante resultaten vindt, minder proefpersonen nodig hebt, etc.). Je toetst dus of er een effect is in een bepaalde verwachte richting.

    Maar vaak heb je geen duidelijke hypothese met betrekking tot de richting van een effect, i.e., of deze positief of negatief is. Werkt een groene CTA knop bijvoorbeeld beter dan een rode knop, of werkt de rode knop beter dan de groene?

    In dat geval moet je tweezijdig toetsen en moet je dus ook de overschrijdingskans/p-waarde van 20% opdelen. Je zult dan dus een 90% significantie, zoals het hierboven genoemd wordt, willen aanhouden. Doe je dat niet dan reken je met een overschrijdingskans van 2 (positief en negatief) x 20% = 40%.

    Door zulke lage eisen te stellen aan je test is er amper onderscheid te maken met toeval. In dat geval kun je je bijna alle moeite besparen van het opzetten van een test en net zo goed een munt opgooien om te bepalen wat de winnende variant is.

    Als je een munt gaat gebruiken om te bepalen wat de winnende variant is kun je je voorstellen dat de kans tevens toeneemt dat je een ‘significante’ test doorvoert op de website die eigenlijk een negatief effect op je conversie heeft.

    Dus:

    – a/b-test pakketten zijn al coulant in het bestempelen van een “winnende variant” (N.B. zo corrigeren dit soort pakketten ook niet voor het aantal ‘goals’ die je instelt. Als je 5 goals instelt zal op basis van de redenatie zoals in dit artikel minimaal 1 goal onterecht significant zijn), pas om met het oprekken van deze marge.

    – zeker bij tests waarbij je niet weet of een manipulatie een positief of negatief effect zal hebben moet bovenstaande advies met zéér veel terughoudendheid gebruikt worden.


    24 februari 2015 om 15:48
    daniel@clickvalue.nl

    Beste Jacob,

    Bedankt voor je interessante aanvulling. Het probleem dat jij beschrijft is duidelijk.

    Een oplossing om niet in deze valkuil te raken is werken met een duidelijke controlevariant. Wanneer je hiervoor de huidige pagina gebruikt ben je af van de noodzaak voor een tweezijdige test. Het gaat dan immers om het verslaan van de conversie van de oorspronkelijke variant. Dit is ook de best practice die leveranciers communiceren.

    Maar in het geval waarin geen huidige pagina bestaat, heb je gelijk. Dan zul je niet zomaar kunnen afgaan op de statistieken van de leverancier. Bij het testen van landingpagina’s voor campagnes is dit al snel het geval.


    27 februari 2015 om 06:29

Marketingfacts. Elke dag vers. Mis niks!