Het laatste woord over de kerstcommercials
De kerstcommercial, ooit het exclusieve domein van het Britse warenhuis John Lewis, is een internationaal fenomeen geworden. Over de hele wereld worden ze gemaakt: van één tot soms wel drie minuten infotainment. Een lach of een traan die ook nog eens iets voor de verkoop moet doen. In eerste instantie alleen bekritiseerd of bejubeld door het vak, maar nu hebben we er allemaal een mening over. Zelfs een kwaliteitskrant als NRC moet er wat van vinden. Maar wat vindt het brein? De vier meest besproken kerstcommercials onder de MRI-scanner.
Samen met een handjevol reclamemakers werd ik geïnterviewd door het AD. En ja, ik wist natuurlijk precies te vertellen wat wel en juist niet goed was, en welke uiteindelijk de beste was. Nét zoals mijn vakgenoten dat wisten. Op de zaak keken ze mij glazig aan: “Martin, wat je zegt is niet per se wat je vindt.” Mijn collega’s gebruikten ons eigen adagium tegen me. Wij vinden namelijk dat je commerciële uitingen consequent moet testen op hun prestaties in het onderbewuste van de consument, daar waar marketing zijn werk doet. Dus zo gezegd, zo gedaan. Begin vorige week hebben we de vier meest besproken kerstcommercials onderzocht in onze MRI-studie: de commercials van Albert Heijn, Plus, Lidl en Jumbo.
Het brein liegt niet
Een MRI-studie is een kwantitatieve meting van de neurale netwerken in het brein. Daar komt geen interpretatie aan te pas: wat je meet, dat is het, het brein liegt niet. Maar zonder benchmark heeft zo’n meting geen betekenis. Een meter is een meter, omdat we met z’n allen hebben afgesproken hoe lang dat is. En recent is de benchmark ‘één kilo’ letterlijk weer eens afgestoft.
De benchmarks die wij gebruikt hebben, zijn telkens het gemiddelde van 140 Effies, Gouden Loeki’s en Loden Leeuwen. Zo krijg je een mooie classificatie naar: ‘waardoor-mensen-gaan-kopen’, ‘wat-mensen-waarderen’ en ‘wat-mensen-verafschuwen’.
Leuk is niet per se goed
Belangrijk voor een adverteerder is om vooraf een keuze te maken over het doel van, in dit geval, de kerstcommercial. Wil je de consument vermaken en sympathie – ook wel ‘positive engagement’ genoemd – voor je merk creëren? Of wil je de verkoop een zetje geven? In het brein zijn dat twee totaal verschillende netwerken die moeilijk tegelijkertijd te activeren zijn. Ik ben niet bij de briefing geweest, dus ik kan alleen zeggen wat we gemeten hebben en geen oordeel vellen over het doel. Wat de meting wél laat zien, is welke van de vier commercials het meeste engagement oproept of juist goed is voor het activeren van de koopintentie.
De grote winnaar
Laat ik maar meteen met de deur in huis vallen: Albert Heijn steekt er met kop en schouders bovenuit. Een correlatie met effectiviteit van 0,65 is hoog, één van onze hoogste metingen van het jaar. Deze commercial weet als geen ander de begeerte op te roepen, er is een hoog belonend gevoel en – niet onbelangrijk – de negatieve emoties worden juist weer bijzonder weinig geactiveerd. Je wilt bij eten en gezelligheid geen angst of gevaar. Maar er is hier meer aan de hand. De commercial activeert veel betrokkenheid en dat leidt tot de door adverteerders zo felbegeerde ‘Positive Engagement’, omdat de negatieve emoties laag staan en de waarde hoog is.
AH heeft de hoogste correlatie met effectiviteit, Plus scoort op effectiviteit én likability.
Excuus aan Plus
In het AD-interview beweerde ik dat Lidl de slechtste van de vier was. Dat laat de meting ook zien. Geen begeerte, geen beloning en vooral te veel negatieve emoties als angst en irritatie. “Daar hoef je geen MRI-onderzoek voor te doen, De Munnik”, hoor ik je denken. En daar heb je helemaal gelijk in. Maar toch is deze commercial gemaakt. Goedgekeurd op het storyboard, het script, de acteurs en de uiteindelijke executie. Met een storyboard-studie die goedkoper is dan traditioneel onderzoek, had men vooraf kunnen weten wat het resultaat was.
“Mijn inschatting was dat de Plus-commercial tot een negatief sentiment zou leiden, maar ik zat er helemaal naast”
Maar waarom je altíjd moet testen bewijst de Plus-commercial. Mijn inschatting was dat de confrontatie met de dood en de sombere setting tot een negatief sentiment zou leiden. Ik zat er naast. Sterker, ik zat er helemaal naast, want deze commercial weet niet alleen te scoren op likability, maar ook op effectiviteit. Een combinatie die we zelden zien. De correlatie is niet heel sterk, maar een commercial produceren die wat wegheeft van een Gouden Loeki én een Effie is een hele prestatie. Op beide fronten scoort deze keuze hoger dan gemiddeld in vergelijking met andere commercials. Vooraf een gewaagde keuze, achteraf een slimme zet. Om als Beau te spreken: “Chapeau!”
AH heeft de hoogste score op de balans tussen positieve en negatieve emoties en ook nog eens het hoogste engagement.
De beste (AH, paars) en de slechtste (Lidl) tegen elkaar afgezet. AH activeert begeerte en waarde, Lidl (grijs) angst en irritatie.
Wat leren we van deze vier kerstcommercials?
Wat kunnen we nu leren van deze neurostudie? Allereerst dat wat mensen zeggen niet per se is wat mensen vinden, laat staan doen. Je kunt er ook van leren dat zelfs experts niet precies weten hoe het collectieve onbewuste reageert. Maar laten we er vooral van leren dat we minder moeten vertrouwen op onze onderbuik. Het pre- en post-testen van campagnes is onontbeerlijk. We leven in een tijd waarin missers hard worden afgestraft. Een tijd waarin tijd en geld en het resultaat ervan gelinkt en door big data kwantificeerbaar zijn. Een tijd waarin de publieke opinie misschien wel meer doet voor, of tegen, je merk dan een commercial met de Kerst.
Fijne feestdagen!
Het is essentieel om te weten wat het aantal personen zijn waar middels een MRI-scan het effect van de campagnes zijn gemeten. Resultaat kan namelijk variëren, waardoor conclusie onbetrouwbaar is wanneer men 1 persoon analyseert.
Ja natuurljk, helemaal waar. Eén persoon meten zegt helemaal niets. Een directe breinmeting (EEG of fMRI) wordt betrouwbaar vanaf een man/vrouw of 15 tot 20. Wij scannen ALTIJD ten minste 24 doelroep-personen om zeker te weten dat de metingen goed en de uitkomsten betrouwbaar zijn. We vergelijken deze uitkomsten met die van onze benchmarks die bestaan uit de gemiddelden van meer dan 150 effectieve, irritante en gewaardeerde reclames. Zo kunnen we de onderlinge correlaties aangeven. Aan de ‘halo’ die rond de rapportage in de grafieken zitten, kun je de significantie zien. Deze gekleurde band is de standaard fout (SEM). Iets dat de meeste onderzoeken helaas niet vermelden, en dus de betrouwbaarheid niet gecontroleerd kan worden.
wel grappig dat de AH reclame mij het minste aanspreekt en ik hem ook eerst weer moest zien om te weten om welke het ging. De andere ken ik uit m’n hoofd (ja, i know; N = 1).
Voor de rest super interessant om te lezen en helemaal mee eens dat testen en data zoveel belangrijker is dan onderbuik gevoel!
Een leuk onderzoek en actueel, zo met de kerstdagen. “Daar komt geen interpretatie aan te pas: wat je meet, dat is het, het brein liegt niet”: ik ben het daar niet helemaal mee eens. Zoals je weet meet je met fMRI nog geen (directe) hersenactiviteit, maar verandering in magnetische velden als gevolg van toegenomen zuurstof in het bloed, naar aanleiding van hersenactiviteit. En die signalen zijn uitgesmeerd over ruimte en (met name) tijd. Een reden waarom fMRI-studies vaak het gemiddelde nemen van tientallen tot honderden kortdurende, (functioneel) identieke “trials”. Hoe pakken jullie dat aan, met één reclamefilmpje van een halve minuut? En wat wordt er gemeten/gecorreleerd?
Dan heb je nog zaken als: welk algoritme gebruik je om de magnetische activiteit te lokaliseren naar voxels, om verschillen tussen condities van ruis te onderscheiden, enzovoort. Daar zal Neurensics veel ervaring mee hebben. Maar in mijn optiek komen er juist bij imagingonderzoek dus veel keuzes en interpretaties om de hoek.
Zoals: in hoeverre is de gemiddelde hersenactiviteit bij het zien van populaire of effectieve filmpjes een valide maat van de populariteit of effectiviteit van een filmpje? Dat lijkt me een vrij abstract, hoog-cognitief begrip. Als je mensen honderd plaatjes voorschotelt van dictators, zou je er dan vanuit kunnen gaan dat je door middelen “dictatorheid” overhoudt, of zou het resultaat ook bijvoorbeeld “mannelijk persoon” kunnen vertegenwoordigen?
Interessante blog die tot nadenken aanzet. Dank daarvoor en fijne kerst!
Hi Jonas,
Je weet goed hoe fMRI werkt en fijn dat je het eens ter sprake brengt Want de technieken de laatste 5 tot 10 jaar aanzienlijk verbeterd, verdiept is misschien een beter woord. Ik heb onze wetenschappers gevraagd jouw vragen te beantwoorden als je dat wilt, Victor Lamme, Steven Scholte of Andries van der Leij kunnen je ongetwijfeld beter uitleggen wat we doen en waarom dat betrouwbaar is, maar laat ik hier kort een poging wagen, zoals ik het van Steven heb begrepen.
MRI meet een hersensignaal dat door een lowpass filter gaat (wat jij noemt: het uitsmeren). Daardoor lijkt het alsof je alleen maar trage activiteit meet terwijl er veel op een seconderesolutie te reconstrueren is als je weet volgens welke functie er signaal uitgesmeerd wordt. De afgelopen jaren is dat uitgebreid bestudeerd en gepubliceerd, en weet men precies hoe dit moet; ook onze mensen. Hoe je magnetische activiteit meet en in een standaard ruimte plaatst is tegenwoordig goed uitgewerkt. Sterker.., op basis dit soort metingen wordt er in het brein geopereerd! En van precies diezelfde metingen maakt Neurensics gebruik. Wij nemen dan ook niet alleen het gemiddelde van de stimulus maar ook het veranderende signaal door de tijd. Met acht jaar scannen van meer dan 1.000 stimuli x 24 subjects, weten we waarnaar we moeten kijken en hebben we gebruikmakend van al die data én standaard machine learning-technieken classifiers getraind.
Desalniettemin is, zoals ik ook al in mijn artikel schreef, alles wat je meet relatief. Dus moet je benchmarks hebben. Voor dat, waarover we een voorspelling doen maar ook voor dat wat we meten. Gebaseerd op genoemde wetenschappelijke publicaties hebben we dus mappers gebouwd. Mappers voor emoties, of beter gezegd neurale netwerken, die een relatie hebben met een gedragsintentie zoals ‘iets kopen’. Deze netwerken zijn inderdaad teruggevonden door mensen talloze keren plaatjes voor te schotelen die een bepaalde emotie representeren. En jij hebt gelijk dat als je mensen honderd plaatjes voorschotelt van dictators, dan zou het zomaar kunnen dat je -zelfs na het middelen- meer dan alleen “dictatorheid” overhoudt. Deze externe validiteit is altijd een probleem van metingen, niet alleen van Neurensics. In tegenstelling echter tot de meeste studies die aan universiteiten worden uitgevoerd, laat staan die van collega’s, baseren wij onze data op basis van meerdere indicatoren en op basis van metingen in studies over meerdere jaren. In jouw metafoor, het is dus niet alleen dat de dictator een man is, maar ook macht heeft en weinig zeggenschap duld van anderen. Zo hebben we meer dan 25 mappers gebouwd waarvan we er juist hierdoor overigens ‘maar’ 15 gebruiken. De volgende uitdaging was om te zien of we het succes van een campagne kunnen voorspellen. Daartoe zijn dus ook benchmarks nodig. Het liefst meet je van een keur aan adverteerders campagnes die aantoonbaar succesvol waren en vergelijk je dat met een tweede groep die dat aantoonbaar niet was. Helaas willen adverteerders hun (verkoopcijfers) niet delen, niet hun succes, maar al zeker niet hun falen. Wat dan het dichtstbij komt zijn Effies. Daarvan hebben we er door de jaren heen zo’n 50 stuks met MRI onderzocht. Ook dan moet er nog een vergelijk gemaakt worden met contrasterende cellen. Die hebben we gevonden in 35 Gouden Loekies en 31 Loden Leeuwen. In elke studie die we doen, gaan de benchmarks mee.
Zo zijn we dus in staat om commercials als deze 4 kerstcommercials te classificeren. Allereerst kunnen we de activatie van de mappers meten en vervolgens kunnen we dit correleren aan die van de benchmarks. Door de jaren heen krijgen we bevestiging van de juistheid van onze methode doordat klanten daadwerkelijk een verschil in verkopen meten; het enig echte bewijs, soms zelfs tientallen procenten. Met deze methodiek zijn we de een van de weinige neuromarketing-onderzoekers die benchmarks gebruiken en er altijd de statistiek erbij vermeldt. Zo zie je in de spider de standaardfout weergegeven in de ‘halo’ rond de eigenlijke meting.
Ik ben als leek vast niet compleet geweest, maar ik hoop dat ik je een beter beeld heb kunnen geven van hoe we wat meten. Als je wilt, ben je welkom om eens met een van onze wetenschappers te praten. Zelf ben ik heel nieuwsgierig hoe jij denkt over het meten van commercials met EEG vooral met headsets met 8 of 16 droge contacten.
Hoor graag en jij ook fijne dagen,
Martin
Ter info: de dubbelingen zijn door de redactie verwijderd.
Hi Martin,
Sorry, mijn reactie is door de feestdagen wat verlaat. Dank je wel voor de moeite die je hebt genomen en de aanvullende informatie. Heel interessant, dat geeft wat meer context. Hoewel ik neurowetenschappen heb gestudeerd is dat alweer even geleden, dus er is in de tussentijd ongetwijfeld veel verbeterd. Over de meting via EEG kan ik dan ook niet veel zeggen, maar ik kan me voorstellen dat de betere temporele resolutie goed werkt voor stimuli als commercials. Mijn grootste open vraag blijft toch de relatie met het daadwerkelijke gedrag in de winkel en de voorspellende waarde bovenop andere, goedkopere technieken (al daalt de prijs van fMRI ook al jaren natuurlijk). Maar zoals je aangeeft is dat lastig te onderzoeken en te openbaren i.v.m. geheimhouding, en de limitatie omtrent validiteit geldt eigenlijk voor alle vormen van pre-tests. Marketingonderzoek blijft lastig! Het is in ieder geval erg boeiend om de ontwikkelingen een beetje te volgen via blogs als deze.
@ Jonas.
Fijn dat je zegt dat validiteit geldt voor alle vormen van pre-tests. Want juist daarin maakt MRI het grote verschil. We weten dat wat mensen zeggen, vaak niet is wat ze doen. Er is veel bewijs van het feit dat als je in een focusgroepstudie (vaak niet meer dan een man of 20) te horen krijgt dat ze “dit product wel zouden kopen” of “een goede commercial vinden”, de praktijk iets heel anders laat zien. Als je in MRI echter het neurale patroon van 70 effectieve TVC’s hebt vastgesteld, of voor sommige klanten zelfs het neurale patroon van koopgedrag, en je hebt een TVC die in hoge mate correleert, dan heb je veel meer zekerheid dan welk ander onderzoek dan ook. Als je bovendien in 8 jaar praktijk hebt ervaren dat klanten idd een betere verkoopprestatie aan een goed geteste campagne koppelen, dan heb je een krachtig instrument in handen. Wat me tot slot nog verbaast is dat iedereen denkt dat MRI-scanning duur is. Het pretesten van één stimulus, bij voorbeeld een commercial of concept is niet duurder dan welk ander onderzoek dan ook. Vanaf 9.000 euro weet je alles. Nou ja.., in ieder geval veel meer dan met kwali of een internetstudie.
Gerelateerde artikelen
Marketingfacts. Elke dag vers. Mis niks!
Marketingfacts. Elke dag vers. Mis niks!