Wetenschappelijk onderzoek naar Multichannel Attributie
Guido Budziak leidt een promotieonderzoek aan de Universiteit Eindhoven naar ‘data driven decision making with web analytics’. Een belangrijk onderdeel van het onderzoek richt zich op het inzichtelijk maken van Multichannel attributie met als doel hier bewust op te kunnen ‘sturen’ en optimaliseren. Op basis van zijn eerste onderzoekservaringen heeft Guido een blog geschreven voor Marketingfacts.
Guido is senior business consultant bij Adversitement, rondde de opleiding Technische informatica af aan de Technische Universiteit Eindhoven en heeft als professioneel voetballer [keeper] onder andere gespeeld bij PSV, Top Oss en Roda JC.
Opkomst van Web analytics
Het internet, zoals het beginjaren ’90 is vormgegeven door sir Tim Berners Lee (CERN), is nooit ontworpen met de intentie online bezoekersgedrag te analyseren en begrijpen. En toch dateren de eerste web analytics pakketten al uit medio jaren ’90. Server log data met daarin de registratie van de kliks gaf de mogelijkheid om klikpaden inzichtelijk te maken. Al snel kwam de tekortkoming van server log analyse aan het licht en kwamen er speciale web analytics pakketten op basis van een zogenaamde client-side oplossing. Dit betekende dat de data werd verzameld op basis van een meetpixel (ook wel beacon genaamd) dat rechtstreeks vanuit de browser van de internetbezoeker werd verstuurd. De belangrijkste toepassing lag op het vlak van online marketing. Hits en page views werden al snel van ondergeschikt belang; het ging om conversies uit campagnes zoals search en display advertising. Binnen nagenoeg ieder pakket vormt het rapporteren op campagnes ook één van de belangrijkste functionaliteiten.
Conversie attributie
De rapporten lieten de prestaties van campagnes zien op basis van de zogenaamde ‘last credit attribution’ (in de marketing volksmond ook wel ‘last cookie counts’ genoemd). Hierbij wordt de conversie toegewezen aan de laatste campagne waarop een bezoeker heeft geklikt, voordat de conversie daadwerkelijk plaatsvindt. Hierbij is het overigens zaak de kliks die tot campagnes behoren op de juiste manier te voorzien van een ‘campagne stempel’ zodat de web analytics software dit kenmerk detecteert en de juiste boekhouding voert. Met de veelvoud aan campagnes en het feit dat mensen vaak op meerdere campagnes klikken voordat ze converteren drong zich (terecht) de vraag op of het ‘last credit attribution’ principe niet te rigide was. Worden de overige campagnes op het conversiepad van een bezoeker hiermee geen onrecht aangedaan?
Multichannel attributie
Dit gaf aanleiding tot alternatieve attribution modellen, zoals ‘first credit attribution’ en ‘weighted credit attribution’. Meer geavanceerde methoden zoals percentages die op basis van het totaal aantal voorkomens worden berekend zijn inmiddels ook gemeengoed. In alle gevallen zijn dit evaluaties op basis van zogenaamde source-centric measures; de performance van een individuele campagne bron wordt geëvalueerd. De praktijk laat zien dat de campagnes een zelf organiserend netwerk vormen. Er is sprake van interactie doordat web bezoekers meerdere campagnebronnen aanklikken. Het aantal en de combinatie verschilt per bezoeker. Google heeft in Google Analytics inmiddels een module beschikbaar waarin deze campagne paden worden gevisualiseerd. Dit is een fraaie aanvulling op de functionaliteit die tot nu beschikbaar was in de meeste web analytics software pakketten: rijen en kolommen met cijfers. De vraag is echter hoe effectief dergelijke pad-rapportages zijn. De top-10 meest voorkomende paden is goed voor 30%-40% van de conversies: de overige paden (=longtail) zijn minstens zo interessant om te begrijpen en optimaliseren. Maar het bestuderen hiervan wordt al snel een onoverzichtelijke opgave (stel slechts 10 campagne bronnen zoals ‘seach organic’, ‘paid search’ , ‘display’ met een gemiddelde padlengte van 2 campagne kliks per bezoeker; dan zijn er in theorie al 10×10=100 unieke paden mogelijk).
Bovendien is het evalueren van paden geen doel op zich. Het gaat erom inzicht te verkrijgen in de prestaties van campagnes om een (her)verdeling van het budget te bepalen. Hierbij is het van belang de interactie tussen de campagnes goed te begrijpen. Onvoorzichtig omspringen bij het reduceren van het budget voor een campagne bron kan leiden tot ‘collateral damage’ doordat deze bron een cruciale rol (zoals die van ‘broker’) in het campagnenetwerk vormt. Het is dus zaak de rol van iedere campagne bron goed in te schatten. Om dit te kunnen doen zijn methoden uit netwerk analyse noodzakelijk; dit model wordt uitgelegd tijdens Emerce eDay op 15 september 2011 (om 15.15 uur).
Gericht handelen en optimaliseren
Allereerst zal het netwerk bepaald (=automatisch geëxtraheerd) moeten worden uit de grote hoeveelheden klikdata. Daarna moeten de individuele prestatie en de rol van een campagne geëvalueerd worden. Een belangrijk aspect aan het toepassen van netwerk analyse binnen campagne evaluatie is dat het mogelijk wordt om berekeningen uit te laten voeren op basis van de onderlinge relaties tussen campagnes. Daarnaast kan er een analyse worden gemaakt van het campagnenetwerk in zijn geheel. Deze inzichten maken het mogelijk om de belangrijke vervolgstap te zetten: welke budgetten moeten verhoogd/verlaagd worden en welke effecten zijn hierbij te verwachten? Dit maakt web analytics data actionable.
Om een vergelijk te geven: de bestaande attribution modellen en campagne evaluatie methoden dienen als thermometer. Pad visualisatie kun je hierbij zien als het maken van een beter leesbare schaalverdeling.
Wat online marketing echt nodig heeft is een meet- en regelsysteem. Een systeem dat op basis van de ‘temperatuur’ concrete acties kan ondernemen om de temperatuur te verhogen of verlagen. Dan hebben we het dus over een thermostaat. Het onderzoek gaat verder in op de manier waarop deze thermostaat geconstrueerd wordt.
Op het vlak van conversie attributie, het juist toekennen van een order aan een klant, is Shop2market al enige tijd werkzaam. Kijk snel op de site voor meer informatie!
Kenmerkend voor de huidige conversie attributie modellen is dat de waarde die geattribueerd wordt in een algoritme wordt bepaald (bijv. 1e herkomst krijgt 40% waarde, de laatste ook en de resterende herkomsten krijgen gezamenlijk 20% waarde).
Wij zijn momenteel bezig met het statistisch berekenen van assist waarde (bijv. banner op nu.nl zorgt er -postview en postclick -voor dat een adwords campagne 12% beter scoort). Als je de assist waarde van ieder marketingkanaal op ieder ander kanaal berekent, dan resulteert dit in een assist matrix. De waarden in deze matrix zijn niet statisch maar ook weer variabel (de assist waarde stijgt niet lineair als je inzet van een marketingkanaal verhoogt). Met deze dynamische assist matrix kun je vervolgens je optimale online marketing mix van je huidige kanalen berekenen. De matrix krijgt hiermee een voorspellende functie: Het berekent het rechtstreekse effect van een marketingcampagne, maar ook het indirecte effect op andere kanalen.
In aanvulling op dit artikel wil ik graag nog een inzicht geven in een verdere toepassing van de modellering. Naast het feit dat het model gebruikt wordt voor een nauwkeurigere bepaling van de marketing mix is dit tevens een mechanisme om “online controlled experiments” (bijvoorbeeld A/B testen) uit te voeren. Ik zal een korte toelichting geven.
Het klikgedrag van een bezoeker op campagne uitingen is gekoppeld aan het on-site gedrag (=de navigatie op de doel web site waar de campagne kanalen naartoe verwijzen); dit wordt vastgelegd in de web analytics data. Door te kijken naar de kenmerken van de conversiepaden in het netwerk (zoals beschreven in het artikel en zoals gepresenteerd tijdens Emerce E-Day) krijgen we een inzicht waaruit het succes voor de web site op DIT moment uit bestaat; welke kanalen worden geklikt, hoe vaak en welke onderlinge relaties zijn er. Afgezien van een betere attributie is dit nog steeds geen doel op zich; het gaat om een betere on-site user experience waardoor de kans op conversie verhoogd wordt.
Doordat we principes van netwerktheorie gebruiken zijn we in staat om op basis van belangrijke dimensies (klikgedrag campagne kanalen, on-site navigatie, segmentatie) een “visitor state” (met een bijbehorende verwachting “gaat ‘ie kopen of niet”) te bepalen. Door de patronen van de nieuwe bezoekers te vergelijken met de conversiepaden (=de historische data met successen) kunnen we parallelen trekken. Vervolgens kunnen we hierop handelen (het meest basale voorbeeld is het laten landen op een specifiekere pagina); of je het nu ’testen’ of ’targeting’ noemt, het gaat om het uitvoeren van acties op de web site die gegeven de bezoeker karakteristieken de kans op conversie te verhogen. De effectiviteit van de uitgevoerde actie dient vervolgens wel geëvalueerd te worden om vast te stellen of er sprake is van verbetering; dit gebeurt door middel van de gebruikelijke statistische analyses voor A/B testen.
Hiermee geeft de modellering een basis voor een web analytics ecosyteem waarin de bezoekers instroom vanuit de campagne kanalen naar de web site het startpunt is voor actieve on-site marketing. Hierbij worden relevantere boodschappen en uitingen op de web site getoond. Dit moet enerzijds leiden tot een kortere time-to-conversion en anderzijds de kans op conversie te verhogen. Beide aspecten zijn wenselijk; het eerste vanwege het feit dat dit leidt tot kortere en dus goedkopere conversiepaden. Het tweede aspect spreekt voor zich. Op deze manier wordt web analytics data écht actionable. Een (online) marketing afdeling is hiermee “in control” en wordt in staat gesteld te sturen in plaats van (uitsluitend) te reageren en evalueren.
Dit is een directe opstap van thermometer naar thermostaat.
@ guido Jij schrijft: “Door de patronen van de nieuwe bezoekers te vergelijken met de conversiepaden (=de historische data met successen) kunnen we parallelen trekken.”
Welke patronen van nieuwe bezoekers vergelijk je dan? Een nieuwe bezoeker heeft toch nog geen webpages bekeken of on-site gedrag vertoond?
Overigens denk ik dat het nog zinvoller is om historische data met NON succes ook te gebruiken.
Je werkt met de netwerktheorie? Daarbij maak je gebruik van grafen – ofwel er moet een direct verband (incident) zijn tussen 2 kenmerken van een user. Daarmee kun je dus geen indirecte verbanden analyseren (bijv. een bannervertoning die er postview voor zorgt dat een adwords campagne een hogere ctr krijgt). Hoe kijk je daar tegenaan?
@Philippe (ik zie deze reactie pas nadat we elkaar gesproken hebben, maar ik geef voor de volledigheid de reactie). Ten aanzien van punt 1 (“patronen vergelijken”): inderdaad “hagelnieuwe” bezoekers (zij die voor de allereerste keer op de site komen), daar kunnen we nog niet direct actie op ondernemen, die zullen we even hun gang moeten laten gaan. Het artikel heeft ook juist betrekking op gevallen waarin de bezoeker een klikhistorie opbouwt en er sprake is van interactie tussen de campagne kanalen; hij/zij klikt diverse advertenties en converteert vervolgens. De optimalisatie zit dan bijvoorbeeld in het feit dat het gemiddelde aantal geklikte advertenties dat aan een conversie voorafgaat omlaag gebracht wordt (verkorting van conversiepad).
Non succes data kan zeker zeer waardevol zijn, vooral wanneer je de conversie attributie op basis van kansrekening uitvoert (dan is deze informatie essentieel). Maar er zitten ook haken en ogen aan. Bijvoorbeeld statistische significantie op kleinere volumes wanneer je op een lager aggregatieniveau werkt (bijvoorbeeld met individuele keywords). Daarnaast zitten we met de volgende crux; ook iedere succesvolle bezoeker was aanvankelijk een non-succes tot het moment dat het een succes werd. Hier kun je in je kansrekening wel mee overweg, maar dit maakt hetgeen ik beschreven heb in mijn eerste reactie (on-site controlled experimentation) weer een stuk uitdagender. Dus dit is een keuze. Het uitgangspunt dat ik hierbij bovendien heb is: “goed gedrag (=conversies) begrijpen en dat stimuleren” met hands-on oplossingen.
Je laatste opmerking kan ik niet helemaal plaatsen. Binnen een netwerk is het juist mogelijk om causaliteit te bepalen. Dat is een principe van het model; de samenwerking en de richting van deze samenwerking tussen de verschillende campagne kanalen kunnen bepalen. Wellicht dat ik je opmerking als volgt kan opvatten: indien je niet geregistreerd hebt dat een banner in de browser geladen is (=view) en dit feit zit niet in de data set, dan is een verband niet direct te leggen zonder gebruik te maken van statistische analyses (marketing mix models zijn hierbij veelgebruikte modellen). Maar dit punt heeft dan ook betrekking op de volledigheid van je data set. N.b. ik werk samen met een collega die zich juist op deze statistische modellen toelegt; onze benaderingen voor dergelijke scenario’s zijn hierbij complementair. Op deze manier kun je dus post-view effecten meenemen.
Gerelateerde artikelen
Marketingfacts. Elke dag vers. Mis niks!
Marketingfacts. Elke dag vers. Mis niks!