Help! Ik Heb Geen Data Scientist – Deel 2

Een gemiddelde over een bak data die niet representatief is, zegt te weinig. Hoeveel mensen heb je nodig hebt om antwoord te geven op de ‘mag ik dat zeggen’ van onze vorige editie?

Kevin van Kalkeren

12 juli 2022, 14:29 2398 x gelezen

Dat je iets met klantdata moet, staat buiten kijf. Maar in de vakmedia lees je iedere week weer over een ander tekort: data scientists, data engineers, ML engineers, analytics translators. Heb je de ambitie om je klant écht beter te begrijpen maar niet de resources die daarbij horen, dan sta je voor een uitdaging. Wat dan? In deze reeks gaan we dieper in op mindsets, tools, best practices en technieken die je ook zonder een heel datateam kunt toepassen. Deze keer: Het gevaar van het gemiddelde.

“De gemiddelde doorkliks zijn gestegen!”, “de gemiddelde openrate is 30%”, “de gemiddelde mandwaarde is 55 euro”. Vraag jij jezelf weleens af hoe vaak je gemiddeld “gemiddeld” zegt op een dag? Vaak waarschijnlijk. Gemiddeldes geven ons mensen houvast en zijn top als communicatiemiddel ze zijn gemakkelijk te berekenen en iedereen snapt wat je ermee wil zeggen. Maar vaak genoeg wordt de plank ook volledig misgeslagen met het gemiddelde.

In dit artikel, een aantal vervolgvragen om te stellen, om te voorkomen dat je na een beslissing op een gemiddelde voor een onaangename verrassing komt te staan.

Om hoeveel gaat dit dan ‘gemiddeld’?

Wellicht een open deur, maar de zogenaamde ‘steekproefgrootte’ telt echt mee. Een gemiddelde over een bak data die niet representatief is, zegt te weinig. Zonder jezelf te kwellen met allerlei statistiek, kan een tool als deze van Surveymonkey je al helpen om iets te zeggen over hoeveel mensen je nodig hebt om antwoord te geven op de ‘mag ik dat zeggen’ van onze vorige editie. Voorkom dus handelen op valse zekerheden door te checken of je wel genoeg ‘poppetjes’ hebt om een mooi gemiddelde te kunnen hanteren.

Een stabiel gemiddelde

Toch weer even een statistiekterm: standaardafwijking. Wellicht wekt dit flashbacks op aan statistiekcolleges, maar wees niet bang: het intuïtief is eenvoudig.

Bekijk de tabel. Beiden hebben een gemiddeld aantal aankopen van 500. Kijk je echter naar hoe dat gemiddelde tot stand komt, zie je wel degelijk verschil. Want welke aankoopcategorie komt op jou het meest stabiel over? Waar is er nog werk aan de winkel?

”Standaardafwijking”

De bovenstaande tabel geeft het idee van standaardafwijking goed weer. Bij fysieke aankopen zit ieder kwartaal gemiddeld veel verder af van het totale gemiddelde – namelijk 400 aankopen – dan bij online, waar ieder kwartaal niks verschilt van het totale gemiddelde.

Een gemiddelde kan zo dus verschillen uitvlakken of juist onnodig uitvergroten. 500 lijkt hierboven leuk, maar fysieke aankopen leveren toch echt een andere cashflow en inkoopbeleid op. Daarnaast was de fysiek categorie gemiddeld genomen hoger geweest als Q3 bijvoorbeeld 200 aankopen had geteld, maar dat had de stabiliteit niet erg veel doen toenemen, toch?

Check dus ook altijd even: hoe is de spreiding van die gemiddelde score? Zit eigenlijk iemand echt rondom het gemiddelde, wordt het gemiddelde juist enorm vertekent door een enkele outlier?

Ingewikkeld? Gelukkig kun je ook dit soort dingen snel in Excel berekenen.

Gemiddeld goede tip

Kortom: gemiddeldes zijn prima, maar zorg altijd voor extra context in de vorm van groepsgrootte en spreiding. Met meer gevoel bij je gemiddelde, maak je stabielere beslissingen.

In de volgende edities ga ik dieper in op verschillende technieken. Nu al meer weten over hoe jouw bedrijf datagedreven kan worden? Neem vrijblijvend met me op. Ik drink graag een (digitale) kop koffie met je.

Lees hier de eerste editie van deze vierdelige serie.

Kevin van Kalkeren

Manager Product Management & Data Science | Oprichter | Docent Marketing Analytics bij OnMarc | Connaisseur | Hogeschool Utrecht

Categorie

Data Analytics Markt en Onderzoek