Sune Lehmann: van big data naar deep data
Het was erg speciaal voor mij om een persoonlijke held te mogen interviewen. Sune Lehmann spreekt op Project Waalhalla op 13 december en in dat verband mocht ik hem uitgebreid spreken. Deze editie op vrijdag de dertiende wordt erg speciaal, een must voor iedereen die big data niet genoeg vindt en die iets heeft met het voorspellen van menselijk gedrag.
Sune Lehmann is associate professor op de DTU Informatica aan de Technische Universiteit van Denemarken. In het verleden werkte hij als post-doc bij het Institute for Quantitative Social Studies aan Harvard University en de College of Computer and Information Science aan Northeasthern University. Daarvoor was hij verbonden aan Laszlo Barabási's Center for Complex Network Research aan Northeastern University en het Center for Cancer Systems Biology van het Dana Farber Cancer Institute.
Laten we dit keer beginnen bij het begin, voordat we dieper gaan. Je belangrijkste onderzoeksproject heeft te maken maken met het meten van werkelijke sociale netwerken met een hoge resolutie. Ik weet zeker dat je daar geen 3D-geprinte sociale netwerken mee bedoelt. Waar streef je naar? En wat doe je eraan om daar te komen?
Mijn nederige onderzoeksdoel is om de sociale wetenschap opnieuw uit te vinden in het tijdperk van Big Data. Mijn achtergrond is in de wiskundige analyse van grote netwerken. Maar gedurende de afgelopen 10 jaar ben ik steeds meer geïnteresseerd geraakt in het begrijpen van sociale systemen.
Als wetenschapper was ik enorm verrast door de belofte van alle digitale sporen van menselijk gedrag als een gevolg van goedkope harde schijven en databases overal. Ondanks de belofte van big Data zijn de resultaten tot dusver minder spannend dan ik had gehoopt. Nieuwe wetenschappelijke inzichten uit big data zijn nog schaars.
Een centrale hypothese in mijn werk is dat wanneer we willen vorderen in ons kwantitatieve begrip van social interactie, we niet verder kunnen komen met incomplete big data: we hebben goede data nodig. Laat mij uitleggen waarom en dan gebruik ik mijn eigen veld als voorbeeld. Laten we zeggen dat je een enorme dataset hebt van een telecom-provider die service verleent aan 30 procent van de populatie van een groot land met 66 miljoen inwoners. Dat zijn ongeveer 20 miljoen mensen en vele terabytes aan maandelijkse data, dus best een grote dataset. Maar wanneer je begint na te denken over het netwerk, kom je al snel in de problemen. De standaard aanpak is om simpelweg te kijken naar het netwerk tussen de personen in je sample. Met als aanname dat mensen steekproefsgewijs zijn opgenomen in je sample, realiseer je je dat 30 procent van de populatie correspondeert met maar 9 procent van alle links in het netwerk. Is 9 procent van alle gemaakt telefoontjes genoeg om te begrijpen hoe het netwerk werkt? Met maar 1 op de 10 bruikbare links is de sociale structuur bijna in zijn geheel gewist.
En het wordt erger. Telecommunicatie is maar één (klein en bevooroordeeld) aspect van menselijke communicatie. Menselijke interacties kunnen ook ontstaan wanneer men elkaar tegenkomt, via sms, e-mail, Facebook, Skype, etc. En deze stromen worden verzameled in silo's, waardoor we niet op algemene wijze personen of instanties kunnen identificeren over meerdere datasets heen. Dus wanneer we nadenken over alle wijzes waarop we kunnen comminiceren, dan is toegang tot 1 van de 10 contactpersonen in mijn telefoon waarschijnlijk erg ontoereikend om valide conclusies te trekken.
En het ergste is dat we het niet kunnen weten. Zonder toegang tot de gehele dataset kunnen we niet zeggen wat we wel of niet kunnen zeggen over een sample. Dus toen ik begon als assistent professor, besloot ik om mijn carrière om te gooien en mijzelf te verplaatsen van lekker zitten achter mijn computer als een theoretische wetenschapper naar een die experimenteert om te proberen dit probleem aan te pakken. Nu, een paar jaar later, hebben we een dataset verzameld van menselijke, sociale interacties die ongeëvenaard is in kwaliteit en grootte. We hebben sociale interacties opgenomen van meer dan 1.000 studenten aan mijn universiteit, met telefoons als sensors. We kunnen gedetailleerde interactiepatronen vastleggen, zoals face-to-face (via Bluetooth), socialenetwerk-data (e.g. Facebook en Twitter) via apps, telecommunicatiedata van iemands gespreksgeschiedenis en geo-locatie via GPS & wi-fi.
We noemen dit type data graag 'deep data': een hechte, verbonden groep aan deelnemers (alle links), observaties over meedere communicatiekanalen, vele observaties (per minuut), maar met een lange tijdslijn aan observatie (jarenlang verzameld) en met data over gedrag aangevuld met klassieke vragenlijsten, alsmede de mogelijkheid om experimenten uit te voeren gericht op interventie.
Maar mijn expertise (en werkelijke interesse) is niet in het bouwen van een deep data-collectieplatform – alhoewel dat erg veel lol gaf. Ik wil terugkeren naar de vragen die mij dreven richting computionele gedragswetenschap. Het opnieuw uitvinden van de gedragswetenschappen is waar het allemaal om draait.
- Sampling: wat kunnen we leren van maar één kanaal? Nu dat we kennis hebben over alle communicatiekanalen, kunnen we beginnen met het begrijpen wat voor zaken we kunnen leren van een enkel kanaal. Laten we met een kwantatieve blik kijken naar de bruikbaarheid van grote datasets van telefoongegevens of Facebook als dat de enige beschikbare data zijn.
- Dynamische netwerken: mijn hart ligt nog bij netwerkwetenschappen. In sommige opzichten is dit gehele project ontworpen om een systeem te bouwen dat ons verder zal brengen met betrekking tot het modelleren van menselijke, sociale netwerken. We gebruiken deze dataset nu al om betere modellen te creëren voor dynamische, multiplex netwerken.
- Viraliteit: het begrijpen hoe een proces zich verspreidt (invloed, gedrag, ziekte, etc.) is een centraal doel als we kijken naar de toekomst. We hebben een systeem, waar N groot genoeg is om interventie-experimenten op uit te voeren met gerandomiseerde controle. We zijn nog ver verwijderd van het implementeren van dit doel, maar we werken aan het vinden van de juiste vragen – en werken nauw samen met gedragswetenschappers om onze protocollen voor deze vragen te verfijnen.
Wat een toeval [lacht]. Wij houdens ons alleen maar bezig met het modelleren van gedrag en het leren over kanalen heen. En met ContagionAPI prominent op onze roadmap willen we binnenkort ook aan de slag met viraliteit.
Wat waren de laatste jaren de grootste uitdagingen in het modelleren van gedrag en wat zie je als de grootste uitdagingen en mogelijkheden voor de toekomst?
Er zijn meerdere uitdagingen. Alhoewel we enorme vooruitgang hebben geboekt in network science, bijvoorbeeld, is het nog steeds een feit dat ons fundamentele begrip van dynamische/multichannel-netwerken nog in de kinderschoenen staat; er zijn maar weinig makkelijk te interpreteren modellen die de onderliggende netwerken verklaren.
Dus dat is zeker een gebied met vele uitdagingen en gaat gepaard met vele mogelijkheden. En wanneer we vragen willen beantwoorden over zaken die gebeuren in netwerken, komen we in aanraking met allerlei problemen over hoe we op een statistich correcte wijze moeten handelen. Briljante statistici hebben aangetoond dat homophily en contagion met elkaar zijn verward in observationele socialenetwerkstudies. Op dat front doen mannen als Sinan Aral enorm mooi werk. Ze maken daarbij gebruik van interventies om sommige issues te verduidelijken, maar er is nog zat te doen.
Uiteindelijk is privacy een groot issue. We werken nauw samen met het MIT MediaLab om nieuwe, verantwoorde oplossingen te vinden – en we zijn best ver gekomen op dat vlak. Maar in termen van het delen van data waarbij de privacy van de participanten wordt gerespecteerd, is er nog een lange weg te gaan. Omdat studies rondom de digitale sporen van menselijk gedrag niet verdwijnen op de korte termijn, moeten we zeker vooruitgang maken op dit vlak.
Waarom doet dit alles er toe? En zouden we bezorgd moeten zijn door deze zaken?
Ik denk dat er meerdere redenen zijn om bezorgd en opgewonden te zijn. Hoe meer we leren over hoe systemen werken, des te meer we in staat zijn om deze te beïnvloeden en te controleren. Dat geldt ook voor clusters van mensen. Als we denken over hoe een ziekte zich verspreidt, zou het geweldig zijn om te weten hoe je de verspreiding kunt stoppen of vertragen. Of hoe we als een maatschappij beter in staat zijn om zaken te verspreiden die we ondersteunen, zoals tolerantie, gezond leven, etc. en tegelijkertijd deze kennis gebruiken om binnen sociale systemen negatief gedrag, zoals intolerantie, roken, etc. te beperken.
Dit alles leidt tot een andere goede reden om bezorgd te zijn. Bedrijven zoals Google, Facebook, Apple (of instanties zoals de NSA) zijn bezig om hun resources aan te wenden om onderzoek te doen op dit gebied. Het is geen toeval dat zowel Google als Facebook hun eigen telefoons aan het ontwikkelen zijn. Maar geen van deze afgeschermde spelers deelt z'n resultaten. Ze zijn het simpelweg aan het toepassen op het publiek. Naar mijn mening is dat een van de kernproblemen van de status quo, namelijk de informatie-assymmetrie. We overhandigen onze persoonlijke data aan invloedrijke organisaties, maar hebben nauwelijks tot geen inzicht in a) wat zij weten over ons en b) wat ze doen met de dingen die ze over ons weten.
Door onderzoek te doen dat transparante, collaboratief en open is over privacy, en dat publiek is, hoop ik dat we kunnen fungeren als tegenhanger en samen kunnen werken om de informatiekloof te overbruggen.
Okee, geweldig. Maar zouden organisaties geïnteresseerd zijn in de dingen waarmee je je bezighoudt? Zo ja, waarom?
Ik denk het wel! Een van de spannende dingen van dit gebied is dat basisonderzoek zeer dicht tegen toegepast onderzoek aan ligt. Inzicht in de mechanismen die de menselijke natuur drijven, is inderdaad waardevol voor bedrijven. Ik neem aan dat jouw bedrijf Science Rockstars daarom bestaat. [Noot van de schrijver: best slim!]
We weten al dat menselijk gedrag significant beinvloed kan worden door 'nudging', dat bepaalde typen van collectief gedrag onze mening en ons aankoopgedrag beïnvloeden. Hoe meer we dan dit soort details ontdekken over die mechanismen, des te preciezer en effectiever we kunnen zijn met betrekking tot het beïnvloeden van anderen – laten we de etische kwesties een andere keer bespreken.
Maar het is niet alleen marketing. Als het voor goede zaken wordt toegepast, dan is dit de wetenschap die mensen blij maakt. Dus binnen organisaties kan dit soort werk gebruikt worden voor het reorganiseren van organisatoriestructuren, incentives, hoe medewerkers blijer te maken en meer voldoening te laten voelen. En als we organisaties zien als organismen, kun je het hebben van toegang tot realtime informatie over medewerkers en hun mentale toestand zien als toegang tot het 'zenuwstelsel' van het bedrijf, wat snellere reacties toestaat als er een crisis dreigt.
Tenslotte is er nog het medische veld: we weten we dat onze genen slechts deels verklaren waarom we ziek worden. Als we in staat zijn om ons gedrag te analyseren en te kwantificeren, betekent dat dat we meer te weten komen over onze omgeving, over het verschil tussen nurture en nature van onze menselijke aard. In dat opzicht kunnen gedetailleerde data over hoe we ons gedragen ons beter doen begrijpen hoe we gezonder kunnen leven.
Ik weet zeker dat ik veel zaken vergeet, but you get the idea. Ik geloof dat dit belangrijk is. Laten we dit verder bespreken op 12 december in Waalhalla.