Wat zeg je?

27 februari 2013, 15:50

Vergelijking tussen mens en computer bij tekstanalyse

Tweets op Twitter, discussies op internetfora of blogposts op nieuwssites. Regelmatig worden we overladen met grote hoeveelheden aan berichten. Wij als mensen zijn dikwijls in staat om de inhoud van zo’n omvangrijke verzameling aan berichten op kernachtige wijze samen te vatten. Zo kunnen wij vaak moeiteloos bij deze berichten de belangrijkste onderliggende thema’s identificeren. Maar kan een computer ook deze berichten begrijpen en ontcijferen wat de belangrijkste onderliggende thema’s zijn?

Voorbeeld van data: Mechanical Turk

Wat motiveert mensen om deel te nemen aan taken op Mechanical Turk? Deze vraag speelde door het hoofd van Panos Ipeirotis (associate professor aan de Leonard N. Stern Business School van de New York University). Mechanical Turk is een site waar Turkers (ook wel Workers genoemd) zogenaamde Human Intelligence Tasks (HITs) uitvoeren. Deze taken lopen uiteen van het zoeken naar e-mailadressen tot het beoordelen van de kindvriendelijkheid van restaurants.

Om inzicht te krijgen in de Turkers’ beweegredenen plaatste Ipeirotis zijn eigen taak op Mechanical Turk. Bij deze taak konden Turkers 10 dollarcent verdienen door een antwoord te geven op de volgende vragen:

“Why do you complete tasks in Mechanical Turk? Please describe the reasons that motivate you for completing tasks on Amazon Mechanical Turk. Do you do this for the monetary awards? For killing time? Do you consider the tasks fun? What discourages you from completing tasks? What attracts you to participate in a particular task?”

In totaal beantwoordden 148 Turkers de bovenstaande vragen. Ipeirotis deelde deze antwoorden met de rest van de wereld door ze te plaatsen op zijn weblog. Als voorbeeld volgen de antwoorden van twee van deze Turkers:

De menselijke beoordeling

Om de antwoorden van alle 148 Turkers inzichtelijk te maken, riep Ipeirotis de hulp in van beoordelaars. Eerst brachten twee beoordelaars afzonderlijk van elkaar in kaart wat volgens hen de onderliggende thema’s (categorieën) bij de antwoorden waren. De beoordelaars kwamen daarbij uit op negen verschillende categorieën. Vervolgens deelden twee andere beoordelaars alle 148 antwoorden in bij deze negen onderliggende thema’s. Hierbij moet opgemerkt worden dat menigmaal het antwoord van een Turker ondergebracht werd bij meer dan één thema.

De volgende grafiek toont de categorisatie van alle 148 antwoorden. Deze grafiek laat bijvoorbeeld zien dat ongeveer 20% van de ondervraagden in hun antwoord aangaf dat hun motivatie het doden van tijd was (Categorie 1).

Deze categorisatie bracht Ipeirotis tot de conclusie dat Turkers deelnemen aan HITs “[…] to get some extra cash and pay for gas, but there is a significant fraction that does it for fun, because they consider Turking interesting, and sometimes even addicting!

Overigens kan bij de toegepaste categorieën een kanttekening worden geplaatst. Er is namelijk sprake van een zekere overlap tussen de categorieën. Zo kunnen bijvoorbeeld Income purposes (Categorie 3) en Pocket change or extra cash (Categorie 4) als subcategorieën worden gezien van het meer algemene thema Geld verdienen.

Of zulke nuanceringen (subcategorieën) uiteindelijk wel of niet nuttig zijn zal afhangen van de mate van detail die iemand voor ogen heeft bij het beoordelen van de antwoorden.

Het begrijpen van taal

In het geval van tekst wordt vaak gesproken over ongestructureerde data. Het voorbeeld met Mechanical Turk hierboven laat zien dat je voor het verwerken van dit soort data dikwijls de hulp moet inroepen van beoordelaars. Deze beoordelaars maken de ongestructureerde data inzichtelijk. Zij identificeren namelijk de belangrijkste onderliggende thema’s, en delen dan de teksten in bij deze thema’s.

Maar het zal niet vreemd in de oren klinken dat deze categorisatietaak niet altijd even enerverend is. In het geval van zeer grote aantallen berichten kan dit beoordelaarswerk bijzonder vermoeiend zijn. Denk hierbij maar eens aan de grote aantallen Tweets bij een ‘trending topic’, of de inhoud van alle blogs die in het laatste halfjaar zijn gepost op Marketingfacts. Categorisatie van zulke grote hoeveelheden aan berichten kan interessante informatie opleveren, maar vergt tegelijk een behoorlijke inspanning van de beoordelaars.

Kan een computer daarom niet de taak van de menselijke beoordelaars overnemen? Kan een computer niet zulke teksten lezen en begrijpen, onderliggende thema’s identificeren en ten slotte beoordelen tot welk thema een tekst behoort? Maar dan rijst bij sommigen wellicht de volgende vraag: “Beschikken wij als mensen niet over een rijke taal met tal van nuances?” Voor het achterhalen van de betekenis van een zin moeten wij als mensen menigmaal ‘tussen de regels door lezen’. En de betekenis van een woord halen wij dikwijls uit rest van een zin (de context). Voor het begrijpen van woorden en zinnen zal een computer over deze menselijke taalvaardigheden moeten beschikken. Alleen dan kan een computer mogelijk de taak van menselijke beoordelaars overnemen en teksten redelijkerwijs onderbrengen bij verschillende thema’s. Maar een computer kan dan wel goed zijn in rekenen, het begrijpen van taal is toch heel iets anders?

Een eerste poging van de computer

De afgelopen decennia zijn verschillende modellen ontwikkeld waardoor computers ook taal lijken te begrijpen (voor een overzicht zie Kintsch & Mangalath, 2011). Daarbij zijn veel van deze modellen in staat om de betekenis van woorden te ontrafelen (Landauer & Dumais, 1997). Dit begrijpen van taal door computermodellen schept de mogelijkheid dat computers, net als mensen, grote hoeveelheden aan teksten of berichten op inzichtelijke wijze in beeld kunnen brengen en classificeren.

Geïnspireerd door deze modellen heb ik een eigen computeranalyse ontwikkeld. Met deze analyse heb ik onderzocht of ik de 148 antwoorden van de Turkers op inzichtelijke wijze kon samenvatten. Als een eerste begin heb ik de analyse alle antwoorden laten samenvatten aan de hand van slechts twee thema’s. De analyse geeft de inhoud van deze twee thema’s weer met behulp van zogenaamde themawoorden. De tien belangrijkste themawoorden van de twee thema’s zijn als volgt:

De analyse verduidelijkt de betekenis van deze themawoorden door per thema een aantal representatieve tekstfragmenten te selecteren. Deze tekstfragmenten ontstaan door ieder antwoord van een Turker op te delen in afzonderlijke zinnen. Als het antwoord van een Turker bijvoorbeeld uit vijf zinnen bestaat, dan levert dit vijf afzonderlijke tekstfragmenten op. Wat nu volgt zijn twee representatieve tekstfragmenten voor ieder van de twee thema’s. De oplettende lezer zal opvallen dat menig themawoord (in de vorige tabel) terugkomt in deze tekstfragmenten.

De combinatie van themawoorden en representatieve tekstfragmenten maakt op haar beurt het duiden van de twee thema’s mogelijk. Het eerste thema lijkt betrekking te hebben op ‘de eigenschappen van HITs’. Hieronder valt bijvoorbeeld wat een taak aantrekkelijk óf juist onaantrekkelijk maakt voor een Turker. Het tweede thema lijkt meer te gaan over ‘wat levert deelname aan Mechanical Turk op voor de Turker, of anders gezegd, wat heeft de Turker aan deze deelname?’. Bij het tweede thema gaat het dus meer over de extrinsieke waarde van een taak.

Maar halen we nu even de vragen voor de geest die Ipeirotis stelde voor het achterhalen van de motivatie van de Turkers. In deze vragen zien we namelijk de twee thema’s terugkomen:

“Why do you complete tasks in Mechanical Turk? Please describe the reasons that motivate you for completing tasks on Amazon Mechanical Turk. [THEMA 2: Do you do this for the monetary awards? For killing time?] [THEMA 1: Do you consider the tasks fun? What discourages you from completing tasks? What attracts you to participate in a particular task?]”

Wat we hier zien is dat Ipeirotis met zijn specifieke vraagstelling de Turkers gestuurd heeft bij het geven van hun antwoorden. Het interessante aan de analyse is dat deze dit sturen al in een vroeg stadium (met slechts twee thema’s) oppikt en zichtbaar maakt.

Een stap verder

Is deze eerste oplossing met twee thema’s niet erg karig? Dekken deze twee thema’s wel de gehele inhoud van alle 148 antwoorden? Is het niet mogelijk om de inhoud van de Turkers’ antwoorden samen te vatten met meer dan twee thema’s? Mijn analyse geeft aan dat alle 148 antwoorden het beste worden samengevat aan de hand van vier thema’s. Hoe ziet zo’n oplossing met vier thema’s eruit?

Wederom kunnen de thema’s geduid worden met behulp van representatieve tekstfragmenten. Een mogelijke duiding van ieder thema is hieronder weergegeven, inclusief een representatief tekstfragment. Het percentage bij ieder thema laat zien welk deel van het totaal aantal fragmenten onder een bepaald thema valt. Van alle fragmenten tezamen (totaal 720) valt bijvoorbeeld 31% onder het eerste thema. (Merk overigens op dat deze percentages op een andere manier worden berekend dan die van Ipeirotis bij de menselijke beoordelaars in de eerste grafiek. Dit verschil in rekenmethode maakt het vergelijken van mens en computer wat betreft deze percentages helaas niet makkelijk.)

Een vergelijking tussen deze vier thema’s en de twee van de eerste oplossing brengt aan het licht hoe de analyse te werk gaat. Wat namelijk opvalt is dat de vier nieuwe thema’s eigenlijk subthema’s zijn. Zij komen voort uit een opsplitsing van de oorspronkelijke twee thema’s uit de eerste oplossing (ter herinnering, dit waren [1] wat zijn de eigenschappen van HITs?, en [2] wat levert deelname aan Mechanical Turk op voor de Turker?). Dit opsplitsen in subthema’s wordt ook duidelijk als je één stap verder gaat, namelijk naar een oplossing met vijf thema’s.

In de tabel is te zien hoe het eerdere thema ‘Wat maakt een taak aantrekkelijk?’ (Thema 1 uit de oplossing met vier thema’s) nu is opgesplitst. Dit specifieke thema wordt nu uitgediept aan de hand van twee subthema’s. Het eerste subthema (Thema 1 in bovenstaande tabel) gaat over ‘Hoe aantrekkelijkheid afhangt van de lengte en eenvoud van een taak, en bovendien van de redelijkheid van de uitbetaling’ (“I usually pick tasks that are short, easy to finish, and pay at least .02 to .03 cents”). Het twee subthema (Thema 4 in dezelfde tabel) heeft betrekking op ‘Hoe de aantrekkelijkheid van een taak afhangt van een beloning, zoals geld, plezier of de uitdaging’ (“The reason for completing tasks is purely for the monetary awards but there is a fun aspect to it as well”).

Hoe ver je wilt gaan met dit herhaaldelijk opsplitsen van thema’s in subthema’s zal uiteindelijk weer afhangen van de mate van detail die iemand voor ogen heeft bij het categoriseren van de antwoorden.

Mens versus computer bij tekstanalyse

Heeft de computeranalyse de teksten begrepen? Dit is een belangrijke vraag en lijkt een voorwaarde te zijn voor het redelijkerwijs kunnen classificeren van teksten. De resultaten hierboven maken duidelijk dat de analyse de samenhang ontdekte tussen bepaalde woorden (zoals tussen money, cash, earn en spend). Deze onderlinge samenhang verleent een zekere betekenis aan woorden (Landauer & Dumais, 1993). Bovendien gebruikt de analyse deze samenhangen als bouwstenen voor het opbouwen van de thema’s. Deze thema’s bieden op hun beurt weer voor ons als mensen een context om de woorden in de teksten beter te kunnen plaatsten en te begrijpen.

Zijn er verschillen tussen de resultaten van de menselijke beoordelaars en de computeranalyse? De twee methoden (mens versus computer) lijken soortgelijke thema’s aan te stippen. Zo stippen ze allebei thema’s aan als tijdsbesteding, geldinkomsten en aantrekkelijkheid van de taak (aspecten zoals fun en uitdaging). Door deze overeenkomsten zullen de uiteindelijke conclusies over de motivatie van Turkers niet substantieel verschillen bij de twee methoden. Niettemin zijn er ook verschillen in de resultaten aan te wijzen. Zo kaart de computeranalyse bijvoorbeeld een thema aan dat verwijst naar de onaantrekkelijkheid van taken. Dit thema zegt iets over wat Turkers demotiveert om deel te nemen aan een taak. De menselijke beoordelaars laten dit thema echter buiten beschouwing.

Maar welke van de twee methoden levert nu de beste resultaten op? Dit eindoordeel zal ik moeten overlaten aan de menselijke beoordeling van lezers van dit blog…

Slotopmerkingen

  • Een uitgebreidere rapportage van de resultaten van de computeranalyse is te vinden op deze pagina van de Datall-website.

  • Graag wil ik Panos Ipeirotis bedanken voor zijn toestemming van het gebruiken/vermelden van zijn data in deze blog.

  • Panos Ipeirotis liet mij onlangs weten (februari 2013) dat de afgelopen jaren de demografische eigenschappen van Turkers significant zijn veranderd. Omdat het onderzoek naar de motivatie van de Turkers al enige jaren oud komt mogelijk de huidige geldigheid van de 148 geobserveerde antwoorden in het geding.

Afbeelding: Quinn Dombrowski (cc)

Gebruikte literatuur

  • Kintsch, W., & Mangalath, P. (2011). The construction of meaning. Topics in cognitive science, 3, 346-370.

  • Landauer, T.K., & Dumais, S.T. (1997). A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological Review, 104, 211-240.

Stefan Gelissen
Data-analist bij Datall

Stefan Gelissen is data-analist en analyse-ontwikkelaar bij Datall. Hij heeft uitgebreide kennis over menselijke beslisprocessen en consumentengedrag. Daarnaast heeft hij onderzoekservaring opgedaan aan de Technische Universiteit Eindhoven en in de Verenigde Staten (Michigan State University).

Categorie
Tags

Marketingfacts. Elke dag vers. Mis niks!