Voice marketing: maakt menselijker ook overtuigender?
Het gebruik van voice interfaces als alternatief voor tekst interfaces is populair onder marketeers. Onder hen heerst het idee dat voice interfaces digitale communicatie menselijker maken en dat de persuasieve boodschappen die via zo’n voice interace worden gecommuniceerd overtuigender zijn. Maar is dat wel zo?

Voice assistants worden meer en meer geïmplementeerd door marketeers, onder andere gedreven door snelle ontwikkelingen rondom conversational AI. Er wordt erg veel geïnvesteerd in voice AI, onder andere om de stemmen die gebruikt worden in voice interfaces menselijker te maken. Een onderliggende overtuiging hierbij is dat stemmen die als menselijk worden ervaren ook beter in staat zijn gebruikers te overtuigen.
Er is al veel onderzoek over hoe chatbots en virtuele assistenten menselijker gemaakt kunnen worden. Empirisch onderzoek dat expliciet de overtuigingskracht van tekst en voice assistenten vergelijkt is echter zeer schaars (uitzonderingen zijn een studie uit 2022 en een uit 2024) en we weten vooral nog erg weinig over waarom stemmen die als menselijker worden ervaren overtuigender zouden zijn.
Er zijn verschillende manieren waarop stemmen menselijk gemaakt worden; wij focusten in ons onderzoek op het gebruik van passende prosodie: het ritme, de klemtoon en de intonatie van de stem bij het uitspreken van een zin of zinsdeel. Met passende prosodie kan een stem gebruikers het gevoel geven dat er daadwerkelijk gereageerd wordt op de input die door de gebruiker werd gegeven (zie box 1).
Het onderzoek
Met een interdisciplinair team van communicatiewetenschappers, computerwetenschappers en een computationeel letterkundige hebben we drie versies van een virtuele assistent ontwikkeld waarmee we een experiment uitvoerden. Deelnemers voerden een gesprek van 6 minuten met een assistent die hen hielp bij het kiezen van een digitale camera.
Ze voerden dit gesprek met één van de drie versies die we ontwikkelden: met een tekst assistent, met een assistent die gebruik maakte van een standaard synthetische stem (Google’s Text- to-Speech engine met de mannelijke stem in US Engels), of met een assistent waarbij we de standaard stem heel subtiel hadden aangepast zodat het gebruikte ritme, de klemtoon en de intonatie pasten bij de informatie status van de gebruiker (zie box voor meer uitleg). Na de interactie werd gemeten hoe menselijk gebruikers de assistent vonden, in hoeverre ze het idee hadden dat de aanbeveling speciaal voor hen was en hun attitude ten opzichte van het aanbevolen merk.
De resultaten
Ons onderzoek liet zien dat:
- Een voice assistent die gebruik maakt van een stem met passende prosodie is overtuigender dan een tekst assistent.
- Dat kan worden verklaard doordat de assistent als menselijker wordt gezien.
- Doordat een stem als menselijker wordt ervaren, hebben mensen het gevoel dat een boodschap speciaal voor hen bedoeld is.
- We vonden geen verschil tussen tekst en de standaard synthetische stem, alleen tussen de tekst assistent en de assistent met passende prosodie. Een passend ritme, klemtoon en intonatie kan dus gebruikt worden om een synthetische stem een bepaalde kwaliteitsnorm te laten behalen.
Take-aways voor marketeers
- Het gebruik van voice interfaces kan leiden tot meer overtuigende communicatie dan het gebruik van tekst interfaces, maar dat is niet automatisch het geval.
- Het is daarvoor belangrijk om een menselijke stem te gebruiken, bv. met prosodie die is afgestemd op wat de gebruiker inbrengt in de interactie.
- Bij het gebruik van een menselijke stem ervaren mensen de communicatie als meer gericht op hen als individu.
- Dit zorgt er vervolgens voor dat gebruikers positiever zijn over het merk dat wordt gepromoot.
- Het is essentieel dat features die geïmplementeerd worden om communicatie menselijker te maken, getest worden met echte gebruikers om te toetsen of aan hun verwachtingen wordt voldaan.
Deze blog is gebaseerd op onderstaande artikel:
Voorveld, Pantelli, Schirris, Ischen, Kanoulas en Lentz is getiteld: Examining the persuasiveness of text and voice agents: prosody aligned with information structure increases human-likeness, perceived personalisation and brand attitude. Behaviour & Information Technology.
LINK: https://www.tandfonline.com/doi/pdf/10.1080/0144929X.2024.2420871
Over de auteur
Dr. Hilde Voorveld is als universitair hoofddocent persuasieve communicatie werkzaam bij de Amsterdam School of Communication Research (ASCoR), Universiteit van Amsterdam (UvA). Sinds 2024 is ze lid van de Raad van Advies van SWOCC.
Interessant en belangwekkend deze expliciete studie. Zelf hebben wij enkele stemstudies mogen doen met fMRI waarin we de separate emoties kunnen meten die een stem weet op te roepen. De studie waarover we mogen rapporteren is die van de NS; voor wie we hebben gezien dat de nu gekozen stationsstem in staat is om negatieve emoties te dempen. Best handig als er een bericht van vertraging of perronwijziging moet worden aangekondigd.
De juste stem in een commercial kan het verschil maken tussen het wel of niet begeerlijk vinden van het besproken product. Financiële diensten bijvoorbeeld kunnen beter door een man verkocht worden. Een vrouw echter wordt meer vertrouwd in de afhandeling ervan.