Apple’s emoji en een nieuwe golf van nepnieuws
Hoe Apple’s nieuwe toepassing van kunstmatige intelligentie de weg opent naar meer “fake news”
We kennen het al jaren van Hollywood-films als Avatar, The Hobbit en King Kong en recenter Game of Thrones: hoofdrolspelers die volledig of deels door de computer gemaakt zijn. Zo zijn geheel nieuwe filmkarakters mogelijk, kunnen oude sterren tot leven worden gewekt en kunnen ingewikkelde stunts worden vervangen door computer-gemodelleerde effecten. Hun acteerprestaties hebben ze nog wel te danken aan menselijke acteurs. Met speciale kostuums en maskers worden de lichaamsbewegingen en gezichtsuitdrukkingen van een acteur geanalyseerd en overgezet naar het 3D-getekende karakter.
Gezichtsherkenning dankzij kunstmatige intelligentie
Dankzij Apple kunnen we binnenkort zelf een beetje Hollywood spelen. Met de lancering van de nieuwe iPhone X afgelopen september introduceerde Apple een nieuwe generatie gezichtsherkenning, FaceID genaamd. Een ingebouwde camera aan de voorkant van de smartphone, die heel nauwkeurig diepte kan meten, maakt een gedetailleerd 3D-beeld van je gezicht. De kunstmatige intelligentie in de iPhone kan vervolgens vijftig verschillende spierbewegingen herkennen.
Het systeem is zelflerend. Hoe vaker je de camera gebruikt, hoe beter herkenning wordt. Het kan veranderingen in je gezicht zien en je ook herkennen als je ineens een muts of bril draagt of je baard laat staan, of als je een beetje schuin in de camera kijkt in het donker. De technologie is inmiddels zo betrouwbaar en robuust dat Apple hem gebruikt als de nieuwe vorm van identificatie waarmee je inlogt op je telefoon ter vervanging van de vingerafdruk. Als het aan Apple ligt krijgt deze technologie nog vele nieuwe toepassingen, onder andere bij betalingen.
Een daarvan is het besturen van emoji’s met je eigen gezichtsuitdrukkingen. Verbaasd kijken, of gekke bekken trekken en je emoji’s doen dit na op jouw manier. Zo kun je hele persoonlijke ‘berichten’ sturen, iets waarmee Apple hoopt zijn eigen messaging app een nieuwe impuls te geven.
De toekomst: photoshoppen van video en geluid
De nieuwe toepassingen van Apple zijn een voorbeeld van de gestage opmars van kunstmatige intelligentie. Steeds meer toepassingen komen voor consumenten beschikbaar. De technologie zelf is vaak onzichtbaar onder motorkap, in de vorm van een woordsuggestie die je helpt om sneller tekstberichten in te typen en steeds beter wordende spraakherkenning. De ‘Animoji’s’ van Apple laten weer een nieuwe, grappige, speelse mogelijkheid zien.
Wat Apple nu doet met gezichten, doet softwarefabrikant Adobe, bekend van Photoshop en Premiere, met geluid en video. Ongeveer een jaar geleden introduceerde Adobe een nieuwe toepassing: VoCo, voice conversion. Hiermee kan de computer elke tekst omzetten in spraak, met ieders stem. Skip naar 3:45 voor een duidelijk voorbeeld.
De software moet ongeveer twintig minuten naar iemand luisteren om diens stem goed te leren kennen. Vervolgens kan elke ingetypte zin worden uitgesproken door die stem, dus ook woorden die jij zelf in die twintig minuten niet hebt gebruikt. De toepassing is in eerste instantie ontwikkeld als een photoshop voor geluid, om opnames te kunnen corrigeren maar de mogelijkheden gaan dus veel verder.
Tellen we Adobe’s technologie op bij die van Apple en nemen dan kunnen de emoji’s dus binnenkort tekstberichten die je naar iemand stuurt voorlezen met jouw stem en met jouw gezichtsuitdrukking erbij.
En als Apple toch al een gedetailleerde 3D-scan van je gezicht heeft gemaakt voor de identificatie, dan is het zeer denkbaar dat je binnen een paar jaar je eigen gezicht alles kunt laten zeggen. Zo kun je een video van jezelf maken zonder dat je deze zelf hoeft in te spreken of op te nemen. Samen met de bewegingsherkenningssoftware die onder andere gebruikt wordt in de Xbox of Playstation, zou ook de rest van je lichaam kunnen worden aangestuurd door de computer. Dan komt Hollywood echt dichtbij.
Een nieuwe generatie nepnieuws
Maar nog meer nepnieuws ook. We hebben we nu al te maken met gemanipuleerde foto’s van politici (Wilders verspreidde een nepfoto van Pechtold die meeliep in een pro-islam demonstratie) en van filmsterren op pornolichamen (link ontbreekt ;-)) waarvan het amateurisme vaak nog afspat. Straks gaat dit nog veel verder. Onderzoekers van Stanford en de universiteit van Erlangen-Nuremberg zijn al in staat om in een video van iemand die praat de gezichtsuitdrukking aan te passen. Kortom: je ziet Trump praten, maar in principe kunnen de onderzoekers via deze technologie Trump alles laten zeggen. Belangrijke kanttekening: je hebt hier geen ingewikkelde en dure camera-setup voor nodig, het kan gewoon met een webcam.
Hoe onderscheiden we echte foto’s en video’s dan nog van gephotoshopte en echt nieuws van nepnieuws? Misschien biedt kunstmatige intelligentie ook hier een oplossing voor zolang er software is die beter is dan degene die wij zelf gebruiken op onze smartphones. Er wordt ook nagedacht om watermerken toe te voegen aan originele opnames. Dit zou dan al in de hardware van de camera of geluidsrecorder zelf moeten gebeuren voordat er bewerkingen of analyses (zoals de gezichtsherkenning) plaatsvinden. Met een keurmerk zou je dan kunnen laten zien dat je opname ‘echt’ is en onbewerkt.
Van Apple en Adobe mag je verwachten dat ze met zulke verantwoorde opties komen, maar er is in China vast een fabrikant te vinden die ons de mogelijkheid geeft het watermerk te omzeilen en een Russische hacker die het watermerk kraakt. En zo krijgt ook de kunstmatige intelligentie naast leuke, grappige en nuttige toepassingen steeds meer ongewilde toepassingen.
Voorlopig kunnen we lachen om het pandabeertje en konijntje van Apple, maar de geest is uit de fles …