Met enige melancholie denk je misschien soms aan de tijd dat bedrijven telefonisch beschikbaar waren en dat je met een echt mens kon spreken die klaar stond om je vragen te beantwoorden. Helaas, die tijden lijken voorbij. Telefoonnummers zijn steeds moeilijker te vinden of ontbreken soms helemaal. Geleidelijk aan wordt direct menselijk contact vervangen door “chatbots” die sommige bedrijven liefdevol hun “digitale collega’s” noemen. Zo gaat de Nederlandse post (PostNL) er bijvoorbeeld prat op dat hun digitale collega “Daan” met succes meer dan 160.000 vragen per maand afhandelt.

Je hebt je misschien wel eens afgevraagd, welk systeem zit er achter een interactie met een digitale collega? Wanneer je via de website naar Daan van PostNL gaat, is het vrij gemakkelijk te zien dat er een of ander chatbotsysteem met zogenaamde “gesloten vragen” wordt gebruikt (stel bijvoorbeeld eerst vraag A, als het antwoord zus-en-zo is, ga dan naar vraag B anders ga naar vraag C). Daan zou je bijvoorbeeld kunnen vragen: “Om wat voor pakket gaat het?” en dan kun je ofwel “Pakket binnen Nederland” selecteren ofwel “Pakket buiten Nederland” waarop dan weer wordt overgegaan tot een vervolgvraag.

Een indrukwekkendere vorm van interactie is echter dat men ook via een Google Home-speaker verbinding kan maken met Daan door te vragen “verbind mij met PostNL”. Google stuurt je dan door naar Daan, die wacht tot je wat tegen hem zegt. Hier staat hij je slechts twee opties toe: “Een pakket volgen” en “Ontdek wat het dichtstbijzijnde postkantoor is”. Wanneer je Daan op deze manier benadert (dus via de stem), kun je er echter achter komen dat hij misschien niet zo slim is als een mens. Op een gegeven moment kan hij je bijvoorbeeld vragen “mag ik uw locatie weten?” en als je eenvoudig “ja” antwoordt, is dat prima. Echter, er zijn ontzettend veel manieren waarop een mens “ja” kan zeggen. Je zou bijvoorbeeld kunnen zeggen: “geen probleem”, “goed dan”, “ga je gang”, “oké” of “voor deze ene keer”. Het komt vaak voor dat dialoogsystemen, als ze geactiveerd worden door spraak, meer moeite hebben om wat je zegt (wat dus letterlijk vanalles kan zijn) te rijmen met een bepaalde “intentie” (in dit geval “ja” — je mag mijn locatie gebruiken — of “nee ” — je mag dit niet). Dus, Daan realiseert zich misschien niet dat een “geen probleem” antwoord zou moeten verwijzen naar de “ja”-intentie en kan in plaats daarvan misschien een fout produceren.

Meestal hebben chatbot-ontwikkelaars verschillende “trainingszinnen” voor bepaalde intenties gemaakt. Een weerchatbot moet bijvoorbeeld leren herkennen dat: “Wat voor weer wordt het?”, “Gaat het binnenkort regenen?” en “Moet ik vandaag een paraplu meenemen?” allemaal verwijzen naar dezelfde intentie (“ik wil het weer weten”). Bovendien moet de intentie, eenmaal herkend, vaak worden aangevuld met ‘entiteiten’, dat wil zeggen: aanvullende informatie met betrekking tot de intentie. Een weerupdate heeft bijvoorbeeld een entiteit nodig voor “locatie” (van welke plek wil je het weer weten) en ook een entiteit “datum en tijd”. Als de gebruiker deze informatie al aanlevert in de vraag, kan dit direct worden meegenomen (bv. “moet ik bijvoorbeeld vandaag om 17.00 uur een paraplu meenemen?”) en heeft het systeem nog maar één vervolgvraag nodig om de locatie te verkrijgen. Meestal maakt de ontwikkelaar van een chatbot een grote verscheidenheid aan voorbeeldzinnen, waaronder gevallen met en zonder entiteiten, en een algoritme leert deze te koppelen (classificeren) aan de juiste bedoeling, door middel van “machine learning”.

Misschien heb je wel eens ervaren dat Daan’s ‘grote broer’, de Google Home-speaker die we eerder gebruikten om met hem te verbinden, hier ontzettend goed in is (net als bv. Siri). Als de speaker niet tegen je praat, luistert het continu naar een zogenaamd “hot word” zoals “OK Google” en bij het tegenkomen van deze cue probeert het vervolgens te raden wat je wilt (m.a.w. je intentie). Gezien de enorme hoeveelheid opties die je zou kunnen vragen (bijv. “Wat is het telefoonnummer van KLM?”, “Wat is de kleur van sneeuw?”, “Vertel me een grap”, “Vertaal de fiets in het Japans”, “Laat me een foto van een panda op mijn telefoon zien”, “maak een afspraak voor morgen 15.00”, etc.) is het werkelijk ongelofelijk hoe nauwkeurig ie vaak precies weet wat je van em wilt.

Voor veel mensen is praten tegen een luidspreker of telefoon, zelfs een die zo geavanceerd is als die van Google, echter niet hetzelfde als praten tegen iets “met een gezicht”. Veel van de communicatie die we doen is in feite non-verbaal (waarom zouden we anders blije of verdrietige emoji’s in onze teksten zetten?). Veel bedrijven realiseren zich dat dit belangrijk is, zoals blijkt uit het toenemende aantal “embodied” (belichaamde) assistenten die zowel virtueel (herinnert u zich de “paperclip” van Microsoft Office nog?) als fysiek worden aangeboden. Fysieke assistenten kunnen variëren van slimme, schattige (en betaalbare) ‘desktop pets’ (zoals VECTOR en EMO) tot de meer professioneel georiënteerde markt waarin sociale robots zoals PEPPER en de FURHAT een belangrijke rol spelen (zie afbeeldingen hieronder).

Robots

De Furhat-robot vertegenwoordigt eigenlijk een vrij uniek concept in de wereld van de sociale robotica, omdat hij een volwaardig digitaal flexibel menselijk gezicht op een plastic masker projecteert. Waar schattige desktopassistenten non-verbale gebaren proberen over te brengen door hun oogpatronen te veranderen (bijv. de EMO lijkt op het plaatje boven “gelukkig” te zijn door op een bepaalde manier met zijn ogen te knijpen) en Pepper zelfs helemaal geen gezichtsuitdrukkingen kan maken, kan de Furhat heel subtiele gebaren weergeven, net als een mens. Je kunt nu zelfs de gezichtsgebaren van een echt mens ‘opnemen’ met je telefoon en ze gewoon ‘afspelen’ op de Furhat. Bovendien heeft de Furhat de mogelijkheid om zijn hele gezicht te veranderen in een andere etniciteit en/of geslacht en ook de mogelijk om zijn stem te veranderen.

Het lijkt slechts een kwestie van tijd voordat social robots, zoals de Furhat en andere, meer gemeengoed zullen worden als een relevant en hopelijk plezierig interactiepunt op treinstations, ziekenhuizen, scholen en misschien zelfs op uw lokale PostNL-punt als fysiek belichaamde versie van Daan. In Japan zijn er zelfs al door robots gerunde hotels en de Pepper-robot is aanwezig bij veel Softbank-winkels om je te helpen.

Hoewel we ons er intuïtief van bewust zullen blijven dat we met een machine te maken hebben (zie dit artikel), geldt dat hoe ‘menselijker’ de verbale en non-verbale communicatie lijkt, hoe meer we geneigd zijn erin ondergedompeld te worden. Even vergeten we misschien zelfs dat we tegen een computer praten…

Deze blogpost is geschreven door Rinus Verdonschot

References

Clark, H. H., & Fischer, K. (2022). Social robots as depictions of social agents. Behavioral and Brain Sciences, 1–33. https://doi.org/10.1017/S0140525X22000668