BRS85 - Web

Een aantal weken geleden werd ik door Aart Verschuur gevraagd mee te denken over "Over stemmen die afleiden" voor een artikel voor Telecommerce Magazine. Zijn er objectieve criteria waarop een stem beoordeeld kan worden, wat zijn goede stemmen in het call center, wat vinden mensen prettig en meer. |Van dat soort vragen. Het lijkt er op dat er betrekkelijk weinig onderzoek gedaan is naar de perceptie van stemmen.

Redacteur Aart Verschuur kwam met een eerste opzet waaraan een en ander gesleuteld moest worden. Na een aantal keren heen en weer sturen leek er iets moois te ontstaan maar niet iedereen was er tevreden over. De zin: "Met de computerstem in de IVR is het nog droevig gesteld, constateert Arjan van Hessen sip" viel niet overal even goed. Het is waarschijnlijk een vrije interpretatie maar er zit een kern van waarheid in. Aan TST is jaren gewerkt maar toch is de penetratie in de markt nog niet zoals men het zich 10 jaar geleden voorgesteld had. Zolang de voor te lezen tekst nog niet juist geinterpreteerd kan worden waardoor de betekenis van de tekst berekend kan worden, kun je niet veel anders doen dan de tekst op een standaard manier voorlezen en dat klinkt saai.

Stemmen die Afleiden

Het klinkt wat raar, maar er is vrij weinig bekend over het gebruik van de stem in contactcenters. Dagelijks zijn er honderdduizenden contacten met klanten via de telefoon, maar welke stem het beste overkomt, weten we niet. Wil de klant een vrouwenstem of liever een mannenstem? Een lage stem, liever een rustige of zelfs een hese? Iemand met een mompelende stem of een schrille heksenstem zal niet snel bij een contactcenter worden aangenomen. Dat vinden we normaal. Maar waarom eigenlijk?

De geschiktheid van een stem bepalen, blijkt vooral een kwestie van gevoel. Ook voor de mensen die agents moeten aannemen. Vanuit hun ervaring ‘voelen’ zij meteen of iemands stem wel of niet geschikt is voor telefoonwerk; dat gaat vanzelf. Maar het gaat hier altijd om de uitschieters en zo komen we op het enige feit dat we wél weten over een stem in het contactcenter: die moet niet irritant zijn. De stem mag niet negatief opvallen, want dit leidt de ontvanger af van de boodschap die wordt gecommuniceerd.
En wat is dan negatief opvallen? Dat blijkt grotendeels cultureel bepaald. Een duidelijk voorbeeld daarvan kent Arjan van Hessen. Hij geeft onder andere spraaktechnologiecolleges aan de Universiteit van Twente, werkt ook voor Telecats en verbindt de academische wereld graag met de ‘echte’. “We hebben text-to-speech-onderzoek gedaan in Cairo in Egypte. Daarbij bleek dat vrouwenstemmen absoluut niet gewenst waren: niet alleen voor het voorlezen van de Koran maar ook niet voor info over vertrekkende treinen op stations. Dat is niet verbazingwekkend; het heeft met de cultuur te maken. Als vrouwen in die cultuur iets zeggen, wordt het niet serieus genomen. Hoe hoog of laag je ook springt, vanuit deze culturele context moet je dus een mannenstem gebruiken.”

Hoe hoger, hoe lastiger

“Bij ons in het westen is het juist andersom. Wij omarmen de vrouwenstem, want die ervaren wij als prettig. Het hoort bij onze cultuur. Een stem wordt als prettig ervaren, als hij op je culturele niveau zit of in je eigen dialect wordt uitgesproken. Terwijl aan onze voorkeur voor vrouwenstemmen toch een merkwaardige kant zit, want uit geluidsonderzoek blijken mannenstemmen juist meer effect te sorteren. Mannenstemmen brengen de boodschap beter over en zijn makkelijker te herkennen. Want hoe lager je stem is, hoe langzamer de stembanden in de keel bewegen. Daardoor kun je meer boventonen genereren die mensen kunnen volgen. Hoe hoger de toon, hoe lastiger het is om de spraak te kunnen volgen. En hoe lager je gaat, hoe meer informatie in de stem zit. Daarom kan bijna geen mens de woorden van een operazangeres verstaan die op 600 Hz zingt.”

Pauzeren

Zowel de productie als de perceptie van ‘de stem’ wordt dus door zeer veel verschillende, zowel fysieke, culturele als seksuele factoren bepaald. De geschiktheid van een stem hangt dan ook af van het doel waarmee die stem wordt gebruikt. Het ‘verleiden van luisteraars’ behoeft een andere stem dan het geven van zakelijke informatie. In de meeste contactcenters gaat het echter om het helpen van klanten en het verstrekken van gegevens, dus om de informatieoverdracht en niet om ‘emotie’. “Daarvoor zijn de meeste stemmen wel geschikt,” meent Van Hessen, “want het draait vooral om de manier waarop wordt gesproken: rustig, pauzeren voordat de informatierijke woorden worden uitgesproken, aanpassen aan de manier van spreken van de klant en dergelijke. Mensen begrijpen de boodschap immers het beste, wanneer beide sprekers op een min of meer gelijke manier met elkaar spreken.”
“Samenvattend is het dus lastig om precies te zeggen wat ‘de stem’ is. Deels wordt die bepaald door iemands fysieke verschijning, deels door de manier waarop iemand zijn of haar spraakorganen gebruikt. Zo spreken Amerikaanse vrouwen in de regel vrij hoog en Amerikaanse mannen juist erg laag. Toch verschillen ze fysiek niet erg van ons Europeanen. Het wordt ze van jongs af aan geleerd dat mannen laag en vrouwen hoog spreken. Een meisje dat ‘vrouwelijk’ wil overkomen, zal dus haar best gaan doen om ‘hoger’ te gaan praten.”

Hoe komt het eruit?

Het zal aan deze culturele tweeslachtigheid liggen dat we nauwelijks nadenken over het effect van de stem in contactcenters. Je neemt een vrouwenstem, terwijl een mannenstem effectiever is. In de praktijk ‘voel’ je echter wel of een stem oké is. Dat is niet raar, want de stem heeft enorm veel te maken met tal van andere zaken. Een stem is puur het geluid dat wordt voorgebracht door je mond-keelkanaal, maar hoe dit geluid eruit komt, hangt af van spraak, ademhaling, houding en innerlijke motivatie en zelfs cultuur.
“De menselijke stem kent veel bruggetjes, bijvoorbeeld naar de adem, spraakklanken, spraak en taal maar ook naar innerlijke motivatie en arbeidsongeschiktheid”, vertelt spraakdocent en stemcoach Alex Boon. Hij geeft als logopedist trainingen aan onder meer acteurs, politici, sprekers en contactcentermedewerkers. Dat is soms hard nodig, want eenzijdig en langdurig gebruik van de stem kan tot grote stemproblemen leiden.
Boon: “Sprekers beseffen niet altijd dat een stemprobleem voor hen gelijk staat aan arbeidsongeschiktheid, op zich al een reden om eentonig gebruik te vermijden. Maar eenzijdig stemgebruik heeft ook een andere belangrijke brug: toehoorders kunnen afhaken, bijvoorbeeld door onduidelijk spreken en uitspraakfouten. Of door monotoon, te snel, te langzaam, te zacht of te hard spreken. Allemaal technische zaken waarmee stemdocenten goed uit de voeten kunnen. Het is redelijk eenvoudig om verbeteringen te realiseren.”

Begeisterung

Een ander bruggetje is dat je stem anders klinkt naarmate je beter verbonden bent met de inhoud van je verhaal. “Als je enthousiast bent, gaan mensen graag met je mee. Bij enthousiasme verbindt de talige kant zich met de melodie, de dynamiek en het ritme van de stem. De vaardigheid om die bewegingen te produceren moet dan echter wel aanwezig zijn. Stemgebruik gaat dan over begeisterung, over de innerlijke motivatie van mensen, hun persoonlijkheid en levenshouding in combinatie met hun kennis en hun vocale vaardigheden. Niet alleen van de individuele agent naar de klant. Maar net zo goed waar werkgevers en managers hun medewerkers willen aansturen of enthousiasmeren. Alles kan invloed op de stem hebben.”
Als er zoveel belangrijke bruggen zijn, waar moeten we dan vooral op letten bij de menselijke stem? Voor een stemcoach heeft Alex Boon wel een heel bijzondere tip: let niet zozeer op de stem van een (aanstaande) medewerker, maar beoordeel zijn acteertalent! Want iemand die kan acteren, is flexibel met z’n stem en kan deze inzetten op verschillende manieren. “Scan of iemand kan spelen met stembewegingen, de melodie, het volume en het tempo. Kan hij of zij een beetje acteren? Kan hij met z’n stem vriendelijker of juist strenger, meer afwachtend of agressiever zijn als het nodig is? Daar gaat het om: breng variatie aan!”

Nuancering ontbreekt

Met de computerstem in de IVR is het nog droevig gesteld, constateert Arjan van Hessen sip. Computers en menselijkheid blijft een lastige combinatie. “Een van de redenen waarom computerstemmen als saai worden ervaren, is de monotonie van de stem. Een computer weet in eerste instantie niet welke woorden belangrijk zijn en welke minder. Dat resulteert in een algemene manier van spreken. Als je monotoon de zin ‘Ik heb gisteren rode schoenen gekocht’ uitspreekt, weet niemand wat je precies wilt zeggen. Want de nuance in de zin benadrukt de boodschap. We zijn nog niet zo ver dat we op basis van tekst computers automatisch opdracht kunnen geven op welke woorden wel en op welke woorden juist geen nadruk moet komen. Daarom kiezen we voor de veilige weg en leggen gewoon nergens nadruk op. Dit is een veilige keuze, omdat een foute nadruk verwarrend is. Maar het maakt het voorlezen van langere stukken tekst door de computer wel saai.”
Gelukkig kunnen we tegenwoordig bij text-to-speech (TTS) de computer toch menselijker laten spreken. Gewoon door onze ‘spraakfouten’ over te nemen. “Iemand die begint met praten, start met een hoop lucht door adem te halen. Tijdens het spreken raakt de adem langzaam op en zal de spreker iets sneller en vooral zachter gaan spreken, om de zin te kunnen uitspreken voordat ‘de adem op is’. Deze wetmatigheid geldt niet voor computers die moeiteloos en zonder hapering bladzijde na bladzijde kunnen voorlezen. Maar helaas klinkt dit ‘kunstmatig’ en dus bootsen we de menselijke zwakheid na met geavanceerde TTS, die ook ‘buviten adem’ raakt. Ook aarzelen, kuchen/hoesten of ‘ehm’ zeggen, kunnen moderne TTS-systemen tegenwoordig. Mits met mate toegepast, maakt dit de spraak menselijker. Maar of dit ook leidt tot prettiger of beter verstaanbare spraak is iets anders!”

24 - 07 - 2017

is een smart home de toekomst Is smart de toekomst? © Pixabay

Amsterdam, 24 juli 2017 - Interview met dr. Arjan van Hessen, als taal- en spraaktechnoloog verbonden aan de Universiteit van Twente en Utrecht en spreker tijdens het NVL Jubileum event op 12 september 2017.

Op dit moment vinden wij veel apparaten nog een beetje dom. Omdat ze niet vooruit kunnen denken en geen emoties (her)kennen. De sleutel tot echt slimme apparaten zit in het 'talig vermogen'; alles wat we bedenken, bedenken we via taal. Met zogenaamde artificial intelligence is men in staat om talig vermogen toe te voegen aan computers en objecten waardoor ze écht intelligent worden, bovendien zelflerend en ook in staat meerdere taken tegelijk uit te voeren.

De inzichten met betrekking tot deze technologie en de toepassingen ervan worden op het NVL Jubileum gepresenteerd door dr. Arjan van Hessen. NVL Next sprak hem alvast en samen keken we vooruit naar 12 september.

Kunstmatige intelligentie of Artificial Intelligence, kortweg AI, is een containerbegrip. Het komt neer op ‘met computers nabootsen van wat wij verstaan onder menselijke intelligentie’.

U bent als taal- en spraaktechnoloog hoofdspreker tijdens een jubileumevent van de Nederlandse vereniging van leasemaatschappijen. Waarom is dat minder onlogisch dan het op het eerste gezicht lijkt?

De laatste tijd is er enorm veel interesse in AI. Systemen proberen patronen te vinden in grote hoeveelheden data en ze proberen te redeneren en te voorspellen. De volgende grote stap is die van het begrijpen en dat is iets waar wij mensen ook goed in (denken te) zijn. Het talige vermogen van mensen dat ons in staat stelt te redeneren over gebeurtenissen, te fantaseren, als-dan scenario’s te bedenken en uit te werken, het abstraheren en het samenvatten. Dat wordt vaak gezien als de menselijke intelligentie. Als je daar wat mee wilt doen met computers, kom je al snel bij de taal en spraaktechnologie: die proberen immers de communicatie tussen mensen en machines na te bootsen door de menselijke communicatie zo goed mogelijk te begrijpen.

Waarom is juist taal een van de meest belangrijke zaken met betrekking tot het lerend vermogen van computers?
Taal, en dan niet “het Frans”, “het Chinees”, of “het Nederlands”, maar het talig vermogen van de mens onderscheidt ons van de overige (zoog)dieren. Dit talige vermogen stelt ons in staat om te leren, te bedenken, te abstraheren etc. Hoe beter we dit begrijpen, hoe beter we in staat zijn om het na te maken en dus hoe slimmer systemen kunnen worden.

Wat is het belangrijkste inzicht dat u de afgelopen jaren heeft ontdekt in relatie tot spraakherkenning?
Duidelijk is geworden dat de stap naar 100% herkenning, die door spraakherkenningstechnologen altijd als een soort heilige graal werd gezien, eigenlijk niet zo relevant is. Ook wij mensen herkennen de spraak niet vlekkeloos, maar we begrijpen de ander (hopelijk) wel volkomen. Gebrek in de herkenning wordt door ons gecompenseerd doordat we begrijpen waar het overgaat. Hiaten in de herkenning vullen we als het ware zelf aan. Daar zit natuurlijk ook een gevaar in: we denken dat we iets gehoord hebben, maar dat is niet altijd zo.. Dit is de stap van herkennen naar begrijpen en die is essentieel!

Facebook en Google investeren fortuinen in fundamenteel onderzoek rond artificial intelligence. Waarom doen ze dat?

Alle grote internetbedrijven investeren massaal in HLT, Human Language Technology. Wie als eerste in staat is om op een enigszins intelligente manier met mensen te communiceren, ze te begrijpen, te ondersteunen en ze te vermaken, heeft de buit binnen. Denk aan ouderen die eenzaam zijn, mensen die iets willen maar er niet uitkomen hoe dat te bereiken etc. Als er een slimme “robot” is die hier met jou over kan praten, je kan helpen…. Dan gaat er een hele wereld open.

Wat zijn voorbeelden van toepassingen van artificial intelligence waar u de komende 3-5 jaar het meest van verwacht?
We zullen AI op alle gebieden tegen gaan komen. Niet alleen in de HLT maar in werkelijk alles. Denk aan het herkennen van beelden, het vroegtijdig opsporen van ziektes op basis van een hersenscan, het voorspellen wanneer een onderdeel in een apparaat vervangen moet worden, het helpen bij medische beslissingen, het ondersteunen van advocaten en rechters, het communiceren met mensen via internet bij bv het aanvragen van een hypotheek, etc. Er is waarschijnlijk niet een gebied waar het niet zal worden gebruikt.

Waar in de keten zou de overheid een rol kunnen of moeten spelen in stimuleren van de toepassingen van artificial intelligence?
De overheid zou veel meer moeten investeren in het opbouwen van de kennis door het verzamelen en (her)gebruiken van data (uiteraard met inachtneming van privacy) te stimuleren. Nu doen de grote internetbedrijven (Apple, Google, Facebook, IBM, Microsoft, Amazon) dat waardoor alle kennis naar de overkant “lekt” en daar ook onze data staan. Onze technici en universiteiten doen niet veel onder voor de Amerikanen, maar het is in Europa veel lastiger om grote hoeveelheden data te bewaren en vooral te hergebruiken. Als dat eenmaal gaat dan komen de toepassingen vanzelf. Maar we moeten oppassen het goud (de data) niet te verkwanselen aan anderen.

Je bent ook actief in het bedrijfsleven, bijvoorbeeld klantcontactsector, wat speelt er in die sector wat betreft AI?
Ja dat klopt. Enerzijds zien we dat bestaande software (veel) beter wordt door het gebruik van AI, anderzijds zien we dat nieuwe mogelijkheden opkomen door slimme toepassingen van AI. Denk daarbij aan het voorspellen. Je belt een bedrijf/organisatie en stelt een vraag. Hoe kun je het best met de combinatie van tijdstip, beller, zijn/haar geschiedenis, de gestelde vraag en beschikbare resources bij de organisatie omgaan om ervoor te zorgen dat de beller en de organisatie optimaal geholpen worden? Hierbij kan al 95% van de vragen juist worden afgehandeld. En veel sneller en goedkoper. Dit biedt bedrijven veel kansen.

Wat is de belangrijkste mind shift die de leasebranche volgens u zou moeten maken?
Ga experimenteren. Denk niet: dat zal mijn tijd wel duren want dan zijn de Amerikanen en Chinezen er al. Probeer al dan niet in samenspraak met slimme bedrijven, start-ups en universiteiten te experimenteren met wat mogelijk is en wat nu nog onmogelijk lijkt. Probeer de toekomst te voorspellen op basis van alle gegevens die je nu al hebt. Verzamel data, ook waarvan je nu het nut niet inziet, uiteraard binnen de grenzen van de privacy wetgeving. Leg vragen en processen vast, zodat je die straks kunt ontrafelen en op basis van de data betere beslissingen kunt nemen. Bijvoorbeeld het goedkeuren van lease-aanvragen; als je het goed organiseert kan een computer dat op basis van data beter en sneller dan een mens. Of voorspellen welke bedrijfsmiddelen onderhoud nodig hebben of welke klanten binnenkort de leasetermijnen niet meer kunnen betalen. Denk na over toepassingen voor jouw bedrijf. Maar doe iets!

Welk advies heeft u, tot slot, voor mensen die dit interview lezen?
Verdiep je er in, lees er over, probeer mee te doen en laat je bijpraten door mensen die er meer van weten. Deze leestips zijn misschien een leuk begin:

https://medium.com

https://artplusmarketing.com/digital-processes-inspiring-analog-paintings-a358eb7801a0

http://notas.nl/artikelen/blogs/165-spraakherkenning-van-nederlandse-bodem

Smaakt dit naar meer? Je hoort Arjan tijdens het NVL Jubileum event op 12 september. Ben je werkzaam bij een van de leden van NVL, dan kun je je aanmelden voor het event: http://noq.caos.nl/forms/NVLjubileum/application/

Door Pascal van Hombergh, namens NVL Next

Pagina 1 van 5

Stemmen die afleiden