BRS85 - Stemmen die afleiden

Een aantal weken geleden werd ik door Aart Verschuur gevraagd mee te denken over "Over stemmen die afleiden" voor een artikel voor Telecommerce Magazine. Zijn er objectieve criteria waarop een stem beoordeeld kan worden, wat zijn goede stemmen in het call center, wat vinden mensen prettig en meer. |Van dat soort vragen. Het lijkt er op dat er betrekkelijk weinig onderzoek gedaan is naar de perceptie van stemmen.

Redacteur Aart Verschuur kwam met een eerste opzet waaraan een en ander gesleuteld moest worden. Na een aantal keren heen en weer sturen leek er iets moois te ontstaan maar niet iedereen was er tevreden over. De zin: "Met de computerstem in de IVR is het nog droevig gesteld, constateert Arjan van Hessen sip" viel niet overal even goed. Het is waarschijnlijk een vrije interpretatie maar er zit een kern van waarheid in. Aan TST is jaren gewerkt maar toch is de penetratie in de markt nog niet zoals men het zich 10 jaar geleden voorgesteld had. Zolang de voor te lezen tekst nog niet juist geinterpreteerd kan worden waardoor de betekenis van de tekst berekend kan worden, kun je niet veel anders doen dan de tekst op een standaard manier voorlezen en dat klinkt saai.

Stemmen die Afleiden

Het klinkt wat raar, maar er is vrij weinig bekend over het gebruik van de stem in contactcenters. Dagelijks zijn er honderdduizenden contacten met klanten via de telefoon, maar welke stem het beste overkomt, weten we niet. Wil de klant een vrouwenstem of liever een mannenstem? Een lage stem, liever een rustige of zelfs een hese? Iemand met een mompelende stem of een schrille heksenstem zal niet snel bij een contactcenter worden aangenomen. Dat vinden we normaal. Maar waarom eigenlijk?

De geschiktheid van een stem bepalen, blijkt vooral een kwestie van gevoel. Ook voor de mensen die agents moeten aannemen. Vanuit hun ervaring ‘voelen’ zij meteen of iemands stem wel of niet geschikt is voor telefoonwerk; dat gaat vanzelf. Maar het gaat hier altijd om de uitschieters en zo komen we op het enige feit dat we wél weten over een stem in het contactcenter: die moet niet irritant zijn. De stem mag niet negatief opvallen, want dit leidt de ontvanger af van de boodschap die wordt gecommuniceerd.
En wat is dan negatief opvallen? Dat blijkt grotendeels cultureel bepaald. Een duidelijk voorbeeld daarvan kent Arjan van Hessen. Hij geeft onder andere spraaktechnologiecolleges aan de Universiteit van Twente, werkt ook voor Telecats en verbindt de academische wereld graag met de ‘echte’. “We hebben text-to-speech-onderzoek gedaan in Cairo in Egypte. Daarbij bleek dat vrouwenstemmen absoluut niet gewenst waren: niet alleen voor het voorlezen van de Koran maar ook niet voor info over vertrekkende treinen op stations. Dat is niet verbazingwekkend; het heeft met de cultuur te maken. Als vrouwen in die cultuur iets zeggen, wordt het niet serieus genomen. Hoe hoog of laag je ook springt, vanuit deze culturele context moet je dus een mannenstem gebruiken.”

Hoe hoger, hoe lastiger

“Bij ons in het westen is het juist andersom. Wij omarmen de vrouwenstem, want die ervaren wij als prettig. Het hoort bij onze cultuur. Een stem wordt als prettig ervaren, als hij op je culturele niveau zit of in je eigen dialect wordt uitgesproken. Terwijl aan onze voorkeur voor vrouwenstemmen toch een merkwaardige kant zit, want uit geluidsonderzoek blijken mannenstemmen juist meer effect te sorteren. Mannenstemmen brengen de boodschap beter over en zijn makkelijker te herkennen. Want hoe lager je stem is, hoe langzamer de stembanden in de keel bewegen. Daardoor kun je meer boventonen genereren die mensen kunnen volgen. Hoe hoger de toon, hoe lastiger het is om de spraak te kunnen volgen. En hoe lager je gaat, hoe meer informatie in de stem zit. Daarom kan bijna geen mens de woorden van een operazangeres verstaan die op 600 Hz zingt.”

Pauzeren

Zowel de productie als de perceptie van ‘de stem’ wordt dus door zeer veel verschillende, zowel fysieke, culturele als seksuele factoren bepaald. De geschiktheid van een stem hangt dan ook af van het doel waarmee die stem wordt gebruikt. Het ‘verleiden van luisteraars’ behoeft een andere stem dan het geven van zakelijke informatie. In de meeste contactcenters gaat het echter om het helpen van klanten en het verstrekken van gegevens, dus om de informatieoverdracht en niet om ‘emotie’. “Daarvoor zijn de meeste stemmen wel geschikt,” meent Van Hessen, “want het draait vooral om de manier waarop wordt gesproken: rustig, pauzeren voordat de informatierijke woorden worden uitgesproken, aanpassen aan de manier van spreken van de klant en dergelijke. Mensen begrijpen de boodschap immers het beste, wanneer beide sprekers op een min of meer gelijke manier met elkaar spreken.”
“Samenvattend is het dus lastig om precies te zeggen wat ‘de stem’ is. Deels wordt die bepaald door iemands fysieke verschijning, deels door de manier waarop iemand zijn of haar spraakorganen gebruikt. Zo spreken Amerikaanse vrouwen in de regel vrij hoog en Amerikaanse mannen juist erg laag. Toch verschillen ze fysiek niet erg van ons Europeanen. Het wordt ze van jongs af aan geleerd dat mannen laag en vrouwen hoog spreken. Een meisje dat ‘vrouwelijk’ wil overkomen, zal dus haar best gaan doen om ‘hoger’ te gaan praten.”

Hoe komt het eruit?

Het zal aan deze culturele tweeslachtigheid liggen dat we nauwelijks nadenken over het effect van de stem in contactcenters. Je neemt een vrouwenstem, terwijl een mannenstem effectiever is. In de praktijk ‘voel’ je echter wel of een stem oké is. Dat is niet raar, want de stem heeft enorm veel te maken met tal van andere zaken. Een stem is puur het geluid dat wordt voorgebracht door je mond-keelkanaal, maar hoe dit geluid eruit komt, hangt af van spraak, ademhaling, houding en innerlijke motivatie en zelfs cultuur.
“De menselijke stem kent veel bruggetjes, bijvoorbeeld naar de adem, spraakklanken, spraak en taal maar ook naar innerlijke motivatie en arbeidsongeschiktheid”, vertelt spraakdocent en stemcoach Alex Boon. Hij geeft als logopedist trainingen aan onder meer acteurs, politici, sprekers en contactcentermedewerkers. Dat is soms hard nodig, want eenzijdig en langdurig gebruik van de stem kan tot grote stemproblemen leiden.
Boon: “Sprekers beseffen niet altijd dat een stemprobleem voor hen gelijk staat aan arbeidsongeschiktheid, op zich al een reden om eentonig gebruik te vermijden. Maar eenzijdig stemgebruik heeft ook een andere belangrijke brug: toehoorders kunnen afhaken, bijvoorbeeld door onduidelijk spreken en uitspraakfouten. Of door monotoon, te snel, te langzaam, te zacht of te hard spreken. Allemaal technische zaken waarmee stemdocenten goed uit de voeten kunnen. Het is redelijk eenvoudig om verbeteringen te realiseren.”

Begeisterung

Een ander bruggetje is dat je stem anders klinkt naarmate je beter verbonden bent met de inhoud van je verhaal. “Als je enthousiast bent, gaan mensen graag met je mee. Bij enthousiasme verbindt de talige kant zich met de melodie, de dynamiek en het ritme van de stem. De vaardigheid om die bewegingen te produceren moet dan echter wel aanwezig zijn. Stemgebruik gaat dan over begeisterung, over de innerlijke motivatie van mensen, hun persoonlijkheid en levenshouding in combinatie met hun kennis en hun vocale vaardigheden. Niet alleen van de individuele agent naar de klant. Maar net zo goed waar werkgevers en managers hun medewerkers willen aansturen of enthousiasmeren. Alles kan invloed op de stem hebben.”
Als er zoveel belangrijke bruggen zijn, waar moeten we dan vooral op letten bij de menselijke stem? Voor een stemcoach heeft Alex Boon wel een heel bijzondere tip: let niet zozeer op de stem van een (aanstaande) medewerker, maar beoordeel zijn acteertalent! Want iemand die kan acteren, is flexibel met z’n stem en kan deze inzetten op verschillende manieren. “Scan of iemand kan spelen met stembewegingen, de melodie, het volume en het tempo. Kan hij of zij een beetje acteren? Kan hij met z’n stem vriendelijker of juist strenger, meer afwachtend of agressiever zijn als het nodig is? Daar gaat het om: breng variatie aan!”

Nuancering ontbreekt

Met de computerstem in de IVR is het nog droevig gesteld, constateert Arjan van Hessen sip. Computers en menselijkheid blijft een lastige combinatie. “Een van de redenen waarom computerstemmen als saai worden ervaren, is de monotonie van de stem. Een computer weet in eerste instantie niet welke woorden belangrijk zijn en welke minder. Dat resulteert in een algemene manier van spreken. Als je monotoon de zin ‘Ik heb gisteren rode schoenen gekocht’ uitspreekt, weet niemand wat je precies wilt zeggen. Want de nuance in de zin benadrukt de boodschap. We zijn nog niet zo ver dat we op basis van tekst computers automatisch opdracht kunnen geven op welke woorden wel en op welke woorden juist geen nadruk moet komen. Daarom kiezen we voor de veilige weg en leggen gewoon nergens nadruk op. Dit is een veilige keuze, omdat een foute nadruk verwarrend is. Maar het maakt het voorlezen van langere stukken tekst door de computer wel saai.”
Gelukkig kunnen we tegenwoordig bij text-to-speech (TTS) de computer toch menselijker laten spreken. Gewoon door onze ‘spraakfouten’ over te nemen. “Iemand die begint met praten, start met een hoop lucht door adem te halen. Tijdens het spreken raakt de adem langzaam op en zal de spreker iets sneller en vooral zachter gaan spreken, om de zin te kunnen uitspreken voordat ‘de adem op is’. Deze wetmatigheid geldt niet voor computers die moeiteloos en zonder hapering bladzijde na bladzijde kunnen voorlezen. Maar helaas klinkt dit ‘kunstmatig’ en dus bootsen we de menselijke zwakheid na met geavanceerde TTS, die ook ‘buviten adem’ raakt. Ook aarzelen, kuchen/hoesten of ‘ehm’ zeggen, kunnen moderne TTS-systemen tegenwoordig. Mits met mate toegepast, maakt dit de spraak menselijker. Maar of dit ook leidt tot prettiger of beter verstaanbare spraak is iets anders!”