BRS85 - Kennis distilleren uit bergen spraak

Artikel door Peter Olsthoorn is tot stand gekomen via een interview met Arjan van Hessen. Hij heeft alles herschreven waardoor het te lang werd. Peter heeft de tekst weer ingekort waarna het op 2 februari 2016 verschenen is in ICT-Magazine. Hieronder een aangepaste versie van dit artikel door Arjan.

Arjan StaatTK Een callcenter voert tien- tot honderdduizenden telefoongesprekken per jaar. Hoe kun je met data-analyse kennis halen uit deze massa conversaties?

Beeld en Geluid op het Mediapark in Hilversum maakt een miljoen uur aan audio- en video- (AV) materiaal toegankelijk: een aantal dat jaarlijks met 40.000 uur toeneemt. Maar hoe vind je het gewenste bestand? Daartoe bouwt Beeld en Geluid verschillende ingangen en verbindingen. Programmatitel, regisseur en uitzenddatum volstaan niet voor de vindbaarheid van een onderwerp.

Het AV-materiaal gaat door de spraakherkenner voor – niet-foutloze – transcripties, geschikt voor trefwoordlabels aan fragmenten. Sprekerherkenning helpt bij het achterhalen van presentatoren en gasten van wie de stemproﬁelen in de databank staan. Op termijn zullen ook niet-bekende Nederlanders herkend kunnen worden.

“We werken aan het audiovisuele web en hyperlinking”, vertelt Roeland Ordelman, Hoofd Onderzoek van Beeld en Geluid. “Daarbij worden tussen allerlei soorten data verbanden gelegd. Met het gecreëerde netwerk kun je op een intuïtieve manier door content navigeren.” Labels maken ook koppelingen met andere bestanden mogelijk, zoals tussen het radioarchief en de beeldbank van het Nationaal Archief. Radio krijgt daardoor een beeldscherm.

Big data

Het gaat om het toegankelijk maken van een "immense audiovisuele stroom" die groeit naar 90 procent van het internetverkeer. Big data? Ordelman: “Ja, er is sprake van Volume, Velocity, Value, Veracity en Variety. Wij oogsten waarde uit de brei met spraak- en sprekerherkenning, visuele analyse en "hogere tools.”

privacy Samen met de universiteiten van Twente, Amsterdam en Delft test Beeld en Geluid nieuwe applicaties. Op labs.beeldengeluid.nl zijn datasets en api’s beschikbaar. Ordelman: “We verwachten de komende tien jaar een grote hoeveelheid programma’s voor analyse. Probleem is wel dat je veel computercapaciteit nodig hebt. We kijken met de Universiteit van Amsterdam naar een cloud-oplossing.”

Audiovisuele stroom wordt toegankelijk

Spraak is rijk maar ook ambigu en meestal grammaticaal incorrect, bevat aarzelingen, pauzes, onderbrekingen, halve zinnen. Logisch werkende analysetools die vaak wel werken met geschreven teksten, volstaan daarom niet. Zeker bij telefonieapplicaties (de spraak via de telefoon is van minder e kwaliteit en dus is de herkenning slechter) is het dan ook een uitdaging om in een gesproken-dialoog met de beller tot een bevredigend resultaat te komen. Maar..... met wat kunst-en-vliegwerk lukt het wel getuige de meer dan 1M gesprekken die per maand door spraakherkenning worden afgehandeld.
De bottleneck blijft de “kloof tussen wat bedoeld en gezegd wordt" aldus Arjan van Hessen. In het verleden werkte hij aan spraakherkenning bij het roemruchte Vlaamse Lernout & Hauspie maar tegenwoordig verdeelt hij zijn tijd over het Enschedese bedrijf Telecats, de Universiteit Twente en de Universiteit Utrecht. Zowel op de UT als bij Telecats wordt er gewerkt aan het doorzoekbaar maken van grote hoeveelheden spraak. Spraakopnemen wordt immers steeds makkelijker (opnemen met smartphones, tablets, laptops en opslaan in de cloud) en goedkoper (opslag kost bijna niets meer).
Organisaties als het NIOD, Beeld en Geluid, de Tweede Kamer, gemeentes en het Huizinga Instituut voor Oral History gebruiken spraakherkenning om de (soms) duizenden uren aan audiovisueel materiaal te ontsluiten. En sinds kort zijn ook onderwijsorganisaties zoals SURF en opsporingsinstanties zoals politie en inlichtingendiensten (MIVD en AIVD) geinteresseerd in de mogelijkheden die Taal- en Spraaktechnologie bieden. De veiligheidsdiensten waren dit natuurlij al veel en veel langer, maar pas sinds kort zoeken ze contact met Nederlandse bedrijven en universiteiten.

Sprekerherkenning

Bij sprekerherkenning zijn er grofweg twee varianten. De meest bekende is het bepalen of een spreker daadwerkelijk diegene is die hij/zij claimt te zijn of waarvan jij met enige zekerheid wilt kunnen zeggen: ja dat is hem! Inlichtingendiensten gebruiken het bijvoorbeeld om te bepalen of een een gesproken boodschap daadwerkelijk van een bepaalde terroristenleider afkomstig is of niet. Banken kunnen het gebruiken om rekeninghouders zonder paswoord toegang te geven tot hun account.
De andere manier van sprekerherkenning is diarisatie: hierbij worden "onbekende sprekers" in een grote verzameling spraak geclusterd. Dwz dat de computer bepaalt of spreker A in opname B dezelfde is als spreker C in opname D en spreker E in opname F. Als je dan weet dat de spreker in opname E Jan-Peter is, dan weet je direct dat Jan-Peter ook spreker A en spreker C is. Dat is erg handig als je enorm veel materiaal hebt zoals bv Beeld en Geluid, en op zoek bent naar het materiaal van een specifieke spreker X (bv ex-premier Balkenende). Vaak staat niet in de metadata dat Balkenened in deze uitzending aan het woord komt en ook niet zegt de presentator netjes "ik geef het woord aan Balkenende. Wil je alle spraak van Balkenende verzamelen (bv voor analyse) dan is diarisatie een zeer nuttig hulpmiddel.

Onderwerp labeling

Een volgende stap is het bepalen van het onderwerp waarover gesproken wordt. In "Frei Swebende" spraak (zeg maar de dagelijkse conversaties die we met de mensen om ons heen voeren) is dat duivels moeilijk omdat het in principe overal over kan gaan en mensen nogal de neiging hebben om van de hak-op-de-tak te springen en steeds van onderwerp te veranderen. In callcenters is dit gelukkig iets makkelijker omdat de onderwerpen waarover gesproken kan worden, gelimiteerd zijn. Het labelen ofwel classificeren bestaat uit het nadoen van het menselijk gedrag: "als bellers dit zeggen, naar welk doorkiesnummer zou jij (als medewerker) het gesprek dan door sturen?" Van Hessen: “Grote organisaties zitten dikwijls in ee spagaat. Enerzijds willen ze zo veel mogelijk weten over binnengekomen gesprekken (wie belt wanneer waarvoor) anderzijds willen ze in verband met de kosten zo veel mogelijk gesprekken zo snel mogelijk af handelen. Als er op de borden staat dat er nog 10 wachtend zijn, dan gaan de meeste callcenter medewerkers niet een uitgebreide gespreksnotitie maken maar classiﬁceren ze het gesprekken als "overig", omdat ze dan niets meer hoeven in te vullen.”

brabantwater

Gespreksanalyse

Een hier op lijkend iets is de gespreksanalyse. Anders dan bij labeling, wordt er niet actief in het gesprek ingegepen maar probeert de computer (achteraf) een volledige analyse te doen van het binnekomende gesprek. Hoe lang stond de beller in de wachtrij, welke vragen kreeg hij, hoe reageerde de medewerker, welke vragen stelde die (zat daar het verwachte "goede morgen met....." bij of niet) en meer. Dit soort analyses bieden inzicht in de trajecten die een beller doorloopt en kunnen helpen bij het opzoeken (en oplossen) van knelpunten. Door spraakherkenning los te laten op zowel de spraak van de beller als die van de medewerker, kan bovendien nog veel meer inzicht verkregen worden in de reden dat iemand belt maar ook in de juiste (of juist onjuiste) manier vn het gesprek voeren door de medewerker en biedt het een nog beter inzicht in de reden dat mensen bellen.
Telecats heeft inmiddels grote analysetrajecten gedaan voor onder meer DUO van OCW, Belastingdienst, Aegon en Brabant Water. Tienduizenden gesprekken werden opgenomen en door de spraakherkenner gehaald om de inhoud ervan te bepalen.“Dit leverde, naast de klassieke datum, tijdstip en gespreksduur vooral zinvolle gegevens op over herhaalgesprekken - na belleridentiﬁcatie –, juistheid van doorverbinden en speciﬁeke onderwerpen waardoor procesoptimalisatie beter werkte.

Toen bleek dat de onderwerpen waarover gebeld werd, sterk "dag en tijd specifiek" waren, kon besloten worden om de menustructuur daarop aan te passen zodat klanten sneller en beter worden geholpen. Van Hessen: “Analyse van callcenterdata levert ook een beter inzicht op in de verschillen tussen FAQ’s via web en telefoon. Die web-FAQ’s gaan over "wie zijn jullie en wat doen jullie", terwijl de gesproken FAQ’s persoonlijker zijn: "wat kunnen jullie voor mij betekenen?".

Van Hessen is positief over de rol van taal- en spraaktechnologie. Het kan zowel helpen om klanten sneller van dienst te zijn als om de gewenste managementinformatie (semi-)automatisch te extraheren. Medewerkers houden zo meer tijd over om te doen waar vooral mensen goed in zijn: praten met andere mensen!

Social Signal Processing

Nu robots een steeds prominentere rol in de samenleving gaan spelen en duidelijk wordt dat ze (wellicht) in de nabije toekomst zorgtaken gaan overnemen zoals in de documentaire "Ik ben Alice" te zien is, wordt duidelijk dat robots een "idee" moeten hebben van de menselijke emotie. Zowel aan de ontvangende kant (herkennen dat iemand verdrietig is) als aan de zendende kant (een troostende toon aanslaan). Dit heet ook wel Social Signal Processing (SSP): het met computers en algoritmes bepalen van de emotionele staat van sprekers en daar adequaat op reageren. Allerlei features in het spraak- signaal zoals plotselinge stijging van de amplitude, toenemende stiltes, door elkaar praten, veranderende toonhoogtes en natuurlijk woordkeuzes, kunnen emoties helpen blootleggen. Kun je dit berekenen, dan kun je "aan de knoppen draaien" om het gesprek zo "juist mogelijk" te laten verlopen. Inzet van robots in het intermenselijke verkeer, zoals aan ziekenhuisbedden, voor alleenstaande senioren en bij recepties zal alleen goed lukken als robots op z'n minst een klein beetje emotie kunnen voelen en tonen. Van Hessen:“Het is dus noodzakelijk dat de robot zijn houding aanpast aan die van de mens.”

Maar ook in het call center biedt SSP mogelijkheden. Van Hessen: “Nu is het one-size-ﬁts-all: iedere beller krijgt altijd dezelfde dialoog aangeboden. Maar soms hebben mensen geen zin in een uitgebreide begroeting of andere beleefdheden, maar willen ze juist direct tot de kern van de gespreksreden doordringen ("tot hoe laat zijn jullie open?"). Door dit te signaleren, kan de computer de dialoog aan passen aan de manier van spreken van de klant waardoor die op de "juiste" manier te woord wordt gestaan.

Onmenselijke of onwenselijke ontwikkelingen? “Wellicht, maar in een wereld met onvoldoende geld en/of mensen die anderen gaan verzorgen wellicht een goede "second-best" en in ieder geval beter dan mensen volledig aan hun lot overlaten.

Hoe komen chatbots als ChatGPT tot hun antwoorden?

Een Introductie in Automatische Spraakherkenning

Wat is Spraaktechnologie?

Rights Defender Claire Hédon

From Chat to Voice

The BIAS of AI-Speech

Wat is de AI-Bias?

NLP versus NLU versus NLG

Onderzoekers van de UT op TV

Kunstmatige juristen rukken op

Dive into the future met AI