Een overzicht van de ontwikkelingen op het gebied van chat en spraaktechnologie ofwel voice-bots en gewone bots.
Het artikel is in zowel het Nederlands als het Engels en heeft de bedoeling om goed uit te leggen wat elk is en wat de verschillen ertussen zijn.

Van Chat naar Spraak. Is dit mogelijk en zo ja, hoe?

Spraak

Zo'n ±40 jaar geleden was er iets nieuws op de telefoniemarkt: IVR. Door het indrukken van een of meer van de 12 toetsen op een telefoon was het mogelijk om een vraag te beantwoorden die door "de telefoon" werd gesteld. U kunt denken aan "voor de afdeling Inkoop druk 1, voor de afdeling Verkoop druk 2". Het werd een groot succes en honderden bedrijven over de hele wereld boden dit soort "automatische dialogen" aan. Natuurlijk was de keuze van de input beperkt, je kon niet meer dan ±6 verschillende opties per vraag aanbieden en niet meer dan 3 of 4 lagen diep. Bovendien was de flexibiliteit van deze systemen beperkt en kostte het veel tijd (en geld) om ze te veranderen.
Maar toch... het werd een groot succes en het wordt nog steeds in veel diensten gebruikt. In het begin van de jaren negentig kwam spraakherkenning beschikbaar voor het Engels (Amerika en Engeland), een paar jaar later gevolgd door het Frans, Duits en Nederlands voor commerciële doeleinden.

Natuurlijk waren de eerste dialogen eigenlijk een soort IVR met spraak, maar toen de technologie rijper werd, werden de gesproken dialogen dat ook. En toen "slot-filling" het mogelijk maakte meerdere slots tegelijk te vullen (b.v. "morgenvroeg" "van Utrecht" "naar Enschede") begonnen pionierende bedrijven de waarde van Spraakherkenning in te zien en stapten (langzaam) over van IVR naar ASR.
Aan het begin van de 21ste eeuw werd spraakherkenning meer en meer aanvaard en begon ASR de dominante rol van IVR in de wereld over te nemen.

In de loop der jaren werd de spraakherkenning niet alleen beter (minder herkenningsfouten) maar ook slimmer (meer woorden). In plaats van een door de systeemontwikkelaars opgestelde "grammatica" maakte LVCRS (Large Vocabulary Continuous Speech Recognition) de weg vrij voor "zeg wat je wilt zeggen, wij zullen het herkennen". Met LVCRS konden mensen "gewoon" spreken en moest een slimme NLP-eenheid (Natural Language Processing) de betekenis van de boodschap uit de herkende spraak halen.

Toen AI beschikbaar kwam voor commercieel gebruik (±2010), veranderde er veel! DNN's (Deep Neural Networks) voor spraakherkenning (Microsoft, 2014) hebben de WER (Word Error Rate) in de daaropvolgende 5 jaar drastisch verminderd. Vandaag is het voor duidelijk gesproken Amerikaans-Engels (en Chinees) op het niveau van de mens. En toch... wij mensen doen het bijna altijd beter dan machines in echte situaties. Maar waarom?

Tekst

In de late jaren '90 en vroege jaren '00 kwamen chatdiensten op. Mensen konden geschreven berichten met elkaar uitwisselen in min of meer real time via Messenger of andere diensten. In het begin was het iets dat vooral door kinderen werd gebruikt, maar al snel zagen oudere mensen er het nut van in en werd het langzaamaan heel groot. Maar... het was, zeker de eerste jaren, vooral een manier van mens-mens communicatie: je schreef je vriendin een bericht, zij las het en stuurde een antwoord.
Maar al snel kwamen er vragen over self-services: konden die geschreven berichten nu niet (deels) geautomatiseerd worden? En zo, beetje bij beetje, kwamen er geautomatiseerde tekstdiensten beschikbaar. Je kon een vraag intypen, die vervolgens (half)automatisch werd beantwoord. En ook hier deed AI zijn intrede en werden de dialogen steeds "menselijker" en soms is het moeilijk te zien of een mens of een machine je vragen beantwoordt.

Zowel gesproken als geschreven dialogen doorstaan de Turingtest meestal nog niet, maar ze worden steeds beter en kunnen al met succes worden gebruikt.

Taal en Spraak

Aanvankelijk lagen de soorten gesproken en geschreven dialogen vrij ver uit elkaar, maar naarmate de technologie verbeterde en vooral na de komst van DNN's voor zowel sterk verbeterde spraakherkenning als NLP, zijn chat- en spraakbots redelijk in opkomst. Je ziet ze steeds meer bij bedrijven, overheid en andere organisaties. En, soms verrassend, acteren ze ook nog redelijk tot zeer goed.
De populariteit zet je aan het denken om ze te combineren. Je besteedt immers veel tijd aan het opzetten van een goede chatbot, dus waarom zou je die niet ook toegankelijk maken voor spraak?

Tot ±5 jaar geleden was dit niet aan te raden. De geschreven chatbot en de gesproken voicebot verschilden in opzet en bedienden ook een (iets) andere doelgroep. De gesproken versie was meer gericht op de spreker: wat kon een organisatie voor hem of haar betekenen, of wat moest hij of zij doen om iets te bereiken. De schriftelijke vorm was duidelijk afstandelijker en ging meer over informatie over de organisatie, over wat ze deden en wie ze waren. Maar dat laatste veranderde met de komst van chatbots. De meer formele manier werd vaak vervangen door een informele manier, de toon van de stem veranderde en het scala van dingen die je kon afhandelen werd breder.

Men zag duidelijk dat chat en voice naar elkaar toe groeiden, waardoor integratie op de achtergrond voor de hand lag. En toen ging het snel. Nu vragen steeds meer bedrijven of hun bestaande chatbot(s) ook voor voice gebruikt kunnen worden. En meestal is het antwoord: ja, mits... Want natuurlijk: er is nog steeds een verschil tussen die twee, al is dat een stuk minder dan 5 jaar geleden.

Combinatie van spraak en chat

Het verschil tussen de twee is duidelijk: ASR om van spraak naar tekst te gaan en TTS om van tekst terug naar spraak te gaan. Beide technieken worden snel beter en beter en vooral met de TTS is er niet veel aan de hand: de gesproken tekst zou misschien iets beter kunnen, iets natuurlijker en misschien met iets meer personalisatie, maar in het algemeen is hij goed te begrijpen.

Met ASR en de daaropvolgende NLP-engine ligt dat duidelijk anders. Mensen spreken over het algemeen niet grammaticaal correct, stoppen halverwege een zin, geven het onderwerp een andere naam of gaan ervan uit dat wat zij zeggen gemakkelijk kan worden begrepen. Moderne ASR-engines kunnen de gesproken tekst omzetten in geschreven tekst, maar de vraag is of de NLP-engine er iets zinnigs van kan maken. Natuurlijk: dit geldt ook voor de NLP-engine die de geschreven boodschap moet omzetten in iets zinnigs, maar zolang de schrijvers redelijk dicht in de buurt blijven van het opschrijven van wat zij bedoelen, is dit meestal wel te doen.

plaatjeAfbeelding van de structuur van een Chat- en Voicebot.

De (wetenschappelijke) focus ligt dus op de stap van "spraak" naar "begrijpelijke tekst". Met andere woorden, van herkennen naar begrijpen. Dit is een zeer boeiend maar ook moeilijk onderwerp waar we de volgende keer dieper op in zullen gaan.
Wat de combinatie van Voice en Chatbots betreft, kunnen we stellen dat, op voorwaarde dat de complexiteit van de dialoog niet te groot is, het over het algemeen goed te doen is. En we zien dit terug in een sterke groei van toepassingen waarin beide kanalen worden ontwikkeld en gebruikt.

  • Laatste aanpassing website: vrijdag 25 oktober 2024, 12:51:10.
  • Copyright @2023 Arjan van Hessen