BRS85 - Spraakherkenning voor de Nederlandse Taalunie

Volgend jaar komt er weer een nieuw groenboekje uit met daarin de (aangepaste) lijst met woorden en de officiële manier waarop ze gespeld moeten worden. De afgelopen jaren heeft de NTU gezien dat er zo’n 3M keer per jaar een woord wordt opgezocht op http://woordenlijst.org. Op dit moment ziet die website er als volgt uit:

Een van de zaken die daar nu niet goed gaan is dat woorden die erg anders geschreven worden dan officieel zou moeten, niet gevonden worden. Een voorbeeld is het woord bjoetikees (ipv beautycase). Het verschil is zo groot dat de applicatie er niet in slaagt om ze aan elkaar te koppelen, ook al “klinken” ze het zelfde. Als beauticase wordt ingevoerd, komt de applicatie terug met “bedoelt u misschien beautycase”.

Het idee bestaat nu om deze applicatie zo aan te passen dat er de mogelijkheid komt om een woord waarvan men de schrijfwijze wil weten, in te spreken. Natuurlijk gaat dat niet goed omdat er te veel homofone woorden zijn (wij-wei, bout-boud, leiden-lijden, etc.). Ook zijn er natuurlijk veel woorden die qua uitspraak op elkaar lijken (wielen, willen, wellen).

De applicatie moet steeds de bijvoorbeeld 10 best herkende woorden teruggeven. De gebruiker kan dan zelf bepalen welk woord het (waarschijnlijk) is.

Cijfers

Zoals gezegd wordt er op dit moment zo’n 3M/jaar een woord opgezocht. Verondersteld wordt dat tot 10% van de woorden via spraak wordt opgezocht. Dat houdt in dat 300K woorden in 300 dagen worden opgevraagd en dat is ongeveer 1000 woorden/dag = 100 woorden/uur.

Voorstel

Op dit moment lijkt het erop dat de nieuwe applicatie als volgt te werk zou kunnen gaan. De gebruiker gaat naar de website, klikt op de button met de microfoon en spreekt het woord in. Het geluid wordt in Enschede/Leuven door de herkenner gehaald en de 10 meest waarschijnlijke woorden worden met summiere extra informatie teruggegeven. De gebruiker kan een van de woorden selecteren door er op te klikken of kan op een “nee” button klikken. In dat laatste geval komen de volgende 10 woorden tevoorschijn of moet er een nieuw woord worden ingesproken.

Woorden

De NTU komt met de lijst van woorden die herkend zouden moeten worden. Van deze woorden is ook bekend hoe vaak ze de afgelopen jaren ingevoerd werden in de huidige applicatie. Dit zou kunnen helpen bij het hersorteren van N-bestlijst. Op dit moment wordt gedacht aan zo’n 100K woorden.

Transcriptie

Een belangrijk punt voor dit project is de fonetische transcriptie. Er bestaat een lijst met vrij nauwkeurige transcripties van 1.3M woorden maar die lijst is in het bezit van Van Dale en die wil niet meedoen. Uit eerder onderzoek (UTwente, 2000) is gebleken dat deze zeer nauwkeurige transcriptie zoals gemaakt door Van Dale voor spraakherkenning niet noodzakelijk is. Een goede transcriptie (deels via woordenlijsten, deels via een G2P, gebaseerd op het algoritme van Antal vd Bosch) volstaat waarschijnlijk.

Consortium

De NTU heeft de afgelopen jaren o.a. via het STEVIN-programma de Nederlandstalige TST een boost gegeven. Het lijkt daarom juist om de binnen STEVIN ontwikkelde technologie hiervoor te gebruiken en het project met Nederlandse en Vlaamse partners uit te voeren. Op dit moment wordt gedacht aan:

Telecats: Projectleider, maker en onderhouder van de applicatie
KU Leuven: spraakherkenner SPRAAK en de bijbehorende Nederlandse en Vlaamse akoestische modellen
Radboud Universiteit: G2P en testen

Testmateriaal

Het kost in de regel erg veel moeite om geschikt testmateriaal te vergaren. De geëigende manier is om mensen te vragen elk N-woorden van de NTU-lijst uit te spreken. Dit kost in de regel veel tijd en organisatie en is dus duur. Gedacht wordt nu om het Corpus gesproken Nederlands te gebruiken. Dit corpus bevat 10M woorden en wellicht zitten daar ook veel van de 100K woorden van de NTU lijst bij. Als het lukt om die woorden te isoleren, dan zou dat een mooie manier zijn om een groot test corpus op te bouwen.

Looptijd

De testversie van de beoogde applicatie moet eind 2014 klaar zijn. De uiteindelijke applicatie moet half 2015 klaar zijn omdat het nieuwe Groene Boekje eind 2015 verschijnt.

De applicatie kent twee onderdelen:

De gebruikersapplicatie zoals hierboven beschreven en een onderhoudsapplicatie. Met deze laatste kunnen de mensen van de NTU dan zelf woorden bijvoegen/weghalen en de informatie per woord beheren.

Problemen

Er zijn een aantal zaken die nadere aandacht vereisen.

Hoe krijgen we het geluid (dwz de spraak) op een zodanige wijze binnen dat de herkenning zo goed mogelijk gedaan kan worden? Natuurlijk is het mogelijk door extra software op je pc te installeren maar dat is niet wenselijk. In principe moet iedereen die op de NTU-website komt door middel van het indrukken van een button de spraak naar de herkenner kunnen sturen en het resultaat terug op het scherm krijgen zonder aparte software te hebben geïnstalleerd. Op dit moment lijkt de nieuwe WebRTC-techniek de beste oplossing te bieden, maar uitgezocht moet worden of het ook bruikbaar is.
Hoe om te gaan met de verschillende tongvallen? De schrijfwijze van het Nederlands mag dan uniform zijn, de wijze van spreken is dat zeker niet. Het Nederlands van een West-Vlaming en een Oost-Groninger verschilt zoveel dat het maar de vraag is of we de spraak met een standaard instelling kunnen herkennen. Mogelijke oplossingen zijn a) het laten opgeven van de regio waar iemand vandaan komt, b) het gebruiken van het IP-adres om een herkomstschatting te maken, c) de spraak gelijktijdig door meerdere herkenners te halen en het antwoord met de hoogste betrouwbaarheid te presenteren.

Waarom geen WeTransfer meer

Weer in Italië

Het einde nabij

Misschien word ik nog een paar jaar buschauffeur

Je klinkt nogal boos vandaag, wat is er?

EMLAR 2024

Een nieuwe ASR-tool: aTrain

Symposium Gezond Gefokt (UU)

Diarizatie werkt!

GPT-5 komt eraan!

Hoe werken grote taalmodellen in AI?

Whisper, a new ASR engine

EHRI - CLARIN Workshop Londen

Whisper

Waarom een Drentsche Patrijshond?

Wat bracht 2022?

Spraakherkenning voor de Nederlandse Taalunie