brs85 - 2014

Op 21 november 2014, hadden we weer een deelnemersbijeenkomst; dit maal in het Nijmeegse MuZieum, het ervaringsmuseum over zien en niet zien.
Behalve de verplichte deelnemersvergadering (DIXIT, financien), bestond de bijeekomst uit een inleidend praatje over het museum gevolgd door een halfuurtje blind zijn.

In groepjes van 6 gingen we, gewapend met de bekende witte stok met rode strepen, het duister en daarna het volkomen duister in. Ons groepje deed “het huiselijk leven” hetgeen neerkwam op rondlopen in de woonkamer en proberen de verschillende aanwezige objecten (televisie (sic), tafel, bank, spiegel en meer) te raden.
Veel gestommel, tegen elkaar en tegen objecten aanlopen, wanhopig om je heen tasten opzoek naar een muur of iets van houvast. Maar na een tijdje wende het wel en begreep je dat, als je met de stok een stukje vrije ruimte voor je voelde, je gerust een paar passen naar voren kon doen zonder het risico te lopen ergens tegen aan te botsen. Dat zal in het echte leven niet zo zijn, maar hier was er voor gezorgd dat als de vloer vrij was, het "hogerop" ook zo was.

Na alles “ontdekt” te hebben ontspon zich een discussie in het duister tussen ons en de bijna blinde begeleidster waarin ze vertelde hoe het leven voor haar veranderd was nadat ze vanaf haar 18^de steeds slechter ging zien en zo goed als blind was (nog 2% zicht). Na 20 min. was het voorbij en mochten wij weer terug naar het licht: best wel een opluchting!ACBR

De rest van de ochtend waren er verhalen van Hellen Vermeulen (directeur MuZieum) die een en ander uitlegde over het Muzieum, van Frank Allemeersch van het Belgische Sensotec, een bedrijf dat traditioneel hardware maar nu ook software maakt waarmee blinden op gavanceerde wijze teksten kunnen laten voorlezen middels OCR en Text-to-Speech. Gevolgd door twee "ervaringsdeskundigen": Bart (z’n hele leven blind) en Jeroen (blind sinds een paar jaar) die op indrukwekkende manier vertelde over het leven als blinde. Wat gaat goed en wat niet, waar hebben ze behoefte aan en wat is in hun ogen minder belangrijk.

Wij als Taal- en Spraaktechnologie bedrijven en kennisinstellingen werden uitgedaagd om mee te denken over mogelijke oplossingen zoals een pratende thermostaat of lichtschakelaar. Over de manier waarop een blinde in de ijskast melk van karnemelk kan onderscheiden, of over de manier waarop je (gesproken) feedback kunt krijgen van je inductiekookplaat.
Op deze manier kregen wij, ordinaire NOTaS-deelnemers, in één ochtend een heel goed beeld van een voor de meeste van ons onbekende wereld.

De bijeenkomst werd afgesloten door Catia die een overzicht gaf van financieringsmogelijkheden voor NOTaS-deelnemers en/of TST-projecten.

Teruglopend naar het station, in gedachte bezig met "oplossingen" voor de geschetste problemen en ondertussen de verschillende objecten op het plein moeiteloos ontwijkend, telde ik mijn zegeningen.

Al met al een fascinerende bijeenkomst!

Arjan

Volgend jaar komt er weer een nieuw groenboekje uit met daarin de (aangepaste) lijst met woorden en de officiële manier waarop ze gespeld moeten worden. De afgelopen jaren heeft de NTU gezien dat er zo’n 3M keer per jaar een woord wordt opgezocht op http://woordenlijst.org. Op dit moment ziet die website er als volgt uit:

Een van de zaken die daar nu niet goed gaan is dat woorden die erg anders geschreven worden dan officieel zou moeten, niet gevonden worden. Een voorbeeld is het woord bjoetikees (ipv beautycase). Het verschil is zo groot dat de applicatie er niet in slaagt om ze aan elkaar te koppelen, ook al “klinken” ze het zelfde. Als beauticase wordt ingevoerd, komt de applicatie terug met “bedoelt u misschien beautycase”.

Het idee bestaat nu om deze applicatie zo aan te passen dat er de mogelijkheid komt om een woord waarvan men de schrijfwijze wil weten, in te spreken. Natuurlijk gaat dat niet goed omdat er te veel homofone woorden zijn (wij-wei, bout-boud, leiden-lijden, etc.). Ook zijn er natuurlijk veel woorden die qua uitspraak op elkaar lijken (wielen, willen, wellen).

De applicatie moet steeds de bijvoorbeeld 10 best herkende woorden teruggeven. De gebruiker kan dan zelf bepalen welk woord het (waarschijnlijk) is.

Cijfers

Zoals gezegd wordt er op dit moment zo’n 3M/jaar een woord opgezocht. Verondersteld wordt dat tot 10% van de woorden via spraak wordt opgezocht. Dat houdt in dat 300K woorden in 300 dagen worden opgevraagd en dat is ongeveer 1000 woorden/dag = 100 woorden/uur.

Voorstel

Op dit moment lijkt het erop dat de nieuwe applicatie als volgt te werk zou kunnen gaan. De gebruiker gaat naar de website, klikt op de button met de microfoon en spreekt het woord in. Het geluid wordt in Enschede/Leuven door de herkenner gehaald en de 10 meest waarschijnlijke woorden worden met summiere extra informatie teruggegeven. De gebruiker kan een van de woorden selecteren door er op te klikken of kan op een “nee” button klikken. In dat laatste geval komen de volgende 10 woorden tevoorschijn of moet er een nieuw woord worden ingesproken.

Woorden

De NTU komt met de lijst van woorden die herkend zouden moeten worden. Van deze woorden is ook bekend hoe vaak ze de afgelopen jaren ingevoerd werden in de huidige applicatie. Dit zou kunnen helpen bij het hersorteren van N-bestlijst. Op dit moment wordt gedacht aan zo’n 100K woorden.

Transcriptie

Een belangrijk punt voor dit project is de fonetische transcriptie. Er bestaat een lijst met vrij nauwkeurige transcripties van 1.3M woorden maar die lijst is in het bezit van Van Dale en die wil niet meedoen. Uit eerder onderzoek (UTwente, 2000) is gebleken dat deze zeer nauwkeurige transcriptie zoals gemaakt door Van Dale voor spraakherkenning niet noodzakelijk is. Een goede transcriptie (deels via woordenlijsten, deels via een G2P, gebaseerd op het algoritme van Antal vd Bosch) volstaat waarschijnlijk.

Consortium

De NTU heeft de afgelopen jaren o.a. via het STEVIN-programma de Nederlandstalige TST een boost gegeven. Het lijkt daarom juist om de binnen STEVIN ontwikkelde technologie hiervoor te gebruiken en het project met Nederlandse en Vlaamse partners uit te voeren. Op dit moment wordt gedacht aan:

Telecats: Projectleider, maker en onderhouder van de applicatie
KU Leuven: spraakherkenner SPRAAK en de bijbehorende Nederlandse en Vlaamse akoestische modellen
Radboud Universiteit: G2P en testen

Testmateriaal

Het kost in de regel erg veel moeite om geschikt testmateriaal te vergaren. De geëigende manier is om mensen te vragen elk N-woorden van de NTU-lijst uit te spreken. Dit kost in de regel veel tijd en organisatie en is dus duur. Gedacht wordt nu om het Corpus gesproken Nederlands te gebruiken. Dit corpus bevat 10M woorden en wellicht zitten daar ook veel van de 100K woorden van de NTU lijst bij. Als het lukt om die woorden te isoleren, dan zou dat een mooie manier zijn om een groot test corpus op te bouwen.

Looptijd

De testversie van de beoogde applicatie moet eind 2014 klaar zijn. De uiteindelijke applicatie moet half 2015 klaar zijn omdat het nieuwe Groene Boekje eind 2015 verschijnt.

De applicatie kent twee onderdelen:

De gebruikersapplicatie zoals hierboven beschreven en een onderhoudsapplicatie. Met deze laatste kunnen de mensen van de NTU dan zelf woorden bijvoegen/weghalen en de informatie per woord beheren.

Problemen

Er zijn een aantal zaken die nadere aandacht vereisen.

Hoe krijgen we het geluid (dwz de spraak) op een zodanige wijze binnen dat de herkenning zo goed mogelijk gedaan kan worden? Natuurlijk is het mogelijk door extra software op je pc te installeren maar dat is niet wenselijk. In principe moet iedereen die op de NTU-website komt door middel van het indrukken van een button de spraak naar de herkenner kunnen sturen en het resultaat terug op het scherm krijgen zonder aparte software te hebben geïnstalleerd. Op dit moment lijkt de nieuwe WebRTC-techniek de beste oplossing te bieden, maar uitgezocht moet worden of het ook bruikbaar is.
Hoe om te gaan met de verschillende tongvallen? De schrijfwijze van het Nederlands mag dan uniform zijn, de wijze van spreken is dat zeker niet. Het Nederlands van een West-Vlaming en een Oost-Groninger verschilt zoveel dat het maar de vraag is of we de spraak met een standaard instelling kunnen herkennen. Mogelijke oplossingen zijn a) het laten opgeven van de regio waar iemand vandaan komt, b) het gebruiken van het IP-adres om een herkomstschatting te maken, c) de spraak gelijktijdig door meerdere herkenners te halen en het antwoord met de hoogste betrouwbaarheid te presenteren.

Fascinerende NOTaS deelnemersbijeenkomst in het MuZieum

Spraakherkenning voor de Nederlandse Taalunie