brs85T
  • Facebook
  • LinkedIn
  • Blogs
  • Inloggen

Het is weer half december en dat houdt al jaren in: Het Groot Dictee der Nederlandse Taal. Tot een paar jaar geleden was dat een nationale TV-gebeurtenis in de voormalige Tweede Kamer. Maar om de een of andere reden (paste niet meer in deze tijd) is men er mee gestopt. Jammer, maar zo gaat dat.

Het radioprogramma “de Taalstaat” van o.a. Frits Spits besloot om het dictee weer in ere te herstellen, maar ditmaal voor de radio.

dictee 3Vlnr: Wim Daniëls (schrijver), Philip Freriks (voorlezer), Pieter van Diepen (winnaar), Frits Spits (presentator)

En zo was er zaterdagochtend 15 december weer het Groot Dictee der Nederlandse Taal, als vanouds voorgelezen door Philip Freriks. Het was alweer de 28ste editie en ditmaal geschreven door taalkundige Wim Daniëls. Mensen konden in bibliotheken door heel het land live meeschrijven met dit Dictee. En uiteraard kon je ook voor de lol gewoon thuis meedoen: Radio aan, pen en papier bij de hand en schrijven!

Een paar jaar geleden hadden we met een aantal ASR-specialisten als eens onderzocht of wij met onze spraakherkenner konden meedoen, maar dat liep steeds op een njet uit. Ze vonden het niet sexy, zagen geen toegevoegde waarde en meer van dat soort weinig houtsnijdende argumenten. Een paar saaie wetenschappers in de hoek met een laptop die laten zien dat de mens nog steeds beter is dan de computer; wie vindt dat nu niet leuk om te zien?

deicUitzending eerste uur van het dictee Ook dit jaar deden wij weer niet mee (maar we hadden het ook niet gevraagd). Ik hoorde de door Freriks op gedragen toon gedeclameerde zinnen door de radio schallen en was gewoon nieuwsgierig naar wat de KALDI-UTwente-RUNijmegen herkenner hier nu van zou bakken.

Op de website van de NPO1 was de gehele uitzending, inclusief het meermalen voorlezen van de zinnen door Philip Freriks terug te vinden, maar een download met alleen de zinnen in optimale audio-kwaliteit was er niet. Gelukkig werd het eerste uur afgesloten met het nog eenmaal voorlezen van alle zinnen. Die konden we makkelijk opnemen en in 8 zinnen knippen. Die 8 zinnen hebben we door de herkenner gehaald en het resultaat viel zeker niet tegen.

Van spraak naar zinnen

Maar voor we de resultaten echt gaan vergelijken, iets over spraakherkenning. Wat erg lastig is voor de huidige spraakherkenners, is het opschrijven van de herkende spraak in zinnen. Mensen spreken nu eenmaal niet in zinnen en een spraakherkenner doet domweg niets anders dan de binnenkomende audio omzetten in een geschreven representatie. Voor veel doeleinde is dat uitstekend, maar om er grammaticaal correcte Nederlandse zinnen van te maken, is meer nodig. Zie voor meer info hierover de blog Spreek2Schrijf.

Een trucje dat we gebruiken, is om een nieuwe “zin” te maken wanneer de pauze tussen twee opeenvolgende woorden 400 msec of meer is. De ietwat gedragen wijze van voordragen door Philip Freriks echter, leidt er dan toe dat we meer zinnen krijgen dan er hadden moeten zijn.

Een ander probleem is het gebruik van hoofdletters. Onze spraakherkenner doet alles in kleine letters. De postprocessing (begin van een nieuwe zin altijd met een hoofdletter) zorgt al voor een kleine verbetering. Maar om het een stuk beter te krijgen, zouden we veel meer aan de postprocessing moeten doen. Een zin als “Premier Wim Kok is een goede kok” wordt door de herkenner als “Premier wim kok is een goede kok” geschreven.

Woordenlijst

Tenslotte is er de woordenlijst. De herkenner kan 256K woorden herkennen. Dat is best veel maar slechts 20% van de bestaande Nederlandse woorden. Er zijn dus heel veel, vaak minder frequent gebruikte, woorden die wij gewoon niet kunnen herkennen omdat ze nu eenmaal niet in het woordenlijstje staan. Ook samengestelde woorden zijn een probleem. Een woord als coderoodwaarschuwingen staat nu eenmaal niet in onze woordenlijst. Wel staan er de woorden code, rood en waarschuwing in. De herkenning gaat hier dan ook perfect, maar het resultaat is natuurlijk wel "fout".
Het voordeel van zo'n woordenlijst is dat er in principe alleen maar correct gespelde woorden in staan. Hierdoor zal de herkenner een spelfout die mensen typisch maken nooit maken; de herkenner zal bijvoorbeeld nooit "minuscule" als "miniscule" schrijven, of "debacle" als "debakel". Dus als het juiste woord herkend wordt, dan bevat het geen spelfouten.

En niet-Nederlandse woorden? Een staande, Friese uiting als ‘It giet oan’, is eigenlijk kansloos als ie er niet als één uiting in staat. Dat staat ie niet en dus wordt deze uiting herkend als “in teheran”.

Tenslotte zijn er de uitspraakfouten waar wij mensen geen probleem mee hebben omdat we begrijpen wat er bedoeld wordt en dus de herkende tekst in die context horen. Voorbeeld in dit dictee is de uiting van Freriks “elfstedentocht in hera willen houden". Natuurlijk wordt hier bedoeld “Elfstedentocht in ere willen houden”, maar ook na 10x afluisteren blijf je horen dat er (h)era wordt gezegd: en dat herkent de ASR-engine dan ook.

Dit klinkt allemaal als een groot excuus om te verdoezelen dat de herkenner het gewoon niet goed doet en dat we eerst moeten interpreteren, voor dat de herkenner op dit niveau kan meedraaien. Maar de herkenner heeft ook zo z’n sterke punten: hij kan eigenlijk geen schrijffouten maken. Als ie een woord als skûtsjesilen herkent, dan “schrijft” ie het ook 100% goed.

Lastiger is het bij twijfelachtige uitingen waar begrip om de hoek komt kijken. In de tweede zin zegt Freriks “Zo’n temperatuur” maar bij heel goed luisteren, lijkt de /o/ van zo’n wel erg dicht bij de /O/ van zon te liggen; en dat is ook wat er herkend wordt. Een mens zou deze fout niet maken, omdat het resultaat gewoon onzin oplevert, maar een spraakherkenner heeft (nog) geen benul van zin en onzin en dus worden die woorden herkend die qua akoestiek EN taalmodel het best passen.

Resultaten

Maar hoe goed deed de herkenner het nu? Hieronder de 8 zinnen met onder iedere correct geschreven zin, de resultaten van de spraakherkenner. We hebben iedere zin zoals beschreven op de website van het programma en voorgelezen door Philip Freriks als een apart bestand door de herkenner gehaald.

Conclusie

We mogen stellen dat de herkenning best goed is. Hier en daar zien we typische spraakherkenningsartefacten zoals missende hoofdletters, samengestelde woorden die als losse woorden geschreven worden, zinnen die geen zin zijn, missende leestekens, uitspraakfouten die letterlijk herkend worden en ambiguiteit "zoon versus zo'n" waar normaalgesproken de context het juiste antwoord geeft. En toch.....

Helemaal niet verkeerd.

 

Arjan