Spraakherkenning is de laatste jaren fors beter geworden en is nu in staat om spraak die rustige en helder gesproken wordt en die bovendien goed wordt opgenomen, zeer goed te herkennen. Voorbeelden zijn gesprekken van politici in het parlement, podcasts, lezingen en meer. Wat nog lastig is, zijn de meer discussieachtige gesprekken waar sprekers een punt willen maken en elkaar in de rede vallen. Ook bij de wat hijgerige gesprekken waarbij zinnen maar half worden uitgesproken, valt er nog wel wat te verbeteren. En uiteraard hebben we nog steeds het OV-probleem: Out-of-Vocabular oftwel het gesproken woord staat niet in ons woordenboek en kan dus niet herkend worden. Dikwijls treedt deze OV op bij specialistische gesprekken over bv de financiele wereld ("Financial Due Diligence", "Mortgage Rate", "Debt Ratio") of medische wereld ("antiseptisch", "psychosomatisch". Voor dat soort gesprekken moet dan ook een eigen taalmodel gemaakt worden waarbij gebruik gemaakt moet worden van teksten uit die betreffende wereld.
Zo werd in 2016 het Oral History taalmodel gemaakt (met behulp van 600 interviews van Getuigenverhalen) waarin de typische WOII woorden voorkwamen. In 2017 werd samen met de Dienst Verslaglegging en Registratie (DVR) het Parlementaire taalmodel gemaakt.
Om te laten zien hoe goed (of slecht) de herkenning werkt, tonen we hieronder een aantal voorbeelden van het herkennen van verschillende soorten gesprekken.
UMCG
EC: Biobrandstof
UvN: Marc van Oostendorp
UvN: Marc van Oostendorp
Hieronder een opnamen van een voordracht van Marc van Oostendorp voor de Universiteit van Nederland over "Waarom het raar is om met een Gooise R te praten".
Ondertiteling
Karaoke
UvN: Abram de Swaan
UvN: Abram de Swaan
Hieronder een opnamen van een voordracht van Abram de Swaan voor de Universiteit van Nederland over "Waarom de ene taal succesvol is en de andere uitsterft".
Beslist geen slechte herkenning.
Ondertiteling
Karaoke
Correspondent 2 april 2019
Op 2 april 2019 was er een boeiden Podcast van Joris Luyendijk, Marc Chavanne en Ri (van de Correspondent) over de Brexit.
Helder gesproken en dus goed te herkennen. Hieronder het gesprek in karaoke-stijl.
Correspondent 18 mei 2018
Openbare vergaderingen
Spraakherkenning van openbare vergaderingen
In 2015 hebben we bij Telecats voor 3 verschillende gemeenten een korte demo gemaakt. Een paar opnamen van ongeveer een halfuur van willekeurig gekozen gemeenteraadsvergaderingen werden, zonder dat er iets aan getuned werd, door de spraakherkenner gehaald. Niet alle geluidsopnamen waren even geweldig (voorals die van Lansingerland was wat overstuurd), maar het eindresultaat stelde desalnietemin niet teleur.
Hieronder staan de 4 opnamen en hun resultaat. Door op een willekeurig woord in de herkende tekst te klikken, springt men erheen en wordt de opname vanaf dat punt verder afgespeeld.
Enschede
Enschede (II)
Dinkelland
Lansingerland
Tweede Kamer
Vlaams Parlement