Eind februari werd ik door Hugo Quené van de Universiteit Utrecht gevraagd om een lezing te geven over ASR: Automatic Speech Recognition. De doelgroep is vooral onderzoekers uit de Sociale- en Geesteswetenschappen die "iets" met AV-bestanden doen en wellicht behoefte hebben aan het semi-automatisch transcriberen ervan.
Bij de voorbereiding begon ik met een eerdere presentatie (van een jaar geleden) waarin ik het verschil uitlegden tussen de verschillende modellen die je nodig hebt om ASR te kunnen doen. Maar... tijdens de voorbereiding lukte het mij om Whisper te installeren op zowel mijn (snelle) Windows computer als mijn MacBook Pro. Het had vanaf dat moment weinig zin om de oude KALDI uit te leggen terwijl ik alles gewoon met Whisper herken.
Uiteindelijk besloot ik me daarom te beperken tot een kort overzicht over ASR in het algemeen en me verder vooral te richten op het gebruik van Whisper. Deze herkenner is zo enorm veel beter dan de oude KALDI-herkenner dat het zonde zou zijn om mensen daar nog mee lastig te vallen. In plaats van de gebruikelijke 2 uur was ik daarom in één uurtje klaar :-)
Het verhaal zou ik eerst live in een zaal op de UU houden, maar er bleken veel meer mensen online mee te willen doen en dus werd het vanuit mijn studeerkamer. De opnamen incl de ondertitels en de vertaalde ondertitels zie je hieronder.
De ondertitels werden gemaakt met (uiteraard) Whisper, een beetje gecorrigeerd met SubtitleEdit en daarna vertaald door Google Translate. De correcties bleven beperkt tot namen (Claria -> CLARIAH, Hesse -> Hessen) en nog wat kleinigheden. Ongetwijfeld staan er nog fouten in, maar het is uiteindelijk ook een show case die laat zien hoe "krom" Engels toch redelijk goed herkend en vertaald wordt.
Al-met-al een plezierige "bijeenkomst" die we 4 en 12 april nogmaals gaan doen maar dan echt practisch, live en met mensen die met hun eigen data komen. We gaan dan aan de slag met het installeren van Whisper, WhisperX en vervolgens het herkennne van "hun" audio.
We gaan het zien 😀