BRS85 - Spraakherkenning Overheid

Waarom geen WeTransfer meer

27-07-2025

Tijdens onze zomervakntie in Italië las ik "ergens" een interessant stuk over eentot voor kort, populair softwareprogramma: WeTransfer. Tot de verkoop afgelopen jaar was dit een haast idealistisch...

Weer in Italië

08-06-2025

Ook dit jaar ging de vakantie naar de Sabijnse heuvels. In twee en een halve dag heen en (straks) in twee dagen terug. Is en blijft een redelijk afstand (ong 1500 km) die elk jaar toch weer net iets...

Het einde nabij

15-02-2025

Vandaag, zaterdag 15 feb 2025 is het bijna zover. Komende dinsdag 18 feb beeindig ik om 17:00 (formeel) mijn werkzame leven: ik ga met pensioen omdat ik woensdag 19 feb 67 jaar oud ben! Wat ik er...

Misschien word ik nog een paar jaar buschauffeur

25-10-2024

Onderstaan artikel verscheen 22 oktober 2024 in UToday, het electronische blad van de UTwente. In een leuk interview met Ditta bespraken we ons naderend afscheid (eind van dit jaar) van de UT. Haar...

Je klinkt nogal boos vandaag, wat is er?

17-10-2024

‘Aan de borreltafel’ is een rubriek over wetenschap. Wetenschapsjournalist Enith Vlooswijk praat met én tekent over UT-onderzoekers, die vertellen over hun vakgebied en de misvattingen die hierover...

EMLAR 2024

15-04-2024

The information of the official UU-website about the tutorial Automatic Speech Recognition (ASR) is unfortunately old and does not fit the content of the tutorial. Below a small update. Arjan...

Een nieuwe ASR-tool: aTrain

05-04-2024

Eind maart schreef ik samen met een groep ASR-collega’s aan de update van ons artikel voor de LREC-COLING workshop over "Holocaust Testimonies as Language Resources". Het was opgestuurd en nu...

Symposium Gezond Gefokt (UU)

04-04-2024

Ergens in de wintermaanden van 2024 kreeg ik een mail met de vraag of ik (als potentiële fokker) het leuk en interessant zou vinden om op het UU-symposium “Gezond Gefokt” te komen. Leek me zeker...

Diarizatie werkt!

09-11-2023

Het is al een tijd een grote wens om met Whisper ook de diarizatie van de verschillende sprekers te berekenen. En zo waar... dat lijkt nu te lukken! Afgelopen week mijn PC geupdate (dwz Whisper,...

GPT-5 komt eraan!

05-08-2023

De aanvraag hint naar baanbrekende nieuwe functies. Volgens verschillende tweets en online berichten heeft OpenAI onlangs een trademark (handelsmerkaanvraag) ingediend bij het "US Patent and...

Hoe werken grote taalmodellen in AI?

03-08-2023

Een jargonvrije uitleg van hoe AI en grote taalmodellen werken. Toen ChatGPT in de herfst van 2022 werd geïntroduceerd, ging er een schok door de technologie-industrie en de rest van de wereld....

Whisper, a new ASR engine

08-06-2023

Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. The developer of Whisper, OpenAI, shows that...

EHRI - CLARIN Workshop Londen

20-05-2023

Bush House, Kings College, Londen Ergens half augustus 2022 werd ik benaderd door Rachel Pistol (EHRI, Kings College London) en Martin Wynne (CLARIN-UK, Oxford) met de vraag of ik het zag zitten om...

Whisper

02-05-2023

Eind 2022 heb ik de stoute schoenen aangetrokken en ben me gaan verdiepen in Python en Whisper. Whisper was al sinds de release in september 2022 een zeer veelbelovende herkenner en enkele...

Waarom een Drentsche Patrijshond?

26-03-2023

Moos komt bij de Drenten-training trots terug met een namaak konijn. Ik ben de laatste tijd (februari-maart 2023) hard bezig met zowel Whisper (Spraakherkenning) als chatGPT; beide van OpenAI. En...

Wat bracht 2022?

01-01-2023

2022 loopt op z’n einde en 2023 komt eraan en dus is het weer tijd om terug te kijken op de mooiste en/of boeiendste ontwikkeling van het afgelopen jaar. Wat werd er ontwikkeld of kwam publiek...

Al een paar jaar leeft de wens bij veel overheidsorganisaties om hun gesproken content makkelijker en sneller om te kunnen zetten in tekst om die (gesproken) documenten beter doorzoekbaar te maken. Een voordehand liggende manier is natuurlijk middels spraakherkenning, maar die is zeker nog niet foutloos (en zal dat waarschijnlijk ook nooit worden).

Recent hebben we bij Telecats een tweetal opnamen van een debat tussen Haarsma Buma en Roemer door de herkenner gehaald om te zien hoe goed de herkenning van plenaire vergaderingen in de grote zaal van de Tweede Kamer zijn.En dat valt niet tegen.

Natuurlijk, het is mooie en duidelijke spraak, er wordt niet door elkaar gesproken en men spreekt met als doel dat anderen je goed verstaan. Maar toch...... De DVR van de Kamer gaat kijken of dit goed genoeg is om de transcriptie en uiteindelijk het maken van de Handelingen te vergemakkelijken. Mij lijkt van wel maar dat is nog even afwachten.

Een aandachtspunt is echter het verschil van spreek en schrijftaal. Ook al gaan we straks bijna 100% correct herkennen dan nog is het de vraag of een letterlijke transcriptie van hetgeen er gezegd werd wel zo prettig is om later nog eens na te lezen. Er zou dus een "vertaling" van spreek→schrijftaal moeten komen. Dat is iets dat nog niet kan, maar.......

Hieronder een voorbeeld van 2x 10 minuten debat met een kleine overlap tussen deel 1 en deel 2. Onder de herkende tekst staan de knoppen voor de player. De herekende woorden worden gehighlight tijdens het spelen (met dank aan Jan Willem Mulder).

{tab=Sybrand van Haersma Buma - Emile Roemer 1}

{tab=Sybrand van Haersma Buma - Emile Roemer 2}

Laatste aanpassing website: zondag 27 juli 2025, 14:23:54.

Copyright @2023 Arjan van Hessen