BRS85 - Corpus Gesproken Nederlands

Achtergrond

cgn logo In 2004 was de officiele publicatie van het Corpus Gesproken Nederlands (CGN V1) en zo'n anderhalfjaar later (januari 2006) verscheen CGN V2. Het was voor zijn tijd een zeer vooruitstrevend corpus dat geholpen heeft met het ontwikkelen van de Nederlandstalige TST.

Het CGN-project was gericht op de aanleg van een databank van het hedendaags Nederlands zoals dat wordt gesproken door volwassenen in Nederland en Vlaanderen. Bij de start van het project werd een corpus beoogd met een omvang van circa tien miljoen woorden, waarvan twee derde afkomstig zou zijn uit Nederland, en een derde uit Vlaanderen. In totaal ging het daarbij om circa 1000 uur spraak. Het eindresultaat zoals beschikbaar in deze uitgave omvat ongeveer 9 miljoen woorden: zo'n 3,3 miljoen woorden daarvan zijn afkomstig uit Vlaanderen, ruim 5,6 miljoen woorden werden opgenomen in Nederland.

Het CGN wordt gevormd door een selectie van een groot aantal fragmenten van spraakopnames. Al het materiaal is orthografisch getranscribeerd, terwijl er tevens een oplijning plaatsvond waarbij de orthografische transcriptie gekoppeld werd aan het spraaksignaal. De orthografische transcriptie vormde het uitgangspunt voor de lemmatisering en de verrijking van het materiaal met woordsoortinformatie. Verder werd er voor een selectie van één miljoen woorden een brede fonetische transcriptie vervaardigd, kwam er een geverifieerde oplijning op woordniveau beschikbaar en werd het materiaal door middel van een syntactische analyse verrijkt.

In dit document gaan we in op de mogelijkheden om de spraakdata in het CGN te gebruiken voor wetenschappelijk onderzoek. Daarbij kan o.a. gebruik worden gemaakt van moderne spraaktechnologie. Spraakherkenning is tegenwoordig heel erg goed en als open source beschikbaar waardoor het eigenlijk voor niemand meer een probleem geeft om er ook zelf mee te werken.

Spraakherkenning

Sinds de herfst 2022 heeft OpenAI een spraakherkenner beschikbaar gesteld: Whisper. Het is herkenner waarmee ong 99 verschillende talen goed tot uitstekend herkend kunnen worden. En het Nederlands behoort tot de uitstekend herkende talen.
Het is bovendien mogelijk om de herkende spraak direct in het Engels te vertalen.

- Python

Whisper wordt beschikbaar gemaakt als een python-script waarmee je op je eigen computer makkelijk de herkenning kunt doen. Er zijn op Internet verschillende sites waarin wordt uitgelegd hoe je Whisper kunt installeren. Een goede site is Notta.

Vanwege het Open Source karakter zijn de laatste anderhalf jaar verschillende groepen over de gehele wereld bezig geweest met allerlei add-ons als Diarizatie en Voice Activity Detection (VAD) (WhisperX). Ook wordt er gewerkt aan het sneller maken van Whisper (Faster-Whisper, Insanely-Fast-Whisper).

- Software

Tenslotte zijn er natuurlijk ook mensen/groepen die zich richten op het maken van software pakketten om de spraak te herkennen. De resultaten kunnen verdeeld worden in software voor a) Windows machines en b) software voor Apple-machines.

Twee mooie voorbeelden zijn:

aTrain van de Universiteit van Graz
MacWhisper van Jordi Bruin

Beide programma’s werken goed, makkelijk en de resultaten zijn uitstekend. Een voordeel van aTrain is dat het ook de nieuwe ontwikkelingen zoals Diarizatie doet terwijl MacWhisper zich “slechts” richt op het herkennen van de spraak.

Gebruik

Het Corpus Gesproken Nederlands (CGN) is, zoals vermeld, een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica, frequentielijsten en de corpusexploratiesoftware Corex behoren ook tot het CGN. Het CGN is makkelijk te downloaden (nadat je bent ingelogd) via het Instituut voor de Nederlandse Taal.

Vraag

In het voorjaar van 2024 werd ik (Arjan van Hessen) benaderd door de Nederlandse Taalunie met de vraag of ik een aantal "spraak" opdrachten zou kunnen maken waarbij het CGN gebruikt wordt. Zeker gegeven de komst van Whisper, is dit een aansprekende opdracht en daarom ben ik erg benieuwd naar jullie input. Want ik heb jullie, als potentiele gebruikers, nodig om erachter te komen waar jullie precies op zitten te wachten.

Graag willen wij weten of er interesse is voor:

Tutorials over het gebruik van de spraakbestanden in het CGN voor wetenschappelijk onderzoek, bv naar taalvariatie, uitspraak, syntaxis, woordenschat, verschillen tussen Vlaams en Noord - Nederlands.
Tutorials en voorbeelden over de inzet van Whisper en Whisper-ontwikkelingen.
En wat nog meer?

Al jullie vragen en opmerkingen worden zeer gewaardeerd en kunnen gestuurd worden naar Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

Arjan