BRS85 - Gemeenten zien nut ondertitels bij raadsvergadering niet

Artikel verscheen oorspronkelijk 8 oktober 2019 op Binnenlands Bestuur Digitaal

Een redelijke ondertiteling kan geautomatiseerd worden gegenereerd. Dat het nog niet veel gebeurt bij raadsvergaderingen, komt doordat gemeenten het gemak, het nut en de noodzaak ervan niet inzien, zegt Arjan van Hessen, onderzoeker taal- en spraaktechnologie bij de Universiteit Twente.

Niet toegankelijk

Online live uitzendingen van gemeenteraadsvergaderingen en commissievergaderingen zijn relatief makkelijk te ondertitelen met behulp van spraakherkenningssoftware. Het gebeurt al in Amsterdam en Capelle aan de IJssel. Ook Den Haag wil nog dit jaar beginnen met geautomatiseerde live ondertiteling. De meeste gemeenten ondertitelen hun uitzendingen echter niet, ook niet achteraf. Live audio en video hoeft volgens de toegankelijkheidsrichtlijnen niet toegankelijk worden gemaakt, maar niet-live geluid en beeld wel. Ook over het algemeen is het slecht gesteld is met de toegankelijkheid van veel overheidswebsites.

Beter verstaan en zoeken

Arjan van Hessen is onderzoeker op het gebied van taal- en spraaktechnologie aan de Universiteit Twente. Hij vermoedt dat voor veel gemeenten de noodzaak ontbreekt om ondertiteling te verzorgen. ‘In het kader van het inclusieve zouden ze dat gewoon moeten doen. Niet iedereen is goed in het verstaan van het Nederlands. Een vorm van imperfecte ondertiteling kan dan helpen.’

Doorzoekbare tekst

Ondertiteling geeft ook de mogelijkheid om debatten te volgen zonder dat het geluid hoeft aan te staan. Een ander voordeel is dat de tekst doorzoekbaar is. Van Hessen: ‘Niemand gaat een gemeenteraadsvergadering van zes uur zitten naluisteren, maar je wil misschien wel weten wat er is gezegd over drugsoverlast in het Wilhelminapark. Die fragmenten kun je opvragen. Niet alleen van de vergadering van afgelopen woensdag, maar van het hele jaar als je wil.’

Contextafhankelijk

Live spraakherkenning is altijd iets minder goed dan automatische ondertiteling achteraf. Dat komt door de manier waarop de software werkt. Geluid uit een audiobestand wordt door de computer omgezet in Nederlandse klanken. Van die klanken probeert het vervolgens woorden te maken. Dat is een zoekproces, want mensen praten onduidelijk en slikken soms woorden in. De software vindt een aantal mogelijke woorden en bepaalt op basis van een statistisch taalmodel welke woorden het zouden kunnen zijn. De zin 'de man stapt in zijn…' zullen de meeste mensen aanvullen met 'auto', maar in sommige contexten is 'schoenen' een logischere keuze. ‘Hoe langer de zoekzinnen, hoe meer geheugen je nodig hebt,’ legt Van Hessen uit. ‘Real time spraakverkenners hebben geheugen voor drie woorden achter elkaar. Als je meer tijd hebt om te rekenen, kun je langere reeksen woorden gebruiken.’

Eigen taalmodel

In de gemeenteraad van Utrecht komen andere onderwerpen aan de orde dan in die van Hengelo. Utrecht heeft dus spraaksoftware nodig die 'Tivoli-Vredenburg' herkent, Hengelo heeft meer aan 'Lambertuskermis'. ‘Het werkt altijd beter als je een toepassing leert waar het over gaat,’ zegt Van Hessen. ‘Daarvoor kun je het algemene Nederlandse taalmodel aanvullen met teksten van de gemeenteraad van de afgelopen tien jaar. Die laad je in en dan ga je de kans berekenen dat bepaalde nieuwe woorden zullen voorkomen in de vergaderingen. Ten slotte moet de computer nog leren hoe ze klinken.’

Niet foutloos

Foutloos worden de ondertitels nooit, benadrukt hij. Zeker met namen heeft spraaksoftware moeite. Ook hoofdletters en komma’s ontbreken. Sprekers herkennen is wel mogelijk. Van iedere spreker kan met ongeveer vijf minuten spraak een eigen akoestisch model gemaakt worden. Maar in moderne vergaderomgevingen heeft iedere spreker zijn eigen microfoon en is het maken van een akoestisch model niet eens nodig. Het is dan wel noodzakelijk dat de de bewerking wordt gedaan voordat alle kanalen worden samengevoegd.