Debat Gemist is een Forced Alignment project dat we (=Telecats) doen voor de Dienst Verslaglegging en Registratie van de Tweede Kamer.
Het gaat als volgt: de mensen van de DVR schrijven de gesproken spraak van de politici in de plenaire sessies zo goed mogelijk uit waarbij ze herhalingen, grammaticale blunders en de ehs en ehm's niet opschrijven. De resultaterende tekst wordt aan de politici en, indien er een minister/staatssecretaris spreekt ook aan de ministeries. Men heeft dan ong 36 uur de tijd om de transcripties aan te passen. Daarna wordt de transcripties bevroren en worden ze opgeslagen. Ze staan dan bekend als "De Handelingen". De bevroren transcripties worden ook naar Telecats gestuurd. Daar zijn ondertussen ook de bijbehorende AV-bestanden gearriveerd. We halen de audio eruit en die wordt vervolgens automatisch opgelijnd met de handelingen.
De uitgeschreven tekst wordt dus aan de audio gekoppeld (op woord niveau). Vervolgens worden de opgelijnde teksten omgezet in ondertitels waarbij we proberen die zo mooi mogelijk te maken (semtrisch, gesplitst over max 2 regels en meer). Die ondertitels gaan vervolgens terug naar de plek waar de originele AV-bestanden staan en worden als ondertiel bijgevoegd.
Het resultaat is dat alle sessies in de grote zaal die ouder zijn dan zeg 2 dagen, er ondertitels zijn.
Een mooi voorbeeld stond op de site van de Tweede Kamer: een verhandeling van Geert Wilders over bommen, terrorisme en Islam. Wat opviel is dat de ondertitels en de daadwerkelijk gesproken spraak niet 100% gelijk is. Dat komt omdat de DVR zich het recht voorbehoud om daar waar zij dat verstandig acht, de tekst "mooier" te maken :-).