brs85T

Afgeronde projecten

Hieronder een niet volledige opsomming van projecten waar ik de afgelopen jaren on meer of mindere mate aan meegewerkt heb. Het is een mix van wetenschappelijk en organisatorische projecten.

datumnaamomschrijving
     
2018 logo vlaams parlement Spraakherkenning voor het Vlaams Parlement. Op verzoek van het Vlaams Parlement meegedaan met een soort wedstrijd om te laten zien hoe goed huidige Spraakherkenning is en of het goed genoeg is om in het Vlaams Parlement te worden toegepast. Samenwerking van 2 NL-partners (Telecats en Radboud Universiteit) en 3 Vlaamse partners (KULeuven, UGent, MyForce). Uitslag komt medio juni 2018. Zie blog.
     
2018 Logo 112 112-Corpus. Op verzoek van de Nederlandse Politie wordt een corpus aangelegd waarmee software ontwikkeld kan worden om van Spraak®Informatie te gaan. De NL-politie wil meer data-gestuurd gaan werken en wil onderzoeken in hoeverre Taal- en Spraaktechnologie gebruikt kan worden om de 112-centralisten te ondersteunen in hun werk. 
     
2016 - 2018 ohtc Oral History Transcription Chain. In het kader van het CLARIN ERIC programma Workshop for Proposal, werden in 2016 en 2017 twee workshops georganiseerd (Utrecht en Arezzo) die tot doel hadden om tot een proposal te komen om een Transcription Chain te maken voor Oral History onderzoekers binnen de CLARIN-community. De aanvraag voor de workshops werd gehonoreerd en het proposal werd aangeboden. Indien gehonoreerd, wordt de Transcription Chain in 2017 gerealiseerd. Doel van de Chain is OH onderzoekers in staat te stellen om hun AV-materiaal zelf door een geschikte ASR-engine te halen om zo automatisch tot een ruwe transcriptie te komen. Deze ruwe transcripties kunen vervolgens binnen dezelfde Chain gecorrigeerd worden. Uitgebreide info staat op de website van Oral History and Technology. De aanvraag voor de workshops en het proposal werd gedaan door de UTwente, de Radboud Universiteit en de Universiteit van Siena.
     
2017 - 2018 logo tweede kamer Spreek2Schrijf. Telecats heeft samen met het CLST van de Radboud Universiteit van de DVR van de Tweede Kamer de opdracht gekregen uit te zoeken in hoeverre een "vertaal tool" gemaakt kan worden die gesproken spraak kan omzetten in geschreven spraak. De gesproken spraak is het resultaat van de met ASR herkende spraak in de plenaire zaal van de Tweede Kamer, de gesproken spraak zijn de Handelingen zoals gemaakt door de DVR. Het project loopt van begin tot eind 2017.
     
2017 - 2018 logo fiod FIODspraak (2016-2018). Een project van de UTwente, Telecats en de FIOD om Taal en Spraaktechnologie in te zetten voor een betere en efficientere wijze van verslaglegging van verhoren. De huidige praktijk van verhoren waarbij 2 onderzoeksbeambten getuigen en experts verhoren is niet meer van deze tijd. Een beambte stelt de vragen en de ander noteert de vraag en de gegeven antwoorden. Echter, bij het opschrijven wordt veel informatie gemist en bovendien wordt dikwijls de "vertel mode" van de verdachte onderbroken. Het integraal opnemen van alles en het door de herkenner halen van alle spraak moet zowel de efficientie als de kwaliteit van de verhoren verhogen. Het project zal in 2018 afgerond worden. Naat de FIOD zijn ook de Landelijke Politie, het NFI, de KMar en de IND al geinteresseerde partijen betrokken. Het project wordt gefinancierd door het NCTV.
     
2016 sn Sprekend Nederland. Groot samenwerkingsproject van Nederlandse Universiteiten en de NTR om de huidige stand van het Nederlands in kaart te brengen. Via een app werden duizenden spraakopnamen gemaakt van Nederlanders van verschillende herkomst, leeftijd, opleiding en geslacht uit verschillende delen van het land. Het project werd afgesloten met een TV-avond door de NTR.
Op dit moment is er een KIEM-aanvraag gehonoreerd waarin verder onderzoek gedaan wordt naar verschillende facetten van de opnamen. Alle opnamen zijn dmv spraakherkenning doorzoekbaar gemaakt.
     
2014 LISTEN logo LISTEN: een net-niet gehonoreerd proposal voor de NWO-groot call van 2014. Na de niet-honorering van het INTERVIEW-project werd geprobeerd de een kleinere versie via een NWO-groot call te realiseren. Het project was bedoeld om een Nederlandse infrastructuur voor Oral History op te zetten.
Hoewel het project een sitevisit kreeg en goed gewaardeerd werd, werd voor de Geesteswetenschappen de voorkeur aan het GoldenAgents-project gegeven.
     
2014 taalcanon Het hoofdstuk "Spraakherkenning" geschreven voor de Nederlandse Taalcanon. De Nederlandse Taalcanon kreeg in 2014 de LOT-Populariseringsprijs omdat het volgens de jury bij uitstek de taalwetenschap populariseert: niet alleen een aardig verhaal voor leken, maar een vlootschouw die de potentie heeft om daadwerkelijk blijvende belangstelling voor het vakgebied te wekken.’
     
2014 - 2015 Horizon2020 logo InterViews. Project proposal voor de H2020-EINFRA call (2014-2015) Interview was een project op het gebied van Oral History dat poogde techniek, methodologie, opslag, virtual research environment en onderzoek samen te brengen. Het project werd met 14.5 punten goed gehonoreerd maar haalde het net niet.
     
2014 - 2018 logo tweede kamer Ondertiteling van de Plenaire Vergaderingen van de Tweede Kamer (2014 -  nu). Op verzoek van de Dienst Verslaglegging en Registratie (DVR) van het Nederlandse Parlement werd een ondertitelingsstraat gemaakt waarbij mbv Foreced Alignment de Handelingen automatisch in ondertitels voor Debat Gemist werden omgezet. De service gebruikt automatisch spraakherkenning om de door de DVR gemaakte teksten met de AV-opname van de zittiingen op te lijnen.
     
2011 - 2015 logo kamp amersfoort Kamp Amersfoort. Naar aanleiding van het Getuigenverhalen-project vroeg Kamp Amersfoort in 2011 om hulp bij het transcriberen van de meer dan 100 interviews  met oud-gevangenen van het voormalige Kamp Amersfoort. Het project wordt in 2017 opgeleverd: 100 mbv spraakherkenning getranscribeerde interviews (> 150 uur). De collectie wordt bij DANS opgeslagen.
     
2011 logo bihme Bosnian Memories: In 2010 werd een kopie van het CroMe-project opgezet in Bosnie; ditmaal betaald door de Nederlandse Ambassade in Bosnie. Het ging hier om 100 interviews, waarvan er 99 gerealiseerd werden. Het BiHMe-project door de UTwente in samenwerking met het Center for Investigative Reporting (CIN) en de University of Sarajevo – Human Right Center uitgevoerd.
     
2010  logo politie In 2010 werd na 5 jaar vooronderzoek en testen de spraakherkenning voor het Politienummer 8844 geinstaleerd. Het onderzoek naar de spraakherkenning werd door de UTwente in samenwerking met Telecats gedaan. De grootste uitdaging was niet de spraakherkenning als zodanig maar vooral het overtuigen van het management van de politie van het feit dat de slogan "Politiewerk is Mensenwerk" hier geen geweld mee werd aangedaan.
     
2009 - 2011  crome logo bw ENGL2 Croatian Memories: In 2009 werd de MATRA-aanvraag door Buitenlandsezaken gehonoreerd. Doel van het project was om middels 600 interviews zowel een evenwichtig beeld te krijgen van de mate waarin de verschillende bevolkingsgroepn in Kroatie hadden geleden in de afscheidingsoorlog als om middels deze interviews een proces van reconsiliation" op gang te bregen. Alle, uiteindelijk "slechts" 400 gemaakte interviews werden getranscribeerd, vertaald in het Engels, gemetadateerd. Het CroMe-project, uitgevoerd door de UTwente en Documenta, kan wordengezien als een van de eerste grote OH-projecten in het nieuwe Kroatie.
     
2009-2010 NEON Nederlandse Ondertiteling: met spraakherkenning ondersteunen van het TV-ondertiteling
     
2009 Anne Frank Het oplijnen van het dakboek van Anne Frank (tekst) met de voorgelezen spraak (Carice van Houten)
     
2008-2010 1835+1 Door in het caisson van het Watersnoodmuseum in Zeeland de naam van een tijdens de watersnood van 1953 omgekomen persoon hardop uit te spreken, wordt door de computer een korte gesproken biografie voorgelezen.
     
2008-2009  logo raad voor de rechtspraak RechtSpraakHerkenning: op verzoek van de Raad van de Rechtspraak werd in het kader van het Stevin-programma (2009) door Telecats het project RechtSpraakHerkenning uitgevoerd ism de Rechtbank Almelo. Doel was te onderzoeken in hoeverre ASR ingezet kon worden om het werk van de Griffier te verbeteren en te verlichten. Het project is geslaagd maar ded spraakherkenning werd niet ingezet omdat de wet het niet toestaat "zomaar" opnamen te maken in de rechtzaal. Dit was vooraf bekend en het project was dan ook vooral bedoeld om te zien in hoeverre het zou kunnen.
     
2005-2011 Stevin Vlaams-Nederlands TST wetenschappelijk programma om de Nederlandstalige TST te ontwikkelen.
     
2005-2006 Aletta Oplijnen van 11 interviews met feministen over de vrouwelijke hulpverlening begin jaren 70.
     
2004-2008 CHoral  
     
2004-2009 AMI-AMIDA  
     
2004-2005 Buchenwald Het ontsluiten van 39 interviews met oud-gevangenen van concentratiekamp Buchenwald mbv spraakherkenning.
     
2002 Radio Oranje Het oplijnen van de toespraken van Koningin Wilhelmina voor Radio Oranje (1940-1945)
     
2000 Waterland  
     
1999-2003 SAFIR  
     
1999-2010 TWentse News Corpus Verzamelen van tekstmateriaal voor het trainen van het taalmodel voor de Twentse Spraakherkenner
     
1998-2001 ECHO European CHronicle Online: Europees project dat met spraakherkenning de radio/TV uitzendingen (1920-1960) wilde herkennen.
     
1997-2001 DRUIDE Nederlands Spraakherkenningproject aan de UTwente (promotie Roeland Ordelmans)