Spraakherkenning is met de komst van AI, DNN en Kaldi behoorlijk volwassen geworden en kan nu betrekkelijk eenvoudig daadwerkelijk worden ingezet. Hieronder twee zaken: een demonstratie en een verklarend wooordenlijstje.
Demonstratie van ASR
Hieronder staat (in een iframe) de herkenner van de UTwente. Deze is direct te benaderen via deze link, maar kan ook hieronder gebruikt worden.
Klik op start en begin te praten. Als alles goed gaat verschijnt de herkenning direct in het venster. je ziet soms de herkende tekst heen-en-weer schieten: dat is het realtime effect van de het taalmodel. De computer heeft iets herkend, maar als ie het volgende woord herkent, wordt met terugwerkende kracht het woord ervoor veranderd.
Klik op stop om de herkenning te stoppen en klik op clear om het herkenningsveld weer schoon te krijgen.
Je moet (soms, afhankelijk van de instelling van je computer) wel eerst toestemming geven om de microfoon te gebruiken. Als je dit gedaan hebt en spreekt, zie je rechts de amplitudemeter bewegen (groene streepjes: hoe luider hoe meer streepjes).
Deze herkenner is een demonstratieherkenner en er wordt (soms) aan geklooid of hij doet het gewoon even niet ?.
Voor meer info hierover: mail of bel mij (Arjan van Hessen).
Verklarend woordenlijstje
In de spraaktech wereld bestaan een aantal termen voor technologieen die redelijk vaak door elkaar gehaald worden.
Term | Uitleg |
Spraakherkenning | Wat wordt er gezegd. het proces om de menselijke spraak te herkennen en om te zetten in schrift. Dit wordt dikwijls ook speech-to-text genoemd. |
Sprekerherkenning | Wie zegt iets. Het is het herkennen van de spreker. Nu is het altijd de vraag in welke context? Is dit herkennen absoluut (dwz alle andere stemmen van de wereld komen als kandidaat in aanmerking), of relatief (wat wil zeggen ten opzichte van N stemmen in bv een database?) Een andere term die hier dikwijls voor gebruikt wordt is sprekeridentitficatie. |
Sprekerverificatie | Hoe zeker weet je dat deze stem van persoon A is? Iemand zegt ik ben Piet en hoe zeker is het algoritme dan dat dit inderdaad de stem van Piet is? Wordt vaak gebruikt voor veiligheidszaken (geldopnemen, toegangverlening, etc.). |
Spreker diarisatie | Het onderscheiden van stemmen binnen een opnamen. In een geluidsopnamen wordt automatisch aangegeven dat er en sprekerwisslling is. Is handig als je bij een interview automatisch wilt aangeven wie wanneer spreekt. Spreker diarisatie geeft niet aan wie er spreekt, maar wel dat er na tijd T een ander iemand spreekt dan er voor. Als je weet dat spreker X Piet is en spreker Y Marie, dan kun je dus wel alle momenten van spreker X vervangen door die van spreker Piet, maar deze identificatie wordt door mensen gedaan. |