• Facebook
  • LinkedIn
  • Blogs
  • Inloggen
  • Home
  • Schrijfsels
    • Blogs
    • Populaire
    • Wetenschappelijk
    • Drenten
  • In de media
    • AV
    • Web
    • Krant
    • Lezingen
    • AV-Lezingen
    • Televisie
  • Werk
    • TST & AI
      • Spraakherkenning
      • AI
      • Whisper
      • Knowledge Navigator
      • Showcases
      • Subtitles
      • LIPS
      • NTU
      • UvN
      • Maastricht
      • Diplomaten
      • TTS
      • URaad
      • Preek
    • Affiliaties
      • UTwente
      • UU
      • Telecats
      • Vorige wergevers
    • Netwerken
      • NOTaS
      • CLST
      • Levende Herinneringen
    • Infrastructuur
      • CLARIAH
      • CLARIN-NL
      • CLARIN-EU
      • DARIAH
      • CHAT
      • LISTEN
      • Verteld Verleden
    • Projecten
      • Voltooid
        • TTNWW
        • Radio Oranje
        • Buchenwald
        • Bosnian Memories
        • Croatian Memories
      • Lopend
      • Demonstratie
        • Gemeenten
        • Oratie
        • Preek
        • Klimaatverandering
        • Café Weltschmerz
        • Debat Gemist
    • Programming
    • Software
    • Over mij
    • LOT 2023
      • Background
      • Course
      • Assignments
      • AV-files
  • Persoonlijk
    • Arjan
      • Arjan
      • Ouders
      • Zus & Broer
      • Neven & Nicht
      • Grootouders
    • Brigitte
      • Brigitte
      • Ouders
      • Broer & Zus
      • Nicht & Neef
      • Grootouders
      • Operatie
    • Drentsche Patrijshonden
      • Pepper
      • Moos
    • Huizen
      • Samen
        • Italië
        • Burg. Reiger (2010 - ...)
        • Steve Biko (2009 - 2010)
        • Baarnseweg (2007 - 2009)
        • Poortstraat (1994 - 2007)
      • Arjan
        • Poortstraat (1977 -1994)
        • Sweelincklaan (1972 -1977)
        • Soestdijkseweg (1965 -1972)
        • Biltzigt (1958 -1965)
      • Brigitte
        • Thijssenlaan (1985 - 1994)
        • Braamstraat (1981 - 1985)
        • Voorstraat (1980 -1981)
        • Hopakker (1980 -1980)
        • Kemperstraat (1979 -1979)
        • Verwerstraat (1968 - 1979)
        • Oude Raadhuisstraat (1961 - 1968)
        • Drostlaan (1960 - 1961)
    • Rolanda
      • Levensverhaal
      • Rolanda 85
      • Afnemende Gezondheid
      • Begrafenis
      • Foto's
        • 85 Jaar
        • Sta-op stoel
  • Interessant
    • Zipf's Law
    • Conversatie Regels
    • Toon PDF
  • Extra Activiteit
  • WebServices
    • LabelMaker
    • IetsAnders

blogs

  • TST & AI
    • Spraakherkenning
    • AI
    • Whisper
    • Knowledge Navigator
    • Showcases
    • Subtitles
    • LIPS
    • NTU
    • UvN
    • Maastricht
    • Diplomaten
    • TTS
    • URaad
    • Preek
  • Affiliaties
    • UTwente
    • UU
    • Telecats
    • Vorige wergevers
  • Netwerken
    • NOTaS
    • CLST
    • Levende Herinneringen
  • Infrastructuur
    • CLARIAH
    • CLARIN-NL
    • CLARIN-EU
    • DARIAH
    • CHAT
    • LISTEN
    • Verteld Verleden
  • Projecten
    • Voltooid
      • TTNWW
      • Radio Oranje
      • Buchenwald
      • Bosnian Memories
      • Croatian Memories
    • Lopend
    • Demonstratie
      • Gemeenten
      • Oratie
      • Preek
      • Klimaatverandering
      • Café Weltschmerz
      • Debat Gemist
  • Programming
  • Software
  • Over mij
  • LOT 2023
    • Background
    • Course
    • Assignments
    • AV-files

Whisper

https://seeklogo.com/images/O/open-ai-logo-560B8FFD24-seeklogo.com.png Herfst 2022 kwam er, na het een paar maanden daarvoor vrijgegeven Wav2Vec2 (van Facebook), weer een nieuwe spraakherkenner uit: Whisper. Deze software komt van het bedrijf OpenAI en is (opnieuw) een redelijke revolutie. Fout marges halveren (of beter) en de transcripties kun je behalve in de gesproken taal ook direct in het Engels krijgen.

Whisper is als Open Source beschikbaar, heeft 9 "modellen" beschikbaar en kan in principe door iedereen gebruikt worden, mits...
Je hebt wel enige programmeerkennis nodig en natuurlijk een redelijk snelle computer.

Whisper

Whisper wordt, zoals de auteurs het in het abstracht van hun paper schrijven, het best omschreven als:


Robuuste spraakherkenning via grootschalige zwakke supervisie

Alec Radford *1 Jong Wook Kim*1 Tao Xu1 Greg Brockman1 Christine McLeavey1 Ilya Sutskever1

* Equal contribution
1 OpenAI, San Francisco, CA 94110, USA

Abstract

We bestuderen de mogelijkheden om spraakverwerking systemen te trainen via eenvoudigweg grote hoeveelheden transcripties van audio op het internet. Wanneer geschaald naar 680.000 uur meertalig en multitask supervisie, generaliseren de resulterende modellen goed voor de standaard benchmarks en zijn ze vaak concurrerend met eerdere volledig gecontroleerde resultaten, maar dan in een zero-overdracht zonder de noodzaak van fijnafstemming.
In vergelijking met mensen benaderen de modellen hun nauwkeurigheid en robuustheid. Wij geven de modellen en inferentiecode om te gebruiken als als basis voor verder werk aan robuuste spraak verwerking.


whisperOverzicht van de werking van Whisper. Een sequentie-naar-sequentie Transformer-model wordt getraind op veel verschillende spraakverwerkingstaken, waaronder meertalige spraakherkenning, spraakvertaling, gesproken taalidentificatie en stemactiviteitdetectie.
Al deze taken worden gezamenlijk voorgesteld als een reeks tokens die door de decoder moeten worden voorspeld, waardoor één enkel model vele verschillende stadia van een traditionele spraakverwerkingspijplijn kan vervangen. Het multitask trainingsformaat gebruikt een reeks speciale tokens die dienen als taakspecificatoren of classificatiedoelen.

Modellen

OpenAI heeft 9 modellen beschibaar voor Whisper.

SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speed
tiny 39 M tiny.en tiny ~1 GB ~32x
base 74 M base.en base ~1 GB ~16x
small 244 M small.en small ~2 GB ~6x
medium 769 M medium.en medium ~5 GB ~2x
large 1550 M N/A large ~10 GB 1x

De voor mij belangrijke modellen zijn de 4 multi-lingual modellen. Ik heb op dit moment nog geen ervaring met het Large model, anders dan dat ik die niet op mijn GPU (grafische kaart) draaiend krijg. Bovendien is het medium model zo goed, dat er eigenlijk niets meer te wensen over blijft. :-)

 

 

 

SubtitleEdit

Hieronder een voorbeeld van het resultaat na gebruik van Whisper met de video van Pandora. Het is een video van ong. 3 min waarin een Nederlandse dame in correct maar niet-native Engels, een Brit aan de telefoon heeft. De herkenning en de vertaling zijn eigenlijk helemaal foutloos! Zowel de herkenning als de vertaling zijn gedaan met het Open Source programma SubtitleEdit.

whisperIn het programma SubtitleEdit kun je vanaf versie 3.6.10 de transcripties door spraakherkenning laten genereren. Eerst (in een oudere versie) kon dat met Kaldi en nu ook met Whisper. Voor de "Pandora herkenning" hebben we medium model (1.42 GB) gebruikt. Op dit moment is mij nog iet helemaal duidelijk wat de relatie tussen herkenning en model-grootte is, dus misschien zou het ongeveer net zo goed gaan met een kleiner (en sneller) model. Het is iets dat we gaan uitzoeken!

In SubtitleEdit kun je vervolgens de herkennigsresultaten (dwz de ondertiteling) laten vertalen in bv Nederlands. Dat wordt nu gedaan met GoogleTranslate.

Het enige dat nog niet helemaal goed gaat is de "tijd" waarop de verschillende ondertitels getoond worden. Soms begint het transcript bv. te vroeg, of loopt het juist te lang door. Ook worden sommige transcripties soms herhaald. 

Hoe dan ook: de tijd-zetting van de transcripties kan in ieder geval sterk verbeterd worden door Forced Alignment.
In de volgende tab gaan we daar verder op in.

 

 

 

 

Pandora video met NL-ondertiteling

Zelf Whisperen

In de tweede tab (SubtitleEdit) heb ik een Engelstalige video herkend en het resultaat automatisch vertaald naar het Nederlands. Dit werd allebei gedaan in versie 3.6.11 van SubtitleEdit en het  werkt als een tierelier! Maar... het is uiteindelijk de bedoeling om Whisper (en een paar bijkomende tools) echt zelf te draaien op mijn eigen computer. Na een in eerste instantie vruchtloze poging is het begin februari 2023 gelukt om Whisper en WhisperX te installeren en daarmee een herkenning en vervolgens een (soort) Forced Alignment (FA) te doen!

Ik heb die herkenning gedaan met een video van de NTU. Dit is een 100 sec durende video waarin door verschillende Nederlandse en Vlaamse sprekers iets over het Nederlands gezegd wordt. Met één regel kun je de computer dan de video laten transcriberen waarna hij (?) vervolgens een Forced Aligment op de transcriptie toepast. Het resuultaat staat hieronder. Op een paar kleinigheden na, is het resultaat helemaal goed.

De WhisperX "toverregel" was:

whisperx Het_Nederlands_en_de_Taalunie.mp4 --model medium --output_dir . --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --align_extend 2

Ik had echter vergeten om de taal op te geven (--language Dutch), maar whisper was slim genoeg om dat zelf te doen op grond van de eerste 30 sec spraak.

De resultaten die dit oplevert zijn een text-file, srt- en vtt-file, srt-word-file die ieder woord apart laat zien (incl de start en eind tijd, een soort cmt-file) en nog wat files.

 

Meer Whisper

Schermafbeelding 2023 03 20 om 21.47.47Ondertussen is het (eindelijk) gelukt om Whisper ook op mijn Macbook Pro aan de praat te krijgen hoewel het mij nog niet precies duidelijk is wat er eerst verkeerd ging. En naast Whisper, kan ik nu ook WisperX draaien. Helaas niet met het gebruik van cuda (=GPU) zodat het op mijn Laptop een factor 10 langzamer werkt dan op de windows machine.

Verder, wat ook werkt is het gebruik van MacWhisper: een Mac-tools die de CPP-versie van Whisper gebruikt en uiteraard ook uitstekend resultaat geeft. Net als met SubtitleEdit, geef je in MacWhisper de file op en kiest taal en model. Dan klik je op Run en gaat wachten tot ie klaar is. Is dat zo, dan sla je de resultaten op als srt-, vtt- txt- of een ander formaat resultaat.

Er valt nog wel wat op MacWhisper aan te merken, maar het doet uitstekend wat het moet doen en daar gaat het om. De gratis versie doet het met de 3 kleinere modellen (tiny, base of small) en voor het gebruik met medium of large moet je eenmalig €15 betalen. Lijkt mij zeer de moeite waard omdat het medium model het toch echt beter doet dan de 3 kleinere modellen.

  • Laatste aanpassing website: donderdag 30 maart 2023, 08:30:40.