BRS85 - Een nieuwe ASR-tool: aTrain

atrain Eind maart schreef ik samen met een groep ASR-collega’s aan de update van ons artikel voor de LREC-COLING workshop over "Holocaust Testimonies as Language Resources". Het was opgestuurd en nu moesten we de opmerkingen van een aantal reviewers verwerken.

Het stuk gaat grofweg over de komst van Whisper en een rij gerelateerde componenten zoals WhisperX en Fast-Whisper, waarmee je steeds beter, rijker en sneller de spraakherkenning kunt doen. Nu was Whisper een jaar geleden al een soort mirakel, maar zeker sinds het volwassen worden van de gerelateerde componenten, wordt dit alleen maar beter.

Een van de reviewers merkte op dat hij bij de opsomming van standalone software (dwz software waarmee je de spraakherkenning kunt uitvoeren zonder allerlei Python scripts te draaien), een nieuw programma uit Oostenrijk miste: aTrain. Direct gekeken wat het was en het is een spraakherkenner die gewoon via de Microsoft-winkel gratis te downloaden is.

Gedownload (>10GB dus duurt even) , geïnstalleerd en gedraaid! En ja hoor: opnieuw een feestje om het te gebruiken. Voor Apple is er al een tijdje MacWhisper: een standalone pakket waarmee je op een moderne Apple gewoon Whisper kunt draaien. Voor Windows kon je SubtitleEdit gebruiken, maar dat is eigenlijk veel meer dan een “simpele” spraakherkenner. En nu is er dan aTrain: een met MacWhisper vergelijkbaar software pakket dat op Windows en Linux draait.

Het verschil met MacWhisper is echter dat aTrain veel beter de moderne varianten/add-ons van Whisper gebruikt. MacWhisper is een CPP-implementatie van Whisper zoals OpenAI die 1.5 jaar geleden leverde. Maar aTrain is nieuwer en kan bv diarizatie doen, en is veel sneller dan de originele Whisper doordat het Fast-Whisper gebruikt.

Na downloaden van aTrain vraagt de software of je het wilt installeren. Kies ja en wacht ong 10 min. Daarna heb je de moderne spraakherkenner beschikbaar.

aTrain1

Fig. 1: beginscherm van aTrain (V1.1.0)

Beschrijving

aTrain is een zelf-installerende en ingekapselde tool voor het automatisch transcriberen van spraakopnames met behulp van state-of-the-art machine learning modellen. Je download de modellen eenmaal en kunt ze vervolgens gewoon steeds gebruiken.

Voordeel van de software is dat het gewoon op je eigen PC/Laptop draait en dat geen verbinding met Internet nodig is. Vooral voor hen die vertrouwelijk data hebben, is dat een groot voordeel omdat je hiermee zo goed mogelijk de vertrouwelijkheid van de data kunt garanderen.
aTrain is ontwikkeld door onderzoekers van het Business Analytics and Data Science-Center van de Universiteit van Gräz en getest door onderzoekers van het Know-Center Graz.

Meer valt te lezen in het originele paper:

Haberl, A., Fleiß, J., Kowald, D., & Thalmann, S. (2024). Take the aTrain. Introducing an interface for the Accessible Transcription of Interviews. Journal of Behavioral and Experimental Finance, 41, 100891.

Wat wordt geboden?

aTrain biedt de volgende voordelen:

Snel en nauwkeurig
aTrain biedt een gebruiksvriendelijke toegang tot de snellere Whisper implementatie van OpenAI’s Whisper model, wat zorgt voor de beste transcriptiekwaliteit in combinatie met hogere snelheden op je lokale computer. Transcriptie met het hoogste kwaliteitsmodel (large, V2 of V3) duurt "slechts" drie keer zo lang als de audiolengte van de opnamen als je de CPU gebruikt.
Sprekerdetectie
aTrain heeft een sprekerdetectiemodus en kan van elk segment bepalen bij welke spreker het hoort.
Bescherming van privacy en GDPR
het verwerkt de geleverde spraakopnames volledig offline op je eigen apparaat en verstuurt geen opnames of transcripties naar het internet. Dit helpt onderzoekers om de privacy-eisen voor gegevens te handhaven die voortvloeien uit ethische richtlijnen en om te voldoen aan wettelijke vereisten zoals de GDPR.
NVIDIA GPU ondersteuning
aTrain kan zowel op de CPU als op een NVIDIA GPU draaien (CUDA toolkit installatie vereist). Een NVIDIA GPU met CUDA verbetert de snelheid van transcripties en de sprekerherkenning aanzienlijk, waardoor de transcriptietijd wordt teruggebracht tot 20% van de audiolengte.
Ondersteuning voor meerdere talen
aTrain kan, net als natuurlijk Whisper, spraakopnames verwerken in de volgende talen: Afrikaans, Arabisch, Armeens, Azerbeidzjaans, Wit-Russisch, Bosnisch, Bulgaars, Catalaans, Chinees, Kroatisch, Tsjechisch, Deens, Nederlands, Engels, Ests, Fins, Frans, Galicisch, Duits, Grieks, Hebreeuws, Hindi, Hongaars, IJslands, Indonesisch, Italiaans, Japans, Kannada, Kazachs, Koreaans, Lets, Litouws, Macedonisch, Maleis, Marathi, Maori, Nepalees, Noors, Perzisch, Pools, Portugees, Roemeens, Russisch, Servisch, Slowaaks, Sloveens, Spaans, Swahili, Zweeds, Tagalog, Tamil, Thai, Turks, Oekraïens, Urdu, Vietnamees en Welsh.
Uitvoer compatibel met MAXQDA en ATLAS.ti
het levert transcriptiebestanden die naadloos geïmporteerd kunnen worden in de populairste tools voor kwalitatieve analyse: ATLAS.ti en MAXQDA. Hierdoor kun je direct audio afspelen voor het corresponderende tekstsegment door op de tijdstempel te klikken.

aTrain2

Running aTrain

Om aTrain te draaien, kies je een AV-file (video of audio), selecteert het te gebruiken model, kiest de gesproken taal en geeft eventueel aan of je sprekers wilt herkennen en zo ja hoeveel verschillende sprekers er dan zijn. Dan klik je start en wacht even. Op mijn PC (i9, Nvidia card) duurt dat iets minder dan 20% van de opname duur.

De resultaten worden vervolgens opgeslagen in een speciale directory.

In die directory staan de volgende files:

metadata.txt	de metadata van de herkenning (taal, model, audio-duur, etc.
transcription.json	een volledig resultaat van de herkenning
transcription.srt	de standaard subtitels
transcription.txt	de herkende tekst met de spreker
transcription_timespans.txt	de herkende tekst met sprekers maar dan ook voorzien van de begintijd van elk fragment
transcription_maxqda.txt	de versie die in MaxQDA ingelezen kan worden.

Conclusie

Zoals het er nu uitziet, werkt aTrain uitstekend en kan het door iedereen op z’n eigen (moderne) Windows machine gebruikt worden. Zeker de toevoeging van diarizatie (spreker detectie) maakt het voorlopig een betere keuze dan MacWhisper.

Download

aTrain kan gedownload worden (>10GB) in de Microsoft store: https://apps.microsoft.com/detail/9n15q44szns2

Waarom geen WeTransfer meer

Weer in Italië

Het einde nabij

Misschien word ik nog een paar jaar buschauffeur

Je klinkt nogal boos vandaag, wat is er?

EMLAR 2024

Een nieuwe ASR-tool: aTrain

Symposium Gezond Gefokt (UU)

Diarizatie werkt!

GPT-5 komt eraan!

Hoe werken grote taalmodellen in AI?

Whisper, a new ASR engine

EHRI - CLARIN Workshop Londen

Whisper

Waarom een Drentsche Patrijshond?