Het is al een tijd een grote wens om met Whisper ook de diarizatie van de verschillende sprekers te berekenen. En zo waar... dat lijkt nu te lukken! Afgelopen week mijn PC geupdate (dwz Whisper, WhisperX, en een aantal bijbehorende bibliotheken) vandaag eens gekeken of de beloofde diarizatie werkt. En ja, hij doet het.
Hieronder een voorbeeld. Het is een video uit de patiëntenzorg die we onderandere gebruiken bij ons HoMed-project. Ik heb aangegeven dat er minimaal 3 en maximaal 5 verschillende sprekers in voorkomen en nadat de herkenning klaar was elke afzonderlijke spreker vervangen door een kleurtje. Het bleken 3 sprekers te zijn die de kleuren #ffff80, #ff80ff en #80ffff kregen.
Maar, in de web-video werkt het helaas (nog) niet. En waarom niet? Gebruik je bij het afspelen de srt als ondertitelfile dan werkt het (soms) wel, maar als je de ondertitelfile omzet in vtt, dan (nog) niet.
Hier drie plaatjes van de drie sprekers met elk een eigen kleur.
Hier drie "plaatjes" van drie verschillende spreeksters. De "Apotheker" is paars, de "Patiënt" is geel en de "Arts"is groen. |
We gaan uitzoeken of we verschillende kleuren per spreker in de VTT-ondertitels kunnen laten zien. Een andere optie is om bij het begin van een nieuwe spreker zijn of haar naam tussen [] te zetten.
Kortom, de diarizatie lukt en nu nog uitzoeken hoe we dat gaan "visualiseren".
De video staat op de webiste en wordt afgespeeld met vtt als ondertitel-file. De kleur is standaard wit.
- Hoe schrijf je de spreker-informatie goed weg in de CXML-file die je maakt door de json-file (resultaat van de herkenning) in te lezen
- Hoe koppel je de sprekers die WhisperX vindt aan de sprekers die je in WhisperCorrector invoert.
- Hoe schrijf je de spreker-info weg in de SRT- en VTT-file