• Schrijfsels
    • Blogs
    • Populaire
    • Wetenschappelijk
    • Drenten
  • In de media
    • AV
    • Web
    • Krant
    • Lezingen
    • AV-Lezingen
    • Televisie
  • Werk
    • TST & AI
      • Spraakherkenning
      • AI
      • Whisper
      • Knowledge Navigator
      • Showcases
      • LIPS
      • UvN
      • Maastricht
      • Diplomaten
      • TTS
      • URaad
      • Preek
    • Affiliaties
      • UTwente
      • UU
      • Telecats
      • Vorige wergevers
    • Netwerken
      • NOTaS
      • CLST
      • Levende Herinneringen
      • SOS
    • Infrastructuur
      • CLARIAH
      • CLARIN-NL
      • CLARIN-EU
      • DARIAH
      • CHAT
      • LISTEN
      • Verteld Verleden
    • Projecten
      • Voltooid
        • TTNWW
        • Radio Oranje
        • Buchenwald
        • Bosnian Memories
        • Croatian Memories
      • Lopend
        • OH-Smart
        • Corpus Gesproken Nederlands
      • Demonstratie
        • Gemeenten
        • Oratie
        • Preek
        • Klimaatverandering
        • Café Weltschmerz
        • Debat Gemist
    • Programming
    • Software
    • Over mij
    • LOT 2023
      • Background
      • Course
    • NTU
    • Workshop(s)
  • Persoonlijk
    • Arjan
      • Arjan
      • Ouders
      • Zus & Broer
      • Neven & Nicht
      • Grootouders
      • Foto's
    • Brigitte
      • Operatie
    • Drentsche Patrijshonden
      • Pepper
      • Moos
    • Huizen
      • Samen
        • Italië
        • Burg. Reiger (2010 - ...)
        • Steve Biko (2009 - 2010)
        • Baarnseweg (2007 - 2009)
        • Poortstraat (1994 - 2007)
      • Arjan
        • Poortstraat (1977 -1994)
        • Sweelincklaan (1972 -1977)
        • Soestdijkseweg (1965 -1972)
        • Biltzigt (1958 -1965)
      • Brigitte
        • Thijssenlaan (1985 - 1994)
        • Braamstraat (1981 - 1985)
        • Voorstraat (1980 -1981)
        • Hopakker (1980 -1980)
        • Kemperstraat (1979 -1979)
        • Verwerstraat (1968 - 1979)
        • Oude Raadhuisstraat (1961 - 1968)
        • Drostlaan (1960 - 1961)
    • Rolanda
      • Levensverhaal
      • Rolanda 85
      • Afnemende Gezondheid
      • Begrafenis
      • Foto's
        • 85 Jaar
        • Sta-op stoel
  • Interessant
    • Zipf's Law
    • Conversatie Regels
    • Toon PDF
  • Extra Activiteit

blogs

  • Blogs
  • Populaire
  • Wetenschappelijk
  • Drenten

From Chat to Voice

Een overzicht van de ontwikkelingen op het gebied van chat en spraaktechnologie ofwel voice-bots en gewone bots.
Het artikel is in zowel het Nederlands als het Engels en heeft de bedoeling om goed uit te leggen wat elk is en wat de verschillen ertussen zijn.

Van Chat naar Spraak. Is dit mogelijk en zo ja, hoe?

Spraak

Zo'n ±40 jaar geleden was er iets nieuws op de telefoniemarkt: IVR. Door het indrukken van een of meer van de 12 toetsen op een telefoon was het mogelijk om een vraag te beantwoorden die door "de telefoon" werd gesteld. U kunt denken aan "voor de afdeling Inkoop druk 1, voor de afdeling Verkoop druk 2". Het werd een groot succes en honderden bedrijven over de hele wereld boden dit soort "automatische dialogen" aan. Natuurlijk was de keuze van de input beperkt, je kon niet meer dan ±6 verschillende opties per vraag aanbieden en niet meer dan 3 of 4 lagen diep. Bovendien was de flexibiliteit van deze systemen beperkt en kostte het veel tijd (en geld) om ze te veranderen.
Maar toch... het werd een groot succes en het wordt nog steeds in veel diensten gebruikt. In het begin van de jaren negentig kwam spraakherkenning beschikbaar voor het Engels (Amerika en Engeland), een paar jaar later gevolgd door het Frans, Duits en Nederlands voor commerciële doeleinden.

Natuurlijk waren de eerste dialogen eigenlijk een soort IVR met spraak, maar toen de technologie rijper werd, werden de gesproken dialogen dat ook. En toen "slot-filling" het mogelijk maakte meerdere slots tegelijk te vullen (b.v. "morgenvroeg" "van Utrecht" "naar Enschede") begonnen pionierende bedrijven de waarde van Spraakherkenning in te zien en stapten (langzaam) over van IVR naar ASR.
Aan het begin van de 21ste eeuw werd spraakherkenning meer en meer aanvaard en begon ASR de dominante rol van IVR in de wereld over te nemen.

In de loop der jaren werd de spraakherkenning niet alleen beter (minder herkenningsfouten) maar ook slimmer (meer woorden). In plaats van een door de systeemontwikkelaars opgestelde "grammatica" maakte LVCRS (Large Vocabulary Continuous Speech Recognition) de weg vrij voor "zeg wat je wilt zeggen, wij zullen het herkennen". Met LVCRS konden mensen "gewoon" spreken en moest een slimme NLP-eenheid (Natural Language Processing) de betekenis van de boodschap uit de herkende spraak halen.

Toen AI beschikbaar kwam voor commercieel gebruik (±2010), veranderde er veel! DNN's (Deep Neural Networks) voor spraakherkenning (Microsoft, 2014) hebben de WER (Word Error Rate) in de daaropvolgende 5 jaar drastisch verminderd. Vandaag is het voor duidelijk gesproken Amerikaans-Engels (en Chinees) op het niveau van de mens. En toch... wij mensen doen het bijna altijd beter dan machines in echte situaties. Maar waarom?

Tekst

In de late jaren '90 en vroege jaren '00 kwamen chatdiensten op. Mensen konden geschreven berichten met elkaar uitwisselen in min of meer real time via Messenger of andere diensten. In het begin was het iets dat vooral door kinderen werd gebruikt, maar al snel zagen oudere mensen er het nut van in en werd het langzaamaan heel groot. Maar... het was, zeker de eerste jaren, vooral een manier van mens-mens communicatie: je schreef je vriendin een bericht, zij las het en stuurde een antwoord.
Maar al snel kwamen er vragen over self-services: konden die geschreven berichten nu niet (deels) geautomatiseerd worden? En zo, beetje bij beetje, kwamen er geautomatiseerde tekstdiensten beschikbaar. Je kon een vraag intypen, die vervolgens (half)automatisch werd beantwoord. En ook hier deed AI zijn intrede en werden de dialogen steeds "menselijker" en soms is het moeilijk te zien of een mens of een machine je vragen beantwoordt.

Zowel gesproken als geschreven dialogen doorstaan de Turingtest meestal nog niet, maar ze worden steeds beter en kunnen al met succes worden gebruikt.

Taal en Spraak

Aanvankelijk lagen de soorten gesproken en geschreven dialogen vrij ver uit elkaar, maar naarmate de technologie verbeterde en vooral na de komst van DNN's voor zowel sterk verbeterde spraakherkenning als NLP, zijn chat- en spraakbots redelijk in opkomst. Je ziet ze steeds meer bij bedrijven, overheid en andere organisaties. En, soms verrassend, acteren ze ook nog redelijk tot zeer goed.
De populariteit zet je aan het denken om ze te combineren. Je besteedt immers veel tijd aan het opzetten van een goede chatbot, dus waarom zou je die niet ook toegankelijk maken voor spraak?

Tot ±5 jaar geleden was dit niet aan te raden. De geschreven chatbot en de gesproken voicebot verschilden in opzet en bedienden ook een (iets) andere doelgroep. De gesproken versie was meer gericht op de spreker: wat kon een organisatie voor hem of haar betekenen, of wat moest hij of zij doen om iets te bereiken. De schriftelijke vorm was duidelijk afstandelijker en ging meer over informatie over de organisatie, over wat ze deden en wie ze waren. Maar dat laatste veranderde met de komst van chatbots. De meer formele manier werd vaak vervangen door een informele manier, de toon van de stem veranderde en het scala van dingen die je kon afhandelen werd breder.

Men zag duidelijk dat chat en voice naar elkaar toe groeiden, waardoor integratie op de achtergrond voor de hand lag. En toen ging het snel. Nu vragen steeds meer bedrijven of hun bestaande chatbot(s) ook voor voice gebruikt kunnen worden. En meestal is het antwoord: ja, mits... Want natuurlijk: er is nog steeds een verschil tussen die twee, al is dat een stuk minder dan 5 jaar geleden.

Combinatie van spraak en chat

Het verschil tussen de twee is duidelijk: ASR om van spraak naar tekst te gaan en TTS om van tekst terug naar spraak te gaan. Beide technieken worden snel beter en beter en vooral met de TTS is er niet veel aan de hand: de gesproken tekst zou misschien iets beter kunnen, iets natuurlijker en misschien met iets meer personalisatie, maar in het algemeen is hij goed te begrijpen.

Met ASR en de daaropvolgende NLP-engine ligt dat duidelijk anders. Mensen spreken over het algemeen niet grammaticaal correct, stoppen halverwege een zin, geven het onderwerp een andere naam of gaan ervan uit dat wat zij zeggen gemakkelijk kan worden begrepen. Moderne ASR-engines kunnen de gesproken tekst omzetten in geschreven tekst, maar de vraag is of de NLP-engine er iets zinnigs van kan maken. Natuurlijk: dit geldt ook voor de NLP-engine die de geschreven boodschap moet omzetten in iets zinnigs, maar zolang de schrijvers redelijk dicht in de buurt blijven van het opschrijven van wat zij bedoelen, is dit meestal wel te doen.

plaatjeAfbeelding van de structuur van een Chat- en Voicebot.

De (wetenschappelijke) focus ligt dus op de stap van "spraak" naar "begrijpelijke tekst". Met andere woorden, van herkennen naar begrijpen. Dit is een zeer boeiend maar ook moeilijk onderwerp waar we de volgende keer dieper op in zullen gaan.
Wat de combinatie van Voice en Chatbots betreft, kunnen we stellen dat, op voorwaarde dat de complexiteit van de dialoog niet te groot is, het over het algemeen goed te doen is. En we zien dit terug in een sterke groei van toepassingen waarin beide kanalen worden ontwikkeld en gebruikt.

From Chat to Voice. Is this possible and if so, how?

Voice

About ±40 years ago, we had something new in the telephony market: IVR. By pressing one or more of the 12 keys on a telephone, it was possible to answer a question asked “by the telephone”. You may think of "for the Purchasing department press 1, for the Sales departments press 2". It became a great success and hundreds of companies all over the world offered this kind of "automatic dialogues". Of course, the choice of input was limited, you could not offer more than ±6 different options per question and a maximum of 3 or 4 layers deep. Moreover, the flexibility of these systems was limited and it took a lot of time (and money) to change them.
But still... it became a great success and it is still used in many services. In the early nineties, speech recognition became available for English (America and England) followed a few years later for French, German and Dutch for commercial purposes.

Of course, the first dialogues were actually a kind of IVR with speech, but when the technology matured, so did the spoken dialogues. And when “slot-filling” allowed you to fill several slots at once (e.g. "tomorrow morning” “from Utrecht” “to Enschede") pioneering companies started to see the value of Speech Recognition and (slowly) switched from IVR to ASR.
At the beginning of the 21st century, speech recognition became more and more accepted and ASR started to take over the dominant role of IVR in the world.

Over the years, speech recognition became not only better (less recognition errors) but also smarter (more words). Instead of a "grammar" drawn up by the system developers, LVCRS (Large Vocabulary Continuous Speech Recognition) enabled the way to “say what you want to say, we will recognise it”. With LVCRS, people could "just" speak and a smart NLP (Natural Language Processing) unit had to extract the meaning of the message from the recognised speech.

With AI becoming available for commercial use (±2010), a lot changed! DNNs (Deep Neural Networks) for speech recognition (Microsoft, 2014) decreased the WER (Word Error Rate) drastically in the following 5 years. Today it is for clearly spoken American-English (and Chinese) at the level of humans. And yet... we humans almost always do better than machines in real situations. But why?

Text

In the late ‘90s and early ‘00s, chat services emerged. People could exchange written messages with each other in more or less real time via Messenger or other services. At first, it was something mainly used by children, but quickly elder people saw the usefulness of it and it slowly became very big. But... it was, certainly the first years, mainly a way of human-human communication: you wrote your friend a message, she read it and sent a reply.
But quickly there were questions about self-services: couldn't these written messages now be (partly) automated? And so, little by little, automated text services became available. You could type a question, which was then (semi-)automatically answered. And here too, AI made its appearance and the dialogues became more and more "human" and sometimes it is difficult to see if a human or a machine is answering your questions.

Both spoken and written dialogues usually do not yet pass the Turing test, but they are improving and can already be used successfully.

Language and Speech

Initially, the types of spoken and written dialogues were fairly far apart, but as technology improved and especially after the arrival of DNNs for both greatly improved speech recognition and NLP, chat and voice bots are fairly booming. You see them more and more at companies, government and other organisations. And, sometimes surprisingly, they also act reasonably to very well.
The popularity makes you think about combining them. After all, you spend a lot of time setting up a good chatbot, so why not make it accessible for speech as well?

Until ±5 years ago, this was not recommended. The written chatbot and the spoken voicebot differed in design and also served a (slightly) different target group. The spoken version was more focused on the speaker: what could an organisation do for him or her, or what did he or she have to do to achieve something. The written form was clearly more distant and was more about information about the organisation, about what they did and who they were. But the latter changed with the arrival of chatbots. The more formal way was often replaced by an informal way, the tone of voice changed and the range of things you could handle became wider.

It was clearly seen that chat and voice were growing together, making integration in the background obvious. And then things moved fast. Now, more and more companies are asking if their existing chatbot(s) can also be used for voice. And usually the answer is: yes, if… Because of course: there is still a difference between the two, although it is a lot less than 5 years ago.

Combining Voice and Chat

The difference between the two is clear: ASR to go from speech to text and TTS to go from text back to speech. Both techniques are rapidly getting better and better and especially with the TTS there is not much to worry about: the spoken text could perhaps be a little better, a little more natural and perhaps with a little more personalisation, but in general it is easy to understand.
With ASR and the subsequent NLP-engine, this is clearly different. People generally do not speak grammatically correct, stop halfway through a sentence, rename the subject or assume that what they are saying can be easily understood. Modern ASR-engines can convert the spoken text into written text, but the question is whether the NLP-engine can make sense of it. Of course: this also applies to the NLP-engine that has to convert the written message into something that makes sense, but as long as the writers stay reasonably close to writing down what they mean, this is usually doable.

plaatjePicture of the structure of a Chat and Voicebot.

The (scientific) focus is therefore on the step from "speech" to "understandable text". In other words, from recognising to understanding. This is a very fascinating but also difficult subject that we will discuss in more detail next time.
As far as the combination of Voice and Chatbots is concerned, we can state that, provided the complexity of the dialogue is not to great, it is generally doable. And we see this reflected in a strong growth of applications in which both channels are developed and used.

The BIAS of AI-Speech

A short explanation about Bias in Dutch and English.

Wat is de AI-Bias?

Volgens de Oxford Lexicon[1] wordt een vooroordeel gedefinieerd als "neiging of vooroordeel voor of tegen één persoon of groep, vooral op een manier die als oneerlijk wordt beschouwd" en is het een groter probleem dan vaak wordt gedacht.

Vooringenomenheid bestaat vooral in moderne toepassingen die gebaseerd zijn op kunstmatige intelligentie. Niet elke AI-toepassing, maar vooral die toepassingen die getraind zijn op door mensen gegenereerde data, lopen het risico op een ernstige vooringenomenheid.

Op de website van AI Multiple[2] wordt bias in moderne AI gedefinieerd als "AI Bias is een anomalie in de output van machine learning algoritmen, te wijten aan de bevooroordeelde aannames tijdens het algoritme-ontwikkelingsproces of vooroordelen in de trainingsdata". Of, in gewoon Nederlands: het is de veronderstelling dat de door onze relatief jonge, meestal mannelijke en westers georiënteerde softwareontwikkelaars gegenereerde "gegevens" de norm zijn en dat zij uitwisselbaar zijn met de door "anderen" gegenereerde gegevens.

Als we ons richten op Human Language Technology: als hij mij verstaat, verstaat hij iedereen die Engels spreekt. Maar... we vergeten vaak dat "onze" gegevens, normen en waarden niet zonder meer geldig of waar zijn voor elke Engelssprekende persoon of voor welke andere taal dan ook trouwens. Een algoritme dat met dit soort gegevens is getraind, kan dus heel goed presteren als de gebruikers min of meer tot dezelfde "groep" behoren, maar de prestaties zullen teruglopen als de gebruikers tot een andere groep behoren. Deze verschuiving in de prestaties wordt de bias genoemd.

Bias en data collection

Bij moderne softwareontwikkeling wordt steeds meer gebruik gemaakt van AI-routines waarbij het belangrijkste algoritme wordt getraind op "door mensen gegenereerde" gegevens. Onder "door mensen gegenereerde gegevens" (Human Generated Data - HGD) verstaan we gegevens die door mensen worden geproduceerd en kenmerkend zijn voor die mensen. Denk aan je gezicht, je stem, de manier waarop je loopt of slaapt, of de boeken die je leest.
Vaak begint een project met een goed idee en (een beperkte) hoeveelheid data; data die je vaak uit je eigen omgeving probeert te halen. En daar begint het risico!

De eerste duidelijk herkenbare moderne software bias was bij de herkenning van gezichten. De trainings- en testgroep bestonden uit foto's van jonge, hoog opgeleide (meestal) mannen. Na stevig coderen, trainen en testen werd een behoorlijk goed resultaat bereikt. De software was klaar en kon de markt op!

Maar... het werd duidelijk dat vrouwen minder goed herkend werden dan mannen. Dus werd snel een database met jonge vrouwen toegevoegd en werd het systeem opnieuw getraind. Enige tijd later werd versie twee uitgebracht en nu konden mannen EN vrouwen worden herkend. Maar... het werd duidelijk dat ouderen en/of mensen met andere huidskleuren minder werden herkend. Dus werden nieuwe gegevens toegevoegd en zo ging het een hele tijd door totdat de database een niet-discriminerende, goede weergave was van alle soorten mensen.

Is het vermijdbaar?

In tegenstelling tot veel van mijn collega's ben ik niet echt verbaasd of teleurgesteld over deze resultaten. Je moet immers beginnen met wat beschikbaar is, met mensen van wie je een profiel hebt, een gezicht of hun spraak. En vaak zijn dat mensen die op jou lijken. Het foute eraan, is de time to market. Vooral met door mensen gegenereerde data die je gebruikt voor het trainen van je algoritmes, weet je dat je je data moet vergroten omdat de data een goede en eerlijke representatie moet zijn van de mensen die de software gaan gebruiken. En met de snelle toename van AI-gebaseerde software in ons dagelijks leven, betekent dit vaak iedereen. Dus als je eenmaal hebt bewezen dat het principe werkt, moet je doorgaan met het verzamelen van nieuwe gegevens van mensen die anders zijn dan jij en dan opnieuw beginnen met de training.

Automatische Spraakherkenning

Bestaat er een vooroordeel bij spraakherkenning? Helaas, ja! Het is niet anders dan bij andere op AI gebaseerde toepassingen die gebruik maken van HGD. Bij ASR en andere spraak-gebaseerde projecten geldt de "bias wet". We trainen de herkenner op hoe en wat WIJ zeggen, en met WIJ bedoelen we: onze woorden, onze stemtoon en natuurlijk onze uitspraak. Zodra Spraakherkenning de laboratoria verliet, begon het zijn marktintroductie als een gebruikersspecifieke toepassing waarmee wij bepaalde groepen semi-automatisch konden helpen om iets gemakkelijker, sneller, en/of goedkoper te krijgen.

Maar Spraakherkenning werd beter en beter, het werd populair, en het werd gebruikt door een groeiende groep andere mensen. En naarmate de gebruikersgroep groeide, kwamen de oorspronkelijke aannames (je spreekt zoals ik, je zegt dit of dat zoals ik dat doe) steeds meer in het gedrang. Terwijl we vijf à tien jaar geleden nog konden zeggen dat we "correct gesproken Engels" van "native English people" konden herkennen. Hoewel dit nog steeds waar is, blijkt het steeds minder bruikbaar te zijn. Het Engels is de Lingua Franca van onze tijd en het wordt gesproken door een enorme verscheidenheid van mensen die het Engels niet als moedertaal hebben. Van de ongeveer 1,5 miljard mensen die Engels spreken, gebruiken er minder dan 400 miljoen het als eerste taal. Dat betekent dat meer dan 1 miljard mensen het als een secundaire taal spreken met hun eigen, soms typische uitspraak .

Bovendien is spraakherkenning niet iets wat je maakt en voor de komende 50 jaar laat zoals het is. Talen veranderen altijd, nieuwe generaties spreken bestaande woorden anders uit, de taal zelf verandert onder invloed van naburige talen, en door immigranten en tweedetaalsprekers: het gebruik van de taal door groepen die de taal voordien niet spraken.

Luister maar eens naar een interview met een niet-moedertaalspreker van het Engels of naar een uitzending uit de jaren dertig. Je kunt het meestal wel volgen, maar voor onze oren klinkt het vreemd. Om de spraakherkenning bij te houden en nieuwe, jonge, oudere, zieke of dialectsprekende Engelsen te kunnen herkennen, en te kunnen leveren wat ze vragen, moet de Automatische Spraakherkenning voortdurend worden bijgewerkt.
U moet gesprekken verzamelen, uw modules hertrainen en naar buiten brengen. Dan, niet stoppen maar doorgaan. En als u klaar bent, bent u dan klaar? Niet helemaal, want afgezien van de langzaam verdwijnende vooringenomenheid, moeten we ons richten op het volgende grote niet: "begrijpen wat er bedoeld wordt". Maar dat komt een andere keer aan de orde.

What is the AI-Bias?

According to the Oxford Lexicon[1] a Bias is defined as "inclination or prejudice for or against one person or group, especially in a way considered to be unfair" and is a bigger problem than often thought.
Bias exists especially in modern applications that are based on Artificial Intelligence. Not every AI-application but especially those that are trained on human-generated data, are at risk of a severe bias.

At the website of AI Multiple[2], bias in modern AI is defined as “AI Bias is an anomaly in the output of machine learning algorithms, due to the prejudiced assumptions made during the algorithm development process or prejudices in the training data”. Or, in plain English: it is the assumption that our relatively young, mostly male and Western-oriented software developers generated “data” is the norm and that it is interchangeable with the data generated by "others".

If we focus on Human Language Technology: if he understands me, he understands everyone who speaks English. But... we often forget that "our" data, norms and values are not simply valid or true for every English-speaking person or for any other language by the way. So, an algorithm trained with this kind of data can perform very well if the users are more or less from the same “group” but the performance will drop down if the users are from a different group. This shift in performance is called the Bias.

Bias and data collection

Modern software development uses more and more AI-based routines where the main algorithm is trained on “human generated” data. Under “Human Generated Data” (HGD) we consider data that is produced by humans and are characteristic for those humans. Think about your face, your voice, the way you walk or sleep, or the books you read.
Often a project starts with a good idea and (a limited) amount of data; data that you often try to get from your own environment. And there the risk starts!

The first clearly recognisable modern software bias was with the recognition of faces. The training and testing group consisted of pictures of young, high educated (mostly) men. After severe coding, training and testing a pretty good result was achieved. The software was ready and it could go to market!

But... it became clear that women were less well recognised than men. So, a database with young women was quickly added and the system was re-trained. Sometime later, version two was released and now  men AND women could be recognised. But... it became clear that elderly people and/or people with other skin colours were less recognised. So, new data were added and it went on for a long time until the database was a non-discriminating, good representation of all kind of humans.

Is it avoidable?

Unlike many of my colleagues, I’m not really surprised or disappointed by these results. After all, you have to start with what’s available, with people of whom you have a profile, a face or their speech. And often these are people who are similar to you. The wrong thing about it, is the time to market. Especially with human generated data you use for training of your algorithms, you know that you have to enlarge your data because the data must be a good and honest representation of the people who will use the software. And with the fast increase of AI-based software in our daily life, this often means everyone. So, once you have proved that the principle works, you must continue to collect new data from people who are different from you and then start the training again.

Automatic Speech Recognition

Is there a bias with speech recognition? Unfortunately, yes! It is not different to other AI-based application that use HGD. With ASR and other speech-based projects “bias law” applies. We train the recogniser on how and what WE say, and by WE we mean: our words, our tone of voice and of course our pronunciation. Once Speech Recognition left the laboratories, it started its market introduction as a user-specific application with which we could semi-automatically help certain groups to get something easier, faster, and/or cheaper.

But Speech Recognition got better and better, it became popular, and it was used by a growing group of other people. And as the user group expanded, the original assumptions (you speak like me, you say this or that as I do) were increasingly compromised. Whereas five to ten years ago we could still say that we could recognise “correctly spoken English” of “native English people”. Although still true, this turns out to be less and less useful. English is the Lingua Franca of our time and it is spoken by a huge variety of people who do not have English as their mother tongue. Of the approximately 1.5 billion people who speak English, less than 400 million use it as a first language. That means over 1 billion speak it as a secondary language with their own, sometimes typical pronunciation .

Moreover, Speech Recognition is not something you make and leave it as it is for the next 50 years. Languages always change, new generations pronounce existing words differently, the language itself changes under the influence of neighbouring languages, and through immigrants and second-language speakers: the use of the language by groups who didn’t speak that language before.

Just listen to an interview with a non-native English speaker or a broadcast from the 1930s. You can usually follow it, but for our ears it sounds strange. In order to keep up with speech recognition and to be able to recognise new, young, older, sick, or dialect-speaking English people, and to deliver what they ask for, the Automatic Speech Recogniser must be updated continuously.
You need to gather conversations, retrain your modules and bring it out. Then, don’t stop but continue. And once done, are you ready? Not quite, because apart from the slowly disappearing bias, we need to focus on the next big stap: “understanding what is meant”. But that will be discussed another time.

 

Links

  • https://research.aimultiple.com/ai-bias/
  • https://www.speechmatics.com/resources/articles-and-news/how-to-tackle-ai-bias
  • https://www.agconnect.nl/artikel/helft-gebruikers-klaagt-dat-spraaktechnologie-stemmen-niet-verstaat
  • https://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf
  • https://www.youtube.com/watch?v=TWWsW1w-BVo
  • https://medium.com/thoughts-and-reflections/racial-bias-and-gender-bias-examples-in-ai-systems-7211e4c166a1

Images

Plaatje1

Figure 1: The average WER across ASR services is 0.35 for audio snippets of black speakers, as opposed to 0.19 for snippets of white speakers. The maximum SE among the 10 WER values displayed (across black and white speakers and across ASR services) is 0.005. For each ASR service, the average WER is calculated across a matched sample of 2,141 black and 2,141 white audio snippets, totalling 19.8 h of interviewee audio. Nearest-neighbour matching between speaker race was performed based on the speaker’s age, gender, and audio snippet duration.

Plaatje22

Figure 2: The results of an AI system. Guided by the risk assessments, judges in courtrooms throughout the United States would generate conclusions on the future of defendants and convicts, determining everything from bail amounts to sentences. The software estimates how likely a defendant is to re-offend based on his or her response to 137 survey questions. It was discovered that the COMPAS algorithm was able to predict the particular tendency of a convicted criminal to reoffend. However, when the algorithm was wrong in its predicting, the results was displayed differently for black and white offenders.

Plaatje3

Figure 3: Amazon’s biased recruiting tool. With the dream of automating the recruiting process, Amazon started an AI project in 2014. Their project was solely based on reviewing job applicants’ resumes and rating applicants by using AI-powered algorithms so that recruiters don’t spend time on manual resume screen tasks. However, by 2015, Amazon realized that their new AI recruiting system was not rating candidates fairly and it showed bias against women.

Plaatje44

Figure 4: Kriti Sharma; a leading global expert in AI and its impact on society and the future. She tells in an inspiring TED Talk about AI bias, here personal experience and what she did to avoid being taken seriously as a woman in the AI world.

 

[1] Oxford Lexicon: https://www.lexico.com/definition/bias

[2] AI Multiple https://research.aimultiple.com/ai-bias/

 

Pagina 3 van 9

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • Laatste aanpassing website: dinsdag 10 maart 2026, 11:11:03.
  • Copyright @2026 Arjan van Hessen