• Schrijfsels
    • Blogs
    • Populaire
    • Wetenschappelijk
    • Drenten
  • In de media
    • AV
    • Web
    • Krant
    • Lezingen
    • AV-Lezingen
    • Televisie
  • Werk
    • TST & AI
      • Spraakherkenning
      • AI
      • Whisper
      • Knowledge Navigator
      • Showcases
      • LIPS
      • UvN
      • Maastricht
      • Diplomaten
      • TTS
      • URaad
      • Preek
    • Affiliaties
      • UTwente
      • UU
      • Telecats
      • Vorige wergevers
    • Netwerken
      • NOTaS
      • CLST
      • Levende Herinneringen
      • SOS
    • Infrastructuur
      • CLARIAH
      • CLARIN-NL
      • CLARIN-EU
      • DARIAH
      • CHAT
      • LISTEN
      • Verteld Verleden
    • Projecten
      • Voltooid
        • TTNWW
        • Radio Oranje
        • Buchenwald
        • Bosnian Memories
        • Croatian Memories
      • Lopend
        • OH-Smart
        • Corpus Gesproken Nederlands
      • Demonstratie
        • Gemeenten
        • Oratie
        • Preek
        • Klimaatverandering
        • Café Weltschmerz
        • Debat Gemist
    • Programming
    • Software
    • Over mij
    • LOT 2023
      • Background
      • Course
    • NTU
    • Workshop(s)
  • Persoonlijk
    • Arjan
      • Arjan
      • Ouders
      • Zus & Broer
      • Neven & Nicht
      • Grootouders
      • Foto's
    • Brigitte
      • Operatie
    • Drentsche Patrijshonden
      • Pepper
      • Moos
    • Huizen
      • Samen
        • Italië
        • Burg. Reiger (2010 - ...)
        • Steve Biko (2009 - 2010)
        • Baarnseweg (2007 - 2009)
        • Poortstraat (1994 - 2007)
      • Arjan
        • Poortstraat (1977 -1994)
        • Sweelincklaan (1972 -1977)
        • Soestdijkseweg (1965 -1972)
        • Biltzigt (1958 -1965)
      • Brigitte
        • Thijssenlaan (1985 - 1994)
        • Braamstraat (1981 - 1985)
        • Voorstraat (1980 -1981)
        • Hopakker (1980 -1980)
        • Kemperstraat (1979 -1979)
        • Verwerstraat (1968 - 1979)
        • Oude Raadhuisstraat (1961 - 1968)
        • Drostlaan (1960 - 1961)
    • Rolanda
      • Levensverhaal
      • Rolanda 85
      • Afnemende Gezondheid
      • Begrafenis
      • Foto's
        • 85 Jaar
        • Sta-op stoel
  • Interessant
    • Zipf's Law
    • Conversatie Regels
    • Toon PDF
  • Extra Activiteit

blogs

  • Blogs
  • Populaire
  • Wetenschappelijk
  • Drenten

Kunnen we in de toekomst praten tegen onze computer?

 

computer pratenDat mensen spraak kunnen ontcijferen, is niet zo vanzelfsprekend als op het eerste gezicht lijkt. Want waar woorden in geschreven taal gescheiden worden door spaties, gebruiken we in gesproken taal geen pauzes tussen de woorden. Een gewone zin als: “Ik heb het formulier van de verzekeringsmaatschappij ingevuld” klinkt in gesproken taal ongeveer als: “keputformelierfandefesekringsmaatschepijingevult”. Wat meteen opvalt, is dat lang niet alle klanken daadwerkelijk worden uitgesproken. De officiële uitspraak van een woord als “verzekeringsmaatschappij” is “vEr-ze:-k@-rINs-ma:t-sxA-pEi”  maar in normale spraak klinkt het meer als “f@-se:-krINs-ma:-sxA-pEi” of “f@-se:-kr@ns-ma:-sx@-pEi”.

Spraakherkenning bij de mens

Tijdens het luisteren bepalen we dus de woordgrenzen en herleiden tegelijk de onvolledig uitgesproken woorden tot hun officiële vorm. Dat kunnen we door gebruik te maken van zowel de woorden die we kennen als van onze verwachting over de woorden en woordsoorten die kunnen gaan komen (grammatica). Bovendien zetten we onze kennis van de wereld in, of nog beter: onze kennis over het gespreksonderwerp. Stel dat we in de geluidsstroom van de hierboven gebruikte zin bij “verzekeringsmaats” aangekomen zijn. Dan weten we dat er alleen nog “chap” of “chappij” kan komen. De kans op “chap” (verzekeringsmaatschap) is niet zo heel erg groot omdat dat woord nu eenmaal weinig gebruikt wordt (4300 keer op Google) en dus ligt “verzekeringsmaatschappij” (175.000 keer op Google) veel meer voor de hand. Door gebruik te maken van dit soort verwachtingen, ‘weten’ we eigenlijk al voordat de spreker is uitgesproken welk woord er waarschijnlijk volgt. We kunnen daarop anticiperen en horen als het ware een pauze na het woord verzekeringsmaatschappij.

Hoe beter we nu de taal kennen, en hoe meer we weten over het onderwerp waarover gesproken wordt, des te beter kunnen  we voorspellen welke woorden er zullen komen. Het lijkt daardoor alsof een bekende taal langzamer is dan een (volledig) onbekende taal. Precies om die reden is het prettig als sprekers van een taal die we minder goed beheersen langzaam en nadrukkelijk spreken. Dan zijn we minder afhankelijk van onze (zwakke) kennis van woorden en grammatica voor het decoderen van de boodschap.

Spraakherkenning bij de computer

Automatische Spraakherkenning (ASR) werkt deels op dezelfde manier als menselijke spraakherkenning: de computer verdeelt eerst het spraaksignaal in elkaar overlappende tijdsintervalletjes. Vervolgens wordt van elk zo’n tijdsinterval het spectrum berekend: dat is de verzameling van de verschillende tonen met elk een eigen amplitude. Voor elk spectrum berekent de computer een aantal parameters, en die worden vergeleken met alle opgeslagen parameters die horen bij de verschillende klanken. De klank die er het meest op lijkt, wordt vervolgens aan het tijdsinterval toegekend. Vervolgens wordt het volgende intervalletje  van 10 milliseconden geanalyseerd, enzovoort. Voor iedere 10 milliseconden is er dan een schatting van de klank die  op dat moment werd uitgesproken. Met die opeenvolgende klanken berekent de computer dan vervolgens de mogelijke woorden. Zeker omdat we weten dat woorden bijna nooit zo worden uitgesproken zoals dat officieel zou moeten, is het zoeken van de woorden die bij een reeks opeenvolgende klanken horen geen sinecure. Bovendien moet de computer rekening houden met het feit dat we in normale spraak geen pauzes gebruiken tussen de woorden en dat je dus zonder het te merken van het ene naar het volgende woord gaat.
 

Vaste grammaticaherkenning

Er zijn simpel gezegd twee manieren om met een computer spraak te herkennen. De eerste manier maakt gebruik van een vaste “grammatica” waarbij de ontwerper bepaalt welke woorden op welk moment herkend kunnen worden. De tweede manier is via de ’groot vocabulaire spraakherkenning’ waarmee in principe alles herkend moet kunnen worden.

Bij de vaste grammaticaherkenning ligt vooraf vast wat voor soort gesproken input mensen mogen geven. Dit soort systemen wordt vooral veel gebruikt wanneer duidelijk is wat de gebruiker wil. Een bekend voorbeeld is het treininformatiesysteem. Je kunt er inspreken van waar naar waar je wilt reizen, wanneer en hoe laat (“morgenochtend om 10 uur van Utrecht naar Enschede”). Daarbij is het aantal opties beperkt. De computer zet de ingesproken boodschap om in zogenaamde grammaticaregels. Zo’n regel is opgebouwd uit ‘identifiers’ (de woorden tussen vishaken):

<datum> om <tijd> van <station> naar <station>
van <station> naar <station> <datum> om <tijd>
naar <station> [vanaf|vanuit] <station> <datum> om <tijd>

 

Voor de identifier <station> verwacht de spraakherkenner dan een van de 390 Nederlandse stations. Voor de identifier <tijd> en <datum> een van de mogelijke Nederlandse tijdsaanduidingen (8 uur 15, kwart over acht) en datumaanduidingen (morgen, volgende week maandag, 2de paasdag, etc.).

Spraakherkenning met vaste grammatica’s wordt vooral toegepast bij relatief eenvoudige, geautomatiseerde dienstverlening over de telefoon. Maar ook de nieuwste TomTom-apparaten maken er gebruik van. Een belangrijke voorwaarde is dat de gebruiker weet wat hij/zij moet zeggen. Voor  minder specifieke vragen, zoals: “Ik wil naar de Veluwe om te wandelen”  is deze manier van spraakherkenning niet geschikt.

Groot Vocabulaire Spraakherkenning

Stel, je wilt een interview met je lievelingsschrijver terugkijken in DWDD. Je weet alleen niet op welke dag het is uitgezonden. Op internet vind je een archief met alle uitzendingen van het afgelopen jaar. Idealiter zou je de naam van je lievelingsschrijver intypen in een zoekveld, en de computer laten zoeken naar het juiste fragment in de juiste aflevering. Voor zo'n zoekactie zou Groot Vocabulaire Spraakherkenning (GVSh)  geschikt zijn. Bij GVSh is er geen ontwerper die bepaalt hoe gebruikers moeten spreken, en in principe moet alles dat gezegd wordt, herkend kunnen worden. De meeste spraakherkenners van dit type kunnen zo’n 64.000 verschillende woorden herkennen, maar de vraag is natuurlijk wélke 64.000 woorden, want het Nederlands kent veel meer woorden.

GVSh maakt gebruik van een statistisch taalmodel. Dat is een model dat de kans berekent dat Woord-A gevolgd wordt door Woord-B (bigram) of dat Woord-A + Woord-B gevolgd worden door Woord-C (trigram). Deze bi-, tri, quatro- en zelfs pentagrammen worden berekend met behulp van enorme hoeveelheden tekst. Zo werden aan de Universiteit Twente tien jaargangen kranten (Volkskrant, NRC, Trouw en AD) ingevoerd om de kansen van de verschillende bi- en trigrammen te berekenen. Een voorbeeld: na de woorden “ik eet” kunnen er verschillende woorden volgen, zoals “kaas”, “vlees”, “boterhammen” etc. Ook “melk” of “koffie” zouden grammaticaal correct zijn, maar de kans dat ze volgen op “‘ik eet” is niet heel erg groot. Helemaal onwaarschijnlijk zijn woorden als “voordeur”, “kerkklok” of “Klaas”. Wanneer de herkenner nu (na de woorden “ik eet”) de volgende mogelijke woorden heeft herkend (Klaas, gaas, kaas, haas) dan zal het statistisch model het derde woord (=kaas) toch op 1 zetten. Immers, de kans op “ik eet kaas” is vele malen groter dan “ik eet Klaas” of “ik eet gaas”.

Nadeel van deze manier van herkennen is dat je relatief zware computers nodig hebt voor de taalmodellen. Met 64.000 mogelijke woorden kun je 64.0003 = 262144 miljard combinaties maken. Een ander nadeel is dat zo’n taalmodel afhankelijk is van het gespreksonderwerp. Het taalmodel dat gemaakt werd met de kranten past  het best bij gesprekken over het algemene nieuws. Voor het herkennen van een gesprek over de situatie van de banken in Europa voldoet het stukken minder: daarvoor zou je juist het Financieel Dagblad moeten gebruiken. Hoe beter een taalmodel aansluit bij het onderwerp van het gesprek, hoe beter de herkenning. In een sporttaalmodel is de kans op de woorden “Feyenoord”, “voetbal” en “scheidsrechter” relatief hoog, terwijl dat in een agrarisch of politiek model juist relatief laag is.

Dicteren

Terug naar de beginvraag. Is het mogelijk om een tekst te dicteren zodat de computer deze met zo min mogelijk fouten 'opschrijft'? Ja dat kan. Wél moet je het systeem goed trainen met je eigen stem en je beperken tot inhoudelijk gelijksoortige documenten.

Het trainen met de eigen stem is nodig om de computer te leren hoe de spreker de verschillende klanken uitspreekt. Een Tukker spreekt de /o/ van Almelo nu eenmaal anders uit dan een Amsterdammer! Daarom krijg de gebruiker eerst een aantal standaardteksten op het scherm die hij moet voorlezen. De computer ‘weet wat er staat’ en kan dan de klankherkenning aanpassen aan de uitspraak van de spreker.

De beperking tot inhoudelijk gelijksoortige documenten is nodig om het taalmodel eenvoudig te houden. Dan werkt het beter en vlotter. Wie zowel de notulen van de hockeyclubvergaderingen wil dicteren, als rapporten over de financiële crisis, moet daarom twee profielen aanmaken. Goed getrainde sprekers die zich aan de randvoorwaarden houden kunnen meer dan 96% scoren: van alle honderd uitgesproken woorden, worden er minder dan vier fout herkend.

 

Kennis distilleren uit bergen spraak

ict magazine januari februari 2016 Pagina 11Artikel door Peter Olsthoorn is tot stand gekomen via een interview met Arjan van Hessen. Hij heeft alles herschreven waardoor het te lang werd. Peter heeft de tekst weer ingekort waarna het op 2 februari 2016 verschenen is in ICT-Magazine. Hieronder een aangepaste versie van dit artikel door Arjan.

Arjan StaatTKEen callcenter voert tien- tot honderdduizenden telefoongesprekken per jaar. Hoe kun je met data-analyse kennis halen uit deze massa conversaties?

Beeld en Geluid op het Mediapark in Hilversum maakt een miljoen uur aan audio- en video- (AV) materiaal toegankelijk: een aantal dat jaarlijks met 40.000 uur toeneemt. Maar hoe vind je het gewenste bestand? Daartoe bouwt Beeld en Geluid verschillende ingangen en verbindingen. Programmatitel, regisseur en uitzenddatum volstaan niet voor de vindbaarheid van een onderwerp.

Het AV-materiaal gaat door de spraakherkenner voor – niet-foutloze – transcripties, geschikt voor trefwoordlabels aan fragmenten. Sprekerherkenning helpt bij het achterhalen van presentatoren en gasten van wie de stemprofielen in de databank staan. Op termijn zullen ook niet-bekende Nederlanders herkend kunnen worden.

“We werken aan het audiovisuele web en hyperlinking”, vertelt Roeland Ordelman, Hoofd Onderzoek van Beeld en Geluid. “Daarbij worden tussen allerlei soorten data verbanden gelegd. Met het gecreëerde netwerk kun je op een intuïtieve manier door content navigeren.” Labels maken ook koppelingen met andere bestanden mogelijk, zoals tussen het radioarchief en de beeldbank van het Nationaal Archief. Radio krijgt daardoor een beeldscherm.

Big data

Het gaat om het toegankelijk maken van een "immense audiovisuele stroom" die groeit naar 90 procent van het internetverkeer. Big data? Ordelman: “Ja, er is sprake van Volume, Velocity, Value, Veracity en Variety. Wij oogsten waarde uit de brei met spraak- en sprekerherkenning, visuele analyse en "hogere tools.”

privacySamen met de universiteiten van Twente, Amsterdam en Delft test Beeld en Geluid nieuwe applicaties. Op labs.beeldengeluid.nl zijn datasets en api’s beschikbaar. Ordelman: “We verwachten de komende tien jaar een grote hoeveelheid programma’s voor analyse. Probleem is wel dat je veel computercapaciteit nodig hebt. We kijken met de Universiteit van Amsterdam naar een cloud-oplossing.”

Audiovisuele stroom wordt toegankelijk

Spraak is rijk maar ook ambigu en meestal grammaticaal incorrect, bevat aarzelingen, pauzes, onderbrekingen, halve zinnen. Logisch werkende analysetools die vaak wel werken met geschreven teksten, volstaan daarom niet. Zeker bij telefonieapplicaties (de spraak via de telefoon is van minder e kwaliteit en dus is de herkenning slechter) is het dan ook een uitdaging om in een gesproken-dialoog met de beller tot een bevredigend resultaat te komen. Maar..... met wat kunst-en-vliegwerk lukt het wel getuige de meer dan 1M gesprekken die per maand door spraakherkenning worden afgehandeld.
De bottleneck blijft de “kloof tussen wat bedoeld en gezegd wordt" aldus Arjan van Hessen. In het verleden werkte hij aan spraakherkenning bij het roemruchte Vlaamse Lernout & Hauspie maar tegenwoordig verdeelt hij zijn tijd over het Enschedese bedrijf Telecats, de Universiteit Twente en de Universiteit Utrecht. Zowel op de UT als bij Telecats wordt er gewerkt aan het doorzoekbaar maken van grote hoeveelheden spraak. Spraakopnemen wordt immers steeds makkelijker (opnemen met smartphones, tablets, laptops en opslaan in de cloud) en goedkoper (opslag kost bijna niets meer).
Organisaties als het NIOD, Beeld en Geluid, de Tweede Kamer, gemeentes en het Huizinga Instituut voor Oral History gebruiken spraakherkenning om de (soms) duizenden uren aan audiovisueel materiaal te ontsluiten. En sinds kort zijn ook onderwijsorganisaties zoals SURF en opsporingsinstanties zoals politie en inlichtingendiensten (MIVD en AIVD) geinteresseerd in de mogelijkheden die Taal- en Spraaktechnologie bieden. De veiligheidsdiensten waren dit natuurlij al veel en veel langer, maar pas sinds kort zoeken ze contact met Nederlandse bedrijven en universiteiten.

Sprekerherkenning

Bij sprekerherkenning zijn er grofweg twee varianten. De meest bekende is het bepalen of een spreker daadwerkelijk diegene is die hij/zij claimt te zijn of waarvan jij met enige zekerheid wilt kunnen zeggen: ja dat is hem! Inlichtingendiensten gebruiken het bijvoorbeeld om te bepalen of een een gesproken boodschap daadwerkelijk van een bepaalde terroristenleider afkomstig is of niet. Banken kunnen het gebruiken om rekeninghouders zonder paswoord toegang te geven tot hun account.
De andere manier van sprekerherkenning is diarisatie: hierbij worden "onbekende sprekers" in een grote verzameling spraak geclusterd. Dwz dat de computer bepaalt of spreker A in opname B dezelfde is als spreker C in opname D en spreker E in opname F. Als je dan weet dat de spreker in opname E Jan-Peter is, dan weet je direct dat Jan-Peter ook spreker A en spreker C is. Dat is erg handig als je enorm veel materiaal hebt zoals bv Beeld en Geluid, en op zoek bent naar het materiaal van een specifieke spreker X (bv ex-premier Balkenende). Vaak staat niet in de metadata dat Balkenened in deze uitzending aan het woord komt en ook niet zegt de presentator netjes "ik geef het woord aan Balkenende. Wil je alle spraak van Balkenende verzamelen (bv voor analyse) dan is diarisatie een zeer nuttig hulpmiddel.

Onderwerp labeling

Een volgende stap is het bepalen van het onderwerp waarover gesproken wordt. In "Frei Swebende" spraak (zeg maar de dagelijkse conversaties die we met de mensen om ons heen voeren) is dat duivels moeilijk omdat het in principe overal over kan gaan en mensen nogal de neiging hebben om van de hak-op-de-tak te springen en steeds van onderwerp te veranderen. In callcenters is dit gelukkig iets makkelijker omdat de onderwerpen waarover gesproken kan worden, gelimiteerd zijn. Het labelen ofwel classificeren bestaat uit het nadoen van het menselijk gedrag: "als bellers dit zeggen, naar welk doorkiesnummer zou jij (als medewerker) het gesprek dan door sturen?" Van Hessen: “Grote organisaties zitten dikwijls in ee spagaat. Enerzijds willen ze zo veel mogelijk weten over binnengekomen gesprekken (wie belt wanneer waarvoor) anderzijds willen ze in verband met de kosten zo veel mogelijk gesprekken zo snel mogelijk af handelen. Als er op de borden staat dat er nog 10 wachtend zijn, dan gaan de meeste callcenter medewerkers niet een uitgebreide gespreksnotitie maken maar classificeren ze het gesprekken als "overig", omdat ze dan niets meer hoeven in te vullen.”

brabantwater

Gespreksanalyse

Een hier op lijkend iets is de gespreksanalyse. Anders dan bij labeling, wordt er niet actief in het gesprek ingegepen maar probeert de computer (achteraf) een volledige analyse te doen van het binnekomende gesprek. Hoe lang stond de beller in de wachtrij, welke vragen kreeg hij, hoe reageerde de medewerker, welke vragen stelde die (zat daar het verwachte "goede morgen met....." bij of niet) en meer. Dit soort analyses bieden inzicht in de trajecten die een beller doorloopt en kunnen helpen bij het opzoeken (en oplossen) van knelpunten. Door spraakherkenning los te laten op zowel de spraak van de beller als die van de medewerker, kan bovendien nog veel meer inzicht verkregen worden in de reden dat iemand belt maar ook in de juiste (of juist onjuiste) manier vn het gesprek voeren door de medewerker en biedt het een nog beter inzicht in de reden dat mensen bellen.
Telecats heeft inmiddels grote analysetrajecten gedaan voor onder meer DUO van OCW, Belastingdienst, Aegon en Brabant Water. Tienduizenden gesprekken werden opgenomen en door de spraakherkenner gehaald om de inhoud ervan te bepalen.“Dit leverde, naast de klassieke datum, tijdstip en gespreksduur vooral zinvolle gegevens op over herhaalgesprekken - na belleridentificatie –, juistheid van doorverbinden en specifieke onderwerpen waardoor procesoptimalisatie beter werkte.

Toen bleek dat de onderwerpen waarover gebeld werd, sterk "dag en tijd specifiek" waren, kon besloten worden om de menustructuur daarop aan te passen zodat klanten sneller en beter worden geholpen. Van Hessen: “Analyse van callcenterdata levert ook een beter inzicht op in de verschillen tussen FAQ’s via web en telefoon. Die web-FAQ’s gaan over "wie zijn jullie en wat doen jullie", terwijl de gesproken FAQ’s persoonlijker zijn: "wat kunnen jullie voor mij betekenen?".

Van Hessen is positief over de rol van taal- en spraaktechnologie. Het kan zowel helpen om klanten sneller van dienst te zijn als om de gewenste managementinformatie (semi-)automatisch te extraheren. Medewerkers houden zo meer tijd over om te doen waar vooral mensen goed in zijn: praten met andere mensen!

Social Signal Processing

ik ben aliceNu robots een steeds prominentere rol in de samenleving gaan spelen en duidelijk wordt dat ze (wellicht) in de nabije toekomst zorgtaken gaan overnemen zoals in de documentaire "Ik ben Alice" te zien is, wordt duidelijk dat robots een "idee" moeten hebben van de menselijke emotie. Zowel aan de ontvangende kant (herkennen dat iemand verdrietig is) als aan de zendende kant (een troostende toon aanslaan). Dit heet ook wel Social Signal Processing (SSP): het met computers en algoritmes bepalen van de emotionele staat van sprekers en daar adequaat op reageren. Allerlei features in het spraak- signaal zoals plotselinge stijging van de amplitude, toenemende stiltes, door elkaar praten, veranderende toonhoogtes en natuurlijk woordkeuzes, kunnen emoties helpen blootleggen. Kun je dit berekenen, dan kun je "aan de knoppen draaien" om het gesprek zo "juist mogelijk" te laten verlopen. Inzet van robots in het intermenselijke verkeer, zoals aan ziekenhuisbedden, voor alleenstaande senioren en bij recepties zal alleen goed lukken als robots op z'n minst een klein beetje emotie kunnen voelen en tonen. Van Hessen:“Het is dus noodzakelijk dat de robot zijn houding aanpast aan die van de mens.”

Maar ook in het call center biedt SSP mogelijkheden. Van Hessen: “Nu is het one-size-fits-all: iedere beller krijgt altijd dezelfde dialoog aangeboden. Maar soms hebben mensen geen zin in een uitgebreide begroeting of andere beleefdheden, maar willen ze juist direct tot de kern van de gespreksreden doordringen ("tot hoe laat zijn jullie open?"). Door dit te signaleren, kan de computer de dialoog aan passen aan de manier van spreken van de klant waardoor die op de "juiste" manier te woord wordt gestaan.

Onmenselijke of onwenselijke ontwikkelingen? “Wellicht, maar in een wereld met onvoldoende geld en/of mensen die anderen gaan verzorgen wellicht een goede "second-best" en in ieder geval beter dan mensen volledig aan hun lot overlaten.

 

Pagina 6 van 9

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • Laatste aanpassing website: dinsdag 10 maart 2026, 11:11:03.
  • Copyright @2026 Arjan van Hessen