brs85T

Taal- en Spraaktechnologie

Taal- en Spraaktechnologie (TST) is de technologie die zich richt op het softwarematig "nabootsen" van het talige-vermogen van de mens.
TST is een containerbegrip waaronder verschillende technieken vallen die delen van de de menselijke, talige communicatie na bootsen. Mensen gebruiken die verschillende technieken gelijktijdig of na elkaar voor een optimale communicatie. Zo zijn wij redelijk goed in het herkennen van spraak (spraakherkenning) maar nog veel beter in de interpretatie van de spraak (spraakinterpretatie). Woorden die niet of niet helemaal herkend werden, kunnen alsnog herkend worden wanneer de context waarin ze gesproken werden, duidelijk wordt.

Dit laatste is eigenlijk geen spraakherkenning maar eerder spraakinterpretatie en zit wellicht meer op het gebied van kunstmatige intelligentie (AI). Woorden die "niet passen" worden vervangen door woorden die "beter passen". Vaak is dat verstandig, maar niet altijd omdat mensen nu eenmaal vmisplaatste woorden kunnen spreken. De interpretatie kan dus de werkelijkheid onterecht "verfraaien".

Taal- en Spraaktechnologie

Onderdelen van TST zijn onder meer:

  • Spraakherkenning (ASR):
    het omzetten van spraak (=audiosignaal) in opeenvolgende letters cq woorden die de audioklank zo goed mogelijk beschrijven. Geavanceerde spraakherkenning maakt gebruik van taalmodellen die de best herkende woorden kunnen vervangen door woorden die akoestisch verder van het audiosignaal afstaan maar die waarschijnlijker zijn gegeven de context van de spraak.
    Stel dat akoestisch gezien de best herkende zin "ik loep haar naam" is, dan zou het taalmodel loep best wel door roep kunnen vervangen ("ik roep haar naam")
  • Sprekerherkenning:
    Het herkennen van de spreker. Bepaal welke persoon uit een gesloten groep sprekers, de meest waarschijnlijke spreker is gegeven een (deel van het) audiosignaal. In de praktijk mag het aantal mensen waaruit gekozen kan worden niet heel groot zijn. Denk aan max. 100 mensen (2018).
  • Sprekerverificatie:
    Het berekenen van de kans dat een spreker daadwerkelijk is wie hij/zij zegt te zijn. Sprekerverificatie wordt vaak gebruikt bij het bepalen of een beller daadwerkelijk diegene is die hij op grond vn bv z'n telefoonnummer zou moeten zijn. Door de acceptatiegrens heel streng af te stellen worden minder mensen onterecht geaccepteerd (dat is goed) maar worden ook te veel mensen onterecht afgewezen (en dat is verkeerd).
  • Spraaksynthese (TTS):
    Het omzetten van geschreven tekst in een gesproken tekst. Voordat een tekst gesynthetiseerd kan worden, moet de tekst eerst goed geanalyseerd worden om te bepalen hoe de verschillende woorden uitgesproken moeten worden en hoe de zinsmelodie (prosodie) moet worden. Om dit optimaal te doen, zou eigenlijk ook de betekenis van de zin gebruikt moetn worden; maar dat is best lastig. Denk bijvoorbeeld aan het verschil tussen:
    "ik heb rode schoenen gekocht" ↔ "ik heb rode schoenen gekocht".
  • Spellingcontrole:
    Het controleren van de wijze waarop de verschillende woorden in een tekst geschreven zijn. Bij geavanceerde spellingscontrole wordt niet alleen gekeken of een woord juist geschreven is, maar ook of het juist geschreven is, gegeven z'n grammaticale functie.
  • Information retrieval (IR):
    De techniek die zich bezig houdt met het zoeken en ophalen van informatie in documenten. Het resultaat kan bestaan uit tekst uit een of meerdere documenten, uit een of meerdere documenten of uit metadata die de documenten beschrijft.

 

Kunstmatige Intelligentie

Het gaat hier om "talige AI" ofwel kunstmatige intelligentie op het gebied van menselijke taal en spraak. Talige AI moet kunnen omgaan met door mensen geschreven teksten en dus ook met teksten die voortkomen uit spraakherkenning. Voorbeelden van talige AI zijn Watson van IBM die teksten "leest" en daar informatie uit kan halen en automatische vertaaldiensten als DeepL en Google Translate die grote hoeveelheden parallele corpora (tekst bestanden die in twee of meer talen het zelfde schrijven) gebruiken om te leren hoe een zin in het Nedelands het best in het Duits vertaald kan worden.

Kunstmatige Intelligentie wordt dikwijls beschreven aan de hand van twee uiterste: zwakke en sterke AI (zie ook Wikipedia).

  • Sterke AI
    houdt zich bezig met onderzoek met betrekking tot het creëren van een computer of software die echt kan redeneren en problemen oplossen, en die wellicht zelfbewustzijn zou hebben; hiervan zijn weer twee subtypen te onderscheiden, namelijk de mens-gelijke AI, een computer die redeneert en denkt als een mens, en de niet-mens-gelijke AI, waarin de computer een niet-menselijke, maar eigen computer-intelligentie ontwikkelt.
  • Zwakke AI
    houdt zich bezig met onderzoek en toepassingen in beperkte deelgebieden waarin gedragingen mogelijk zijn die intelligent lijken, maar niet echt intelligent zijn. Hier worden de meeste vorderingen gemaakt, in de vorm van bijvoorbeeld zoekalgoritmen, vertaalsystemen, expertsystemen en systemen die spelletjes spelen zoals Google's AlphaGo Zero. Eenvoudig gezegd, kun je stellen dat Zwakke AI een truukje kent, maar dat truukje erg goed kan (vaak beter dan de mens).

Bij het beschrijven van wat AI is, speelt steeds het probleem van: wat is intelligentie?