BRS85 - Taal- en Spraaktechnologie

Taal- en Spraaktechnologie (TST) is de technologie die zich richt op het softwarematig "nabootsen" van het talige-vermogen van de mens.
TST is een containerbegrip waaronder verschillende technieken vallen die delen van de de menselijke, talige communicatie na bootsen. Mensen gebruiken die verschillende technieken gelijktijdig of na elkaar voor een optimale communicatie. Zo zijn wij redelijk goed in het herkennen van spraak (spraakherkenning) maar nog veel beter in de interpretatie van de spraak (spraakinterpretatie). Woorden die niet of niet helemaal herkend werden, kunnen alsnog herkend worden wanneer de context waarin ze gesproken werden, duidelijk wordt.

Dit laatste is eigenlijk geen spraakherkenning maar eerder spraakinterpretatie en zit wellicht meer op het gebied van kunstmatige intelligentie (AI). Woorden die "niet passen" worden vervangen door woorden die "beter passen". Vaak is dat verstandig, maar niet altijd omdat mensen nu eenmaal vmisplaatste woorden kunnen spreken. De interpretatie kan dus de werkelijkheid onterecht "verfraaien".

Taal- en Spraaktechnologie

Onderdelen van TST zijn onder meer:

Spraakherkenning (ASR):
het omzetten van spraak (=audiosignaal) in opeenvolgende letters cq woorden die de audioklank zo goed mogelijk beschrijven. Geavanceerde spraakherkenning maakt gebruik van taalmodellen die de best herkende woorden kunnen vervangen door woorden die akoestisch verder van het audiosignaal afstaan maar die waarschijnlijker zijn gegeven de context van de spraak.
Stel dat akoestisch gezien de best herkende zin "ik loep haar naam" is, dan zou het taalmodel loep best wel door roep kunnen vervangen ("ik roep haar naam")
Sprekerherkenning:
Het herkennen van de spreker. Bepaal welke persoon uit een gesloten groep sprekers, de meest waarschijnlijke spreker is gegeven een (deel van het) audiosignaal. In de praktijk mag het aantal mensen waaruit gekozen kan worden niet heel groot zijn. Denk aan max. 100 mensen (2018).
Sprekerverificatie:
Het berekenen van de kans dat een spreker daadwerkelijk is wie hij/zij zegt te zijn. Sprekerverificatie wordt vaak gebruikt bij het bepalen of een beller daadwerkelijk diegene is die hij op grond vn bv z'n telefoonnummer zou moeten zijn. Door de acceptatiegrens heel streng af te stellen worden minder mensen onterecht geaccepteerd (dat is goed) maar worden ook te veel mensen onterecht afgewezen (en dat is verkeerd).
Spraaksynthese (TTS):
Het omzetten van geschreven tekst in een gesproken tekst. Voordat een tekst gesynthetiseerd kan worden, moet de tekst eerst goed geanalyseerd worden om te bepalen hoe de verschillende woorden uitgesproken moeten worden en hoe de zinsmelodie (prosodie) moet worden. Om dit optimaal te doen, zou eigenlijk ook de betekenis van de zin gebruikt moetn worden; maar dat is best lastig. Denk bijvoorbeeld aan het verschil tussen:
"ik heb rode schoenen gekocht" ↔ "ik heb rode schoenen gekocht".
Spellingcontrole:
Het controleren van de wijze waarop de verschillende woorden in een tekst geschreven zijn. Bij geavanceerde spellingscontrole wordt niet alleen gekeken of een woord juist geschreven is, maar ook of het juist geschreven is, gegeven z'n grammaticale functie.
Information retrieval (IR):
De techniek die zich bezig houdt met het zoeken en ophalen van informatie in documenten. Het resultaat kan bestaan uit tekst uit een of meerdere documenten, uit een of meerdere documenten of uit metadata die de documenten beschrijft.

Taal- en Spraaktechnologie

Taal- en Spraaktechnologie

Kunstmatige Intelligentie