Open menu
Open menu
  • Schrijfsels
    • Blogs
    • Populaire
    • Wetenschappelijk
    • Drenten
  • In de media
    • AV
    • Web
    • Krant
    • Lezingen
    • AV-Lezingen
    • Televisie
  • Werk
    • TST & AI
      • Spraakherkenning
      • AI
      • Whisper
      • Knowledge Navigator
      • Showcases
      • LIPS
      • UvN
      • Maastricht
      • Diplomaten
      • TTS
      • URaad
      • Preek
    • Affiliaties
      • UTwente
      • UU
      • Telecats
      • Vorige wergevers
    • Netwerken
      • NOTaS
      • CLST
      • Levende Herinneringen
      • SOS
    • Infrastructuur
      • CLARIAH
      • CLARIN-NL
      • CLARIN-EU
      • DARIAH
      • CHAT
      • LISTEN
      • Verteld Verleden
    • Projecten
      • Voltooid
        • TTNWW
        • Radio Oranje
        • Buchenwald
        • Bosnian Memories
        • Croatian Memories
      • Lopend
        • OH-Smart
        • Corpus Gesproken Nederlands
      • Demonstratie
        • Gemeenten
        • Oratie
        • Preek
        • Klimaatverandering
        • Café Weltschmerz
        • Debat Gemist
    • Programming
    • Software
    • Over mij
    • LOT 2023
      • Background
      • Course
    • NTU
    • Workshop(s)
  • Persoonlijk
    • Arjan
      • Arjan
      • Ouders
      • Zus & Broer
      • Neven & Nicht
      • Grootouders
      • Foto's
    • Brigitte
      • Operatie
    • Drentsche Patrijshonden
      • Pepper
      • Moos
    • Huizen
      • Samen
        • Italië
        • Burg. Reiger (2010 - ...)
        • Steve Biko (2009 - 2010)
        • Baarnseweg (2007 - 2009)
        • Poortstraat (1994 - 2007)
      • Arjan
        • Poortstraat (1977 -1994)
        • Sweelincklaan (1972 -1977)
        • Soestdijkseweg (1965 -1972)
        • Biltzigt (1958 -1965)
      • Brigitte
        • Thijssenlaan (1985 - 1994)
        • Braamstraat (1981 - 1985)
        • Voorstraat (1980 -1981)
        • Hopakker (1980 -1980)
        • Kemperstraat (1979 -1979)
        • Verwerstraat (1968 - 1979)
        • Oude Raadhuisstraat (1961 - 1968)
        • Drostlaan (1960 - 1961)
    • Rolanda
      • Levensverhaal
      • Rolanda 85
      • Afnemende Gezondheid
      • Begrafenis
      • Foto's
        • 85 Jaar
        • Sta-op stoel
  • Interessant
    • Zipf's Law
    • Conversatie Regels
    • Toon PDF
  • Extra Activiteit

blogs

  • Blogs
  • Populaire
  • Wetenschappelijk
  • Drenten

NLP versus NLU versus NLG

Er zijn verschillende groepen van algoritmes die gebruikt worden om vrije, ongestructureerde taal te “processen”. De oudste groep is die van de Natural Language Processing (NLP) terwijl de twee nieuwere groepen die van de Natural Language Understanding (NLU) en die van Natural Language Generation (NLG) zijn. NLP houdt zich simpel gezegd bezig met het “verwerken” van vrije tekst (via schrift of de ASR van gesproken spraak) in een gestandaardiseerde structuur. NLU daarentegen is een volgende stap en houdt zich bezig met het “interpreteren” van tekst om er betekenis aan te geven. NLG tenslotte is het proces van het genereren van natuurlijk (klinkende) taal.

NLU is een nieuwere verzameling algoritmes die meestal met moderne AI gedaan worden terwijl de klassiek NLP in eerste instantie een wat oudere en meer klassieke set algoritmes betreft.

Geschiedenis NLP

De geschiedenis van de automatische vertaling gaat terug tot de 17de eeuw, toen filosofen als Leibniz en Descartes voorstellen deden voor codes die woorden tussen talen met elkaar in verband zouden brengen. Al deze voorstellen bleven echter theoretisch, en leidde niet tot de ontwikkeling van een echte machine. Het duurde nog tot het midden van de jaren 1930 voordat de eerste octrooien voor het automatisch vertalen werden aangevraagd.

In 1950 publiceerde Alan Turing zijn beroemde artikel "Computing Machinery and Intelligence", waarin hij een voorstel deed voor wat nu de Turing test wordt genoemd als criterium voor intelligentie. Dit criterium hangt af van het vermogen van een computerprogramma om zich in een real-time schriftelijk gesprek met een menselijke rechter voor te doen als een mens, en wel zo goed dat de rechter niet in staat is om - alleen al op basis van de inhoud van het gesprek - op betrouwbare wijze onderscheid te maken tussen het programma en een echt mens.

NLU & NLG

Met de komst van enerzijds snelle computers, het internet en grote hoeveelheden data en anderzijds de snel stijgende (markt)vraag naar snelle en betrouwbare “taalprocessing” algoritmes, begon NLP aan een gestage en steeds snellere opmars. En tegenwoordig zouden we waarschijnlijk niet zonder NLP en eigenlijk ook niet zonder NLU en NLG meer kunnen. Denk aan het automatisch vertalen, het bepalen van de intent van een gesprek, het maken van een samenvatting of geven van persoonlijke informatie in een telefoongesprek.

Bij beiden zien we een verglijkbaar patroon. Het begon ergens in de jaren negentig met vooral op regels gebaseerde systemen maar verschoof met de komst van goede en snelle AI-software al snel richting Kunstmatige Intelligentie.

Voorbeelden

NLP (Natural Language Processing)

Het is wellicht een goed idee om van de drie Natural Language processen een paar voorbeelden te geven. Stel je hebt een telefoongesprek waarin een beller iets wil weten over de vergunningsaanvraag voor een schuurtje. En dat gaat als volgt:
“Goedemorgen, met Pauline. Ik heb drie weken geleden een aanvraag ingediend voor de bouw van een schuur en ik wilde nu wel eens weten hoe het er mee staat.”

De eerste stappen die gedaan moeten worden zijn typische NLP-stappen waarin de ongestructureerde tekst wordt omgezet in een voor een computer begrijpelijk vorm. De NLP-stappen die genomen kunnen worden zijn:

  1. Afbeelding2Tokenization: de detectie van ieder afzonderlijk woord. In onze voorbeelzin zijn dit dus 29 tokens.
    1. Stemming: het herschrijven van een werkwoordsvorm of zelfstandig naamwoord vorm in zijn basis (bv wandelden -> wandelen of huisjes -> huis)
    2. Lemmatization: het bepalen via een woordenboek (of database) van de betekenis van het woord. Stel je hebt het woord “beter” dan zie je via het woordenboek dat dat komt van “goed”. Het is nu zo dat het of Stemming of Lemmatization is.
  2. Part of Speech tagging: hiermee bepaal je de klasse van het woord. Is het bijvoorbeeld een werkwoord, een zelfstandig naamwoord of een voorvoegsel?
  3. Named Entity Recognition: dit is het bepalen of er een entiteit met het woord verbonden is. In onze voorbeeldzin is dit bv Pauline. De entiteit is hier een persoonsnaam.

Afbeelding1

Nu zijn er uiteraard veel meer tools beschikbaar. Maar we kunnen stellen dat we, afhankelijk van wat we met de inkomende, ongestructureerde tekst willen doen, een aantal NLP-tools op de tekst kunnen loslaten om er op die manier gestructureerde informatie van te maken waarmee de computer vervolgens iets kan doen.

NLU

Stel we hebben twee Engelse zinnen:

  1. Alice is swimming against the current.
  2. The current version of the report is in the folder.

In zin 1 is current een zelfstandig naamwoord dat hoort bij swimming terwijl het in zin 2 een adjectief is dat iets zegt over het zelfstandig naamwoord version. Als we al deze onderlinge verbanden goed in kaart brengen, dan kunnen we daarmee iets zeggen over de betekenis van de tekst.

NLG

De andere kant op is NLG. Hiermee maak je een goed klinkende zin in jouw taal, gebaseerd op een set input parameters. Ook hiervoor zijn een hele reeks verschillende algoritmes beschikbaar om een zin bv uitgebreid en beleefd, of juist kort en krachtig te maken. Ook kun je de output (de tekst) geschikt maken voor het hoger opgeleide deel van de samenleving of juist voor hen die de taal (nog) niet helemaal machtig zijn. Hoewel ook NLG begon in het pre-AI tijdperk, zijn de huidige tools allemaal AI-gebaseerd. Ze werken snel, gebruiken relevante data en zijn relatief makkelijk en snel aan te passen.

Toepassingen

Waar worden de verschillende NLP-, NLU- en NLG-algoritme nu gebruikt. Wel, in ongeveer alle moderne toepassingen van bv Call Routing, Q&A en andere telefonieapplicaties van bv Telecats. De eerste vraag die het systeem stelt is vaak om te weten te komen wie er belt. De volgende vraag is dan “waar bel je eigenlijk voor?”. En hier wordt het lastig. Want mensen antwoorden u eenmaal niet met een grammaticaal correcte zin die direct correct te interpreteren is. Stel het antwoord is “ja, ik eh, ik bel eigenlijk om, eh om iets te weten te komen over het, het er nu voor mij voorstaat. Ik bedoel krijg ik die rode stoel nu wel of niet?”

De intent is waarschijnlijk “status update bestelling beller” maar hoe krijg je die intent uit de geuite zin?

Toekomstige ontwikkelingen

Hoewel NLU en NLG beide snelle ontwikkelingen doormaken en er steeds meer tools komen om te begrijpen wat iemand bedoelt, is het nog niet zo dat we klaar zijn. Een belangrijk en deels nog onbekend onderdeel van het begrijpen komt van hoe iets gezegd wordt. Je kunt bv ja zeggen maar het duidelijk maken door de manier waarop je dat zegt, dat je nee bedoelt. Wanneer we ons alleen richten op wat er gezegd wordt, dan krijgen we dus soms een verkeerd antwoord. Deze emotie-detectie is iets waar veel bedrijven mee bezig zijn maar het is behoorlijk lastig omdat de eigenschappen van de spreker hier ook een rol in spelen. Een rustige en beschaafde oudere dame zal nu eenmaal anders spreken dan een opgewonden jongeling. Maar hoe bepaal je wat voor iemand er belt?

Wellicht gaan we hier binnenkort meer over schrijven maar voor nu: veel leesplezier!

Links

https://www.bmc.com/blogs/nlu-vs-nlp-natural-language-understanding-processing/

https://www.ibm.com/blogs/watson/2020/11/nlp-vs-nlu-vs-nlg-the-differences-between-three-natural-language-processing-concepts/

https://www.youtube.com/watch?v=fLvJ8VdHLA0

https://www.youtube.com/watch?v=1I6bQ12VxV0

https://en.wikipedia.org/wiki/History_of_natural_language_processing

 

Dit artikel is ook inh et Engels en Frans verschenen op de websites van WebHelp en Telecats

Exploiting the EU’s enormous multilingual text collections to build Language Technology solutions for all EU languages

 

Volgens een studie door gerenommeerde Europese TST-experts worden 21 van de 30 bestudeerde talen (70%) bedreigd met digitale uitroeiing omdat de digitale ondersteuning van deze talen niet of nauwelijks aanwezig is[i]. Dit oordeel is gebaseerd op onderzoek in vier gebieden: automatische vertaling, spraak interactie, tekst analyse en de beschikbaarheid van tekst-corpora. Tekst-corpora zijn noodzakelijke ingrediënten voor de ontwikkeling van de drie genoemde meer complexe Taal- en Spraaktechnologieën. Zulke waardevolle corpora zijn echter dun gezaaid, zelfs voor de meerderheid van de 23 officiële Europese talen. De Eu maakt en bezit grote hoeveelheden meertalige corpora die gebruikt kunnen worden voor de ontwikkeling van taal-gebaseerde applicaties. De EU is dus in de positie om het TST-veld een flinke steun in de rug te geven en dat doet ze dan ook! Wat doen de EU-instituties dan precies? En hoe kan zelfs een eenvoudig verzameling tekst-bestandjes gebruikt worden om taal- en spraaksoftware te ontwikkelen? Wordt de Nederlandse taal bedreigd met digitale uitsterving? Dit zijn een aantal van de vragen die we in het onderstaande document zullen trachten te beantwoorden. Laten we bij het begin beginnen.

Hebben we daadwerkelijk behoefte aan TST-tools voor alle Europese talen?

 

Is het werkelijk noodzakelijk dat we tools hebben voor Nederlands, Portugees, Litouws en Sloveens? Kunnen we niet beter allemaal goed Engels leren zodat het probleem is opgelost?

Dit is min-of-meer de situatie in de VS, een meertalig land met meerdere nationaliteiten waar men besloten heeft allemaal Engels als de nationale taal te gebruiken. Iedere buitenlandse tekst wordt gewoon vertaalt in Engels. Maar, zouden we dat als Europeanen wel willen? Waarom Engels en niet Nederlands, Duits of Frans? Volgens de Eurobarometer[ii], spreekt slechts 38% van de Europeanen voldoende goed Engels als een tweede taal om te kunnen converseren en 58% is in staat om in een willekeurig andere taal te kunnen converseren en je kunt dus stellen dat we nog lang niet het ideaal van een taal bereikt hebben. Bovendien komen in een internationale setting niet-moedertaal sprekers dikwijls als minder ontwikkeld en dommer over dan mensen die hun eigen taal spreken.

Een ander argument tegen de eenzijdige focus op het Engels is dat we gezien hebben tijdens het jarenlang bestuderen van multinationale media monitoring , dat de verstrekte informatie in het nieuws in de verschillende talencomplementair[iii]is. Alleen wereldomspannende grote gebeurtenissen worden in de verschillende talen gebracht maar de meeste plaatselijke gebeurtenissen worden nooit vertaald en halen niet de internationale pers.

De in dit artikel getoonde kaart van de Europese Media Monitor[iv], toont de plaatsen die genoemd werden in een momentopname van het live news. Elk van de bijna 50 nieuws-talen heeft een eigen kleur gekregen hetgeen duidelijk maakt dat gebeurtenissen in bepaalde gebieden alleen in sommige talen gerapporteerd worden en in andere talen niet. Wanneer we alleen het Engelse nieuws zouden monitoren, dan zouden we de meeste gebeurtenissen en de meeste details domweg missen.

De EU staat op meertaligheid

Ongeveer tien jaar geleden, richtlijn 2003/98/EC[v] van het Europese Parlement en de Raad voor het hergebruik van publieke informatie onderkende dat meertaligheid een van Europa’s basisprincipes is die de culturele en talige diversiteit garandeert.

De wetgevers merkten vervolgens op dat vertaal- en taal-overstijgende informatie toegangstechnologie een potentiële bijdrage kan leveren aan het transparanter, gelijker, verantwoordelijker en democratischer maken van de EU omdat het de burgers toegang geeft tot beleids- en wetgevende voorstellen in alle Europese talen.

En, zou het niet mooi en interessant zijn wanneer we weten wat de (geplande) wetgeving is in de ons omringende landen zegt over genetisch gemodificeerde organisme, over het dragen van een boerka in het publieke domein, en over subsidies voor alternatieve energie? De Richtlijn stelt verder dat taal-overschrijdende toegang een positief effect kan hebben op het weghalen van hindernissen voor concurrentie in de interne markt van de EU. Om al deze redenen plaveide de wetgever alweer negen jaar geleden de weg voor een onbelemmerde toegang voor R&D tot de enorme Europese collectie meertalige teksten.

Hoe kan een eenvoudige document-collectie helpen TST-tools te ontwikkelen?

We hebben dus TST-applicaties in vele talen nodig. Om ze te ontwikkelen hebben we basis resources zoals corpora en woordenboeken nodig en we hebben behoefte aan software componenten zoals morfologische analyse tools, grammaticale ontleders, enz. enz. The Eu heft een groot aantal parallelle corpora; documenten en hun handmatig geproduceerde vertalingen. Parallelle data is bijzonder nuttig omdat het de training mogelijk maakt van statistische vertaalcomputers (niet allen voor Engels, Duits of Frans maar ook voor minder gebruikte talen) . Het kan bovendien gebruikt worden voor het automatisch genereren van woordenboeken. Het staat annotatieprojectie over talen toe zodat het goedkoper wordt om TST-programma’s te maken en te testen. De hierboven genoemde EU-richtlijn van 2003 erkent het nut van EU-gegevens voor het ontwikkelen van TST-hulpmiddelen en het effent de weg voor de vrije en wijdverspreide distributie ervan. In 2006 heeft het eigen Joint Research Centre (JRC) een groot aantal parallelle corpora gemaakt en beschikbaar gesteld; iets dat een significante bijdrage leverde voor het voor de eerste keer ontwikkelen van een automatisch vertaalsysteem voor 462 taal-paren waarvan ook de minder gebruikte taal-paren zoals Portugees-Litouws en Fins-Sloveens deel uitmaakten[vi]. Sindsdien hebben verscheidene in grote mate meertalige EU corpora het licht gezien[vii].

Heeft de EU meer dan ruw tekstmateriaal?

Ja, dat hebben ze! EU organisaties hebben - in een voor computers leesbare vorm – het zeer grote meertalige inter-institutionele terminologie-gegevensbestand IATE[viii], beschikbaar gemaakt. Daarnaast  nog verscheidene meertalige thesaurussen en classificaties schema’s (inclusief EuroVoc[ix]en enkele ondersteuningstools en informatie voor vertalers[x]).

In 2011 werd het JRC-Namen[xi]corpus gelanceerd. Een corpus dat bestaat uit automatisch gegenereerde meertalige namenlijsten (zie in het kader de verschillende spellingsvarianten van de naam Bashar Assad). Ook bijbehorende software werd beschikbaar gesteld die gebruikt kan worden voor het verbeteren van het automatisch vertalen van namen. JRC-Namen helpt ook bij het vinden van gelijke namen die verschillend gespeld worden (inclusief de verschillende schrijfwijze in de verschillende lettertype)  in dataverzamelingen zoals pers en fotoarchieven. Bovendien helpt het bij het trainen en testen van zogeheten Named Entity herkenningssoftware in verschillende talen. In 2012, werd de tekstcategorisatie tool JRC EuroVoc Indexer (JEX)[xii]gelanceerd. Deze software, die getraind is op 22 talen, claimt de snelheid en consistentie van het werk van bibliothecarissen te verbeteren (zie het EuroVoc screenshot, die de Engelse beschrijving geeft van een Hongaarse tekst). Als softwarecomponent, kan JEX bijdragen aan het vinden van verwante teksten in verschillende talen en van gevallen van cross-linguaal plagiaat.

Deze EU bronnen lossen niet alle problemen op , maar ze brengen ons wel dichter bij het uiteindelijke doel: het makkelijk en in verschillende talen met elkaar kunnen communiceren van mensen en machines! Het grootste voordeel van deze EU-corpora is dat ze een bijna even grote hoeveelheid data bevatten voor de veel en de minder gebruikte talen.

Is het Nederlands een bedreigde taal?

En hoe zit het met het Nederlands? Wordt het bedreigd? Is het voldoende goed toegerust voor de volgende generatie mens-machine interactiesoftware? Volgens de recente META-Net studie, is het Nederlands , samen met het Frans, Duits, Italiaans en Spaans, een van paar Europese talen die “redelijk ondersteund” zijn; alleen het Engels dat een “geode ondersteuning” heeft, doet het beter. Dit is erg goed nieuws voor de Nederlandse taal en een compliment voor de Nederlandse en Vlaamse onderzoekers en hun regeringen die duidelijk meer steun geven dan veel andere landen. Er is echter geen reden tot rust: de weg naar goed werkende tekstanalysesoftware en feilloos werkende mens-machine interactie is lang en moeilijk en de Engelstalige software wordt met een razende snelheid ontwikkeld.

 


[i] http://www.meta-net.eu/%20whitepapers/

[ii] http://ec.europa.eu/public_opinion/archives/ebs/ebs_386_en.pdf

[iii] http://www.springerlink.com/content/86656518k7116r2u/

[iv] http://emm.newsbrief.eu/geo?format=html&type=cluster&language=all

[v] http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32003L0098:EN:NOT

[vi] http://www.mt-archive.info/MTS-2009-Koehn-1.pdfand http://www.euromatrixplus.net/

[vii] http://langtech.jrc.ec.europa.eu/JRC_Resources.html

[viii] http://iate.europa.eu/

[ix] http://eurovoc.europa.eu/

[x] http://ec.europa.eu/dgs/translation/publications/

[xi] http://langtech.jrc.ec.europa.eu/JRC-Names.html

[xii]c href="http://langtech.jrc.ec.europa.eu/Eurovoc.html">http://langtech.jrc.ec.europa.eu/Eurovoc.html

Pagina 4 van 9

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • Laatste aanpassing website: vrijdag 13 maart 2026, 15:38:19.
  • Copyright @2026 Arjan van Hessen