brs85 - Populaire

Volgens een studie door gerenommeerde Europese TST-experts worden 21 van de 30 bestudeerde talen (70%) bedreigd met digitale uitroeiing omdat de digitale ondersteuning van deze talen niet of nauwelijks aanwezig is[i]. Dit oordeel is gebaseerd op onderzoek in vier gebieden: automatische vertaling, spraak interactie, tekst analyse en de beschikbaarheid van tekst-corpora. Tekst-corpora zijn noodzakelijke ingrediënten voor de ontwikkeling van de drie genoemde meer complexe Taal- en Spraaktechnologieën. Zulke waardevolle corpora zijn echter dun gezaaid, zelfs voor de meerderheid van de 23 officiële Europese talen. De Eu maakt en bezit grote hoeveelheden meertalige corpora die gebruikt kunnen worden voor de ontwikkeling van taal-gebaseerde applicaties. De EU is dus in de positie om het TST-veld een flinke steun in de rug te geven en dat doet ze dan ook! Wat doen de EU-instituties dan precies? En hoe kan zelfs een eenvoudig verzameling tekst-bestandjes gebruikt worden om taal- en spraaksoftware te ontwikkelen? Wordt de Nederlandse taal bedreigd met digitale uitsterving? Dit zijn een aantal van de vragen die we in het onderstaande document zullen trachten te beantwoorden. Laten we bij het begin beginnen.

Hebben we daadwerkelijk behoefte aan TST-tools voor alle Europese talen?

Is het werkelijk noodzakelijk dat we tools hebben voor Nederlands, Portugees, Litouws en Sloveens? Kunnen we niet beter allemaal goed Engels leren zodat het probleem is opgelost?

Dit is min-of-meer de situatie in de VS, een meertalig land met meerdere nationaliteiten waar men besloten heeft allemaal Engels als de nationale taal te gebruiken. Iedere buitenlandse tekst wordt gewoon vertaalt in Engels. Maar, zouden we dat als Europeanen wel willen? Waarom Engels en niet Nederlands, Duits of Frans? Volgens de Eurobarometer[ii], spreekt slechts 38% van de Europeanen voldoende goed Engels als een tweede taal om te kunnen converseren en 58% is in staat om in een willekeurig andere taal te kunnen converseren en je kunt dus stellen dat we nog lang niet het ideaal van een taal bereikt hebben. Bovendien komen in een internationale setting niet-moedertaal sprekers dikwijls als minder ontwikkeld en dommer over dan mensen die hun eigen taal spreken.

Een ander argument tegen de eenzijdige focus op het Engels is dat we gezien hebben tijdens het jarenlang bestuderen van multinationale media monitoring , dat de verstrekte informatie in het nieuws in de verschillende talencomplementair[iii]is. Alleen wereldomspannende grote gebeurtenissen worden in de verschillende talen gebracht maar de meeste plaatselijke gebeurtenissen worden nooit vertaald en halen niet de internationale pers.

De in dit artikel getoonde kaart van de Europese Media Monitor[iv], toont de plaatsen die genoemd werden in een momentopname van het live news. Elk van de bijna 50 nieuws-talen heeft een eigen kleur gekregen hetgeen duidelijk maakt dat gebeurtenissen in bepaalde gebieden alleen in sommige talen gerapporteerd worden en in andere talen niet. Wanneer we alleen het Engelse nieuws zouden monitoren, dan zouden we de meeste gebeurtenissen en de meeste details domweg missen.

De EU staat op meertaligheid

Ongeveer tien jaar geleden, richtlijn 2003/98/EC[v] van het Europese Parlement en de Raad voor het hergebruik van publieke informatie onderkende dat meertaligheid een van Europa’s basisprincipes is die de culturele en talige diversiteit garandeert.

De wetgevers merkten vervolgens op dat vertaal- en taal-overstijgende informatie toegangstechnologie een potentiële bijdrage kan leveren aan het transparanter, gelijker, verantwoordelijker en democratischer maken van de EU omdat het de burgers toegang geeft tot beleids- en wetgevende voorstellen in alle Europese talen.

En, zou het niet mooi en interessant zijn wanneer we weten wat de (geplande) wetgeving is in de ons omringende landen zegt over genetisch gemodificeerde organisme, over het dragen van een boerka in het publieke domein, en over subsidies voor alternatieve energie? De Richtlijn stelt verder dat taal-overschrijdende toegang een positief effect kan hebben op het weghalen van hindernissen voor concurrentie in de interne markt van de EU. Om al deze redenen plaveide de wetgever alweer negen jaar geleden de weg voor een onbelemmerde toegang voor R&D tot de enorme Europese collectie meertalige teksten.

Hoe kan een eenvoudige document-collectie helpen TST-tools te ontwikkelen?

We hebben dus TST-applicaties in vele talen nodig. Om ze te ontwikkelen hebben we basis resources zoals corpora en woordenboeken nodig en we hebben behoefte aan software componenten zoals morfologische analyse tools, grammaticale ontleders, enz. enz. The Eu heft een groot aantal parallelle corpora; documenten en hun handmatig geproduceerde vertalingen. Parallelle data is bijzonder nuttig omdat het de training mogelijk maakt van statistische vertaalcomputers (niet allen voor Engels, Duits of Frans maar ook voor minder gebruikte talen) . Het kan bovendien gebruikt worden voor het automatisch genereren van woordenboeken. Het staat annotatieprojectie over talen toe zodat het goedkoper wordt om TST-programma’s te maken en te testen. De hierboven genoemde EU-richtlijn van 2003 erkent het nut van EU-gegevens voor het ontwikkelen van TST-hulpmiddelen en het effent de weg voor de vrije en wijdverspreide distributie ervan. In 2006 heeft het eigen Joint Research Centre (JRC) een groot aantal parallelle corpora gemaakt en beschikbaar gesteld; iets dat een significante bijdrage leverde voor het voor de eerste keer ontwikkelen van een automatisch vertaalsysteem voor 462 taal-paren waarvan ook de minder gebruikte taal-paren zoals Portugees-Litouws en Fins-Sloveens deel uitmaakten[vi]. Sindsdien hebben verscheidene in grote mate meertalige EU corpora het licht gezien[vii].

Heeft de EU meer dan ruw tekstmateriaal?

Ja, dat hebben ze! EU organisaties hebben - in een voor computers leesbare vorm – het zeer grote meertalige inter-institutionele terminologie-gegevensbestand IATE[viii], beschikbaar gemaakt. Daarnaast nog verscheidene meertalige thesaurussen en classificaties schema’s (inclusief EuroVoc[ix]en enkele ondersteuningstools en informatie voor vertalers[x]).

In 2011 werd het JRC-Namen[xi]corpus gelanceerd. Een corpus dat bestaat uit automatisch gegenereerde meertalige namenlijsten (zie in het kader de verschillende spellingsvarianten van de naam Bashar Assad). Ook bijbehorende software werd beschikbaar gesteld die gebruikt kan worden voor het verbeteren van het automatisch vertalen van namen. JRC-Namen helpt ook bij het vinden van gelijke namen die verschillend gespeld worden (inclusief de verschillende schrijfwijze in de verschillende lettertype) in dataverzamelingen zoals pers en fotoarchieven. Bovendien helpt het bij het trainen en testen van zogeheten Named Entity herkenningssoftware in verschillende talen. In 2012, werd de tekstcategorisatie tool JRC EuroVoc Indexer (JEX)[xii]gelanceerd. Deze software, die getraind is op 22 talen, claimt de snelheid en consistentie van het werk van bibliothecarissen te verbeteren (zie het EuroVoc screenshot, die de Engelse beschrijving geeft van een Hongaarse tekst). Als softwarecomponent, kan JEX bijdragen aan het vinden van verwante teksten in verschillende talen en van gevallen van cross-linguaal plagiaat.

Deze EU bronnen lossen niet alle problemen op , maar ze brengen ons wel dichter bij het uiteindelijke doel: het makkelijk en in verschillende talen met elkaar kunnen communiceren van mensen en machines! Het grootste voordeel van deze EU-corpora is dat ze een bijna even grote hoeveelheid data bevatten voor de veel en de minder gebruikte talen.

Is het Nederlands een bedreigde taal?

En hoe zit het met het Nederlands? Wordt het bedreigd? Is het voldoende goed toegerust voor de volgende generatie mens-machine interactiesoftware? Volgens de recente META-Net studie, is het Nederlands , samen met het Frans, Duits, Italiaans en Spaans, een van paar Europese talen die “redelijk ondersteund” zijn; alleen het Engels dat een “geode ondersteuning” heeft, doet het beter. Dit is erg goed nieuws voor de Nederlandse taal en een compliment voor de Nederlandse en Vlaamse onderzoekers en hun regeringen die duidelijk meer steun geven dan veel andere landen. Er is echter geen reden tot rust: de weg naar goed werkende tekstanalysesoftware en feilloos werkende mens-machine interactie is lang en moeilijk en de Engelstalige software wordt met een razende snelheid ontwikkeld.

[i] http://www.meta-net.eu/%20whitepapers/

[ii] http://ec.europa.eu/public_opinion/archives/ebs/ebs_386_en.pdf

[iii] http://www.springerlink.com/content/86656518k7116r2u/

[iv] http://emm.newsbrief.eu/geo?format=html&type=cluster&language=all

[v] http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32003L0098:EN:NOT

[vi] http://www.mt-archive.info/MTS-2009-Koehn-1.pdfand http://www.euromatrixplus.net/

[vii] http://langtech.jrc.ec.europa.eu/JRC_Resources.html

[viii] http://iate.europa.eu/

[ix] http://eurovoc.europa.eu/

[x] http://ec.europa.eu/dgs/translation/publications/

[xi] http://langtech.jrc.ec.europa.eu/JRC-Names.html

[xii]c href="http://langtech.jrc.ec.europa.eu/Eurovoc.html">http://langtech.jrc.ec.europa.eu/Eurovoc.html

Een overzicht van de ontwikkelingen op het gebied van chat en spraaktechnologie ofwel voice-bots en gewone bots.
Het artikel is in zowel het Nederlands als het Engels en heeft de bedoeling om goed uit te leggen wat elk is en wat de verschillen ertussen zijn.

Van Chat naar Spraak. Is dit mogelijk en zo ja, hoe?

Spraak

Zo'n ±40 jaar geleden was er iets nieuws op de telefoniemarkt: IVR. Door het indrukken van een of meer van de 12 toetsen op een telefoon was het mogelijk om een vraag te beantwoorden die door "de telefoon" werd gesteld. U kunt denken aan "voor de afdeling Inkoop druk 1, voor de afdeling Verkoop druk 2". Het werd een groot succes en honderden bedrijven over de hele wereld boden dit soort "automatische dialogen" aan. Natuurlijk was de keuze van de input beperkt, je kon niet meer dan ±6 verschillende opties per vraag aanbieden en niet meer dan 3 of 4 lagen diep. Bovendien was de flexibiliteit van deze systemen beperkt en kostte het veel tijd (en geld) om ze te veranderen.
Maar toch... het werd een groot succes en het wordt nog steeds in veel diensten gebruikt. In het begin van de jaren negentig kwam spraakherkenning beschikbaar voor het Engels (Amerika en Engeland), een paar jaar later gevolgd door het Frans, Duits en Nederlands voor commerciële doeleinden.

Natuurlijk waren de eerste dialogen eigenlijk een soort IVR met spraak, maar toen de technologie rijper werd, werden de gesproken dialogen dat ook. En toen "slot-filling" het mogelijk maakte meerdere slots tegelijk te vullen (b.v. "morgenvroeg" "van Utrecht" "naar Enschede") begonnen pionierende bedrijven de waarde van Spraakherkenning in te zien en stapten (langzaam) over van IVR naar ASR.
Aan het begin van de 21^ste eeuw werd spraakherkenning meer en meer aanvaard en begon ASR de dominante rol van IVR in de wereld over te nemen.

In de loop der jaren werd de spraakherkenning niet alleen beter (minder herkenningsfouten) maar ook slimmer (meer woorden). In plaats van een door de systeemontwikkelaars opgestelde "grammatica" maakte LVCRS (Large Vocabulary Continuous Speech Recognition) de weg vrij voor "zeg wat je wilt zeggen, wij zullen het herkennen". Met LVCRS konden mensen "gewoon" spreken en moest een slimme NLP-eenheid (Natural Language Processing) de betekenis van de boodschap uit de herkende spraak halen.

Toen AI beschikbaar kwam voor commercieel gebruik (±2010), veranderde er veel! DNN's (Deep Neural Networks) voor spraakherkenning (Microsoft, 2014) hebben de WER (Word Error Rate) in de daaropvolgende 5 jaar drastisch verminderd. Vandaag is het voor duidelijk gesproken Amerikaans-Engels (en Chinees) op het niveau van de mens. En toch... wij mensen doen het bijna altijd beter dan machines in echte situaties. Maar waarom?

Tekst

In de late jaren '90 en vroege jaren '00 kwamen chatdiensten op. Mensen konden geschreven berichten met elkaar uitwisselen in min of meer real time via Messenger of andere diensten. In het begin was het iets dat vooral door kinderen werd gebruikt, maar al snel zagen oudere mensen er het nut van in en werd het langzaamaan heel groot. Maar... het was, zeker de eerste jaren, vooral een manier van mens-mens communicatie: je schreef je vriendin een bericht, zij las het en stuurde een antwoord.
Maar al snel kwamen er vragen over self-services: konden die geschreven berichten nu niet (deels) geautomatiseerd worden? En zo, beetje bij beetje, kwamen er geautomatiseerde tekstdiensten beschikbaar. Je kon een vraag intypen, die vervolgens (half)automatisch werd beantwoord. En ook hier deed AI zijn intrede en werden de dialogen steeds "menselijker" en soms is het moeilijk te zien of een mens of een machine je vragen beantwoordt.

Zowel gesproken als geschreven dialogen doorstaan de Turingtest meestal nog niet, maar ze worden steeds beter en kunnen al met succes worden gebruikt.

Taal en Spraak

Aanvankelijk lagen de soorten gesproken en geschreven dialogen vrij ver uit elkaar, maar naarmate de technologie verbeterde en vooral na de komst van DNN's voor zowel sterk verbeterde spraakherkenning als NLP, zijn chat- en spraakbots redelijk in opkomst. Je ziet ze steeds meer bij bedrijven, overheid en andere organisaties. En, soms verrassend, acteren ze ook nog redelijk tot zeer goed.
De populariteit zet je aan het denken om ze te combineren. Je besteedt immers veel tijd aan het opzetten van een goede chatbot, dus waarom zou je die niet ook toegankelijk maken voor spraak?

Tot ±5 jaar geleden was dit niet aan te raden. De geschreven chatbot en de gesproken voicebot verschilden in opzet en bedienden ook een (iets) andere doelgroep. De gesproken versie was meer gericht op de spreker: wat kon een organisatie voor hem of haar betekenen, of wat moest hij of zij doen om iets te bereiken. De schriftelijke vorm was duidelijk afstandelijker en ging meer over informatie over de organisatie, over wat ze deden en wie ze waren. Maar dat laatste veranderde met de komst van chatbots. De meer formele manier werd vaak vervangen door een informele manier, de toon van de stem veranderde en het scala van dingen die je kon afhandelen werd breder.

Men zag duidelijk dat chat en voice naar elkaar toe groeiden, waardoor integratie op de achtergrond voor de hand lag. En toen ging het snel. Nu vragen steeds meer bedrijven of hun bestaande chatbot(s) ook voor voice gebruikt kunnen worden. En meestal is het antwoord: ja, mits... Want natuurlijk: er is nog steeds een verschil tussen die twee, al is dat een stuk minder dan 5 jaar geleden.

Combinatie van spraak en chat

Het verschil tussen de twee is duidelijk: ASR om van spraak naar tekst te gaan en TTS om van tekst terug naar spraak te gaan. Beide technieken worden snel beter en beter en vooral met de TTS is er niet veel aan de hand: de gesproken tekst zou misschien iets beter kunnen, iets natuurlijker en misschien met iets meer personalisatie, maar in het algemeen is hij goed te begrijpen.

Met ASR en de daaropvolgende NLP-engine ligt dat duidelijk anders. Mensen spreken over het algemeen niet grammaticaal correct, stoppen halverwege een zin, geven het onderwerp een andere naam of gaan ervan uit dat wat zij zeggen gemakkelijk kan worden begrepen. Moderne ASR-engines kunnen de gesproken tekst omzetten in geschreven tekst, maar de vraag is of de NLP-engine er iets zinnigs van kan maken. Natuurlijk: dit geldt ook voor de NLP-engine die de geschreven boodschap moet omzetten in iets zinnigs, maar zolang de schrijvers redelijk dicht in de buurt blijven van het opschrijven van wat zij bedoelen, is dit meestal wel te doen.

plaatje Afbeelding van de structuur van een Chat- en Voicebot.

De (wetenschappelijke) focus ligt dus op de stap van "spraak" naar "begrijpelijke tekst". Met andere woorden, van herkennen naar begrijpen. Dit is een zeer boeiend maar ook moeilijk onderwerp waar we de volgende keer dieper op in zullen gaan.
Wat de combinatie van Voice en Chatbots betreft, kunnen we stellen dat, op voorwaarde dat de complexiteit van de dialoog niet te groot is, het over het algemeen goed te doen is. En we zien dit terug in een sterke groei van toepassingen waarin beide kanalen worden ontwikkeld en gebruikt.

From Chat to Voice. Is this possible and if so, how?

Voice

About ±40 years ago, we had something new in the telephony market: IVR. By pressing one or more of the 12 keys on a telephone, it was possible to answer a question asked “by the telephone”. You may think of "for the Purchasing department press 1, for the Sales departments press 2". It became a great success and hundreds of companies all over the world offered this kind of "automatic dialogues". Of course, the choice of input was limited, you could not offer more than ±6 different options per question and a maximum of 3 or 4 layers deep. Moreover, the flexibility of these systems was limited and it took a lot of time (and money) to change them.
But still... it became a great success and it is still used in many services. In the early nineties, speech recognition became available for English (America and England) followed a few years later for French, German and Dutch for commercial purposes.

Of course, the first dialogues were actually a kind of IVR with speech, but when the technology matured, so did the spoken dialogues. And when “slot-filling” allowed you to fill several slots at once (e.g. "tomorrow morning” “from Utrecht” “to Enschede") pioneering companies started to see the value of Speech Recognition and (slowly) switched from IVR to ASR.
At the beginning of the 21^st century, speech recognition became more and more accepted and ASR started to take over the dominant role of IVR in the world.

Over the years, speech recognition became not only better (less recognition errors) but also smarter (more words). Instead of a "grammar" drawn up by the system developers, LVCRS (Large Vocabulary Continuous Speech Recognition) enabled the way to “say what you want to say, we will recognise it”. With LVCRS, people could "just" speak and a smart NLP (Natural Language Processing) unit had to extract the meaning of the message from the recognised speech.

With AI becoming available for commercial use (±2010), a lot changed! DNNs (Deep Neural Networks) for speech recognition (Microsoft, 2014) decreased the WER (Word Error Rate) drastically in the following 5 years. Today it is for clearly spoken American-English (and Chinese) at the level of humans. And yet... we humans almost always do better than machines in real situations. But why?

Text

In the late ‘90s and early ‘00s, chat services emerged. People could exchange written messages with each other in more or less real time via Messenger or other services. At first, it was something mainly used by children, but quickly elder people saw the usefulness of it and it slowly became very big. But... it was, certainly the first years, mainly a way of human-human communication: you wrote your friend a message, she read it and sent a reply.
But quickly there were questions about self-services: couldn't these written messages now be (partly) automated? And so, little by little, automated text services became available. You could type a question, which was then (semi-)automatically answered. And here too, AI made its appearance and the dialogues became more and more "human" and sometimes it is difficult to see if a human or a machine is answering your questions.

Both spoken and written dialogues usually do not yet pass the Turing test, but they are improving and can already be used successfully.

Language and Speech

Initially, the types of spoken and written dialogues were fairly far apart, but as technology improved and especially after the arrival of DNNs for both greatly improved speech recognition and NLP, chat and voice bots are fairly booming. You see them more and more at companies, government and other organisations. And, sometimes surprisingly, they also act reasonably to very well.
The popularity makes you think about combining them. After all, you spend a lot of time setting up a good chatbot, so why not make it accessible for speech as well?

Until ±5 years ago, this was not recommended. The written chatbot and the spoken voicebot differed in design and also served a (slightly) different target group. The spoken version was more focused on the speaker: what could an organisation do for him or her, or what did he or she have to do to achieve something. The written form was clearly more distant and was more about information about the organisation, about what they did and who they were. But the latter changed with the arrival of chatbots. The more formal way was often replaced by an informal way, the tone of voice changed and the range of things you could handle became wider.

It was clearly seen that chat and voice were growing together, making integration in the background obvious. And then things moved fast. Now, more and more companies are asking if their existing chatbot(s) can also be used for voice. And usually the answer is: yes, if… Because of course: there is still a difference between the two, although it is a lot less than 5 years ago.

Combining Voice and Chat

The difference between the two is clear: ASR to go from speech to text and TTS to go from text back to speech. Both techniques are rapidly getting better and better and especially with the TTS there is not much to worry about: the spoken text could perhaps be a little better, a little more natural and perhaps with a little more personalisation, but in general it is easy to understand.
With ASR and the subsequent NLP-engine, this is clearly different. People generally do not speak grammatically correct, stop halfway through a sentence, rename the subject or assume that what they are saying can be easily understood. Modern ASR-engines can convert the spoken text into written text, but the question is whether the NLP-engine can make sense of it. Of course: this also applies to the NLP-engine that has to convert the written message into something that makes sense, but as long as the writers stay reasonably close to writing down what they mean, this is usually doable.

plaatje Picture of the structure of a Chat and Voicebot.

The (scientific) focus is therefore on the step from "speech" to "understandable text". In other words, from recognising to understanding. This is a very fascinating but also difficult subject that we will discuss in more detail next time.
As far as the combination of Voice and Chatbots is concerned, we can state that, provided the complexity of the dialogue is not to great, it is generally doable. And we see this reflected in a strong growth of applications in which both channels are developed and used.

Pagina 3 van 9

Exploiting the EU’s enormous multilingual text collections to build Language Technology solutions for all EU languages