BRS85 - Geboorte van een nieuwe taal

Een aantal weken geleden deden AI-onderzoekers van Facebook een aardige ontdekking. Ze hadden mbv Machine Learning (ML) twee verschillende bots gemaakt die moesten leren met elkaar te praten (schriftelijk). In eerste instantie ging dit in het Engels, maar al snel besloten de bots daar allerlei zaken aan toe te voegen die, hoewel herkenbaar als Engels, niets meer met de Engelse syntax te maken hadden.
Wat was hier aan de hand?

Structuur van een taal

Iedere taal bestaat uit de combinatie van syntax (structuur) en semantiek (betekenis). De combinatie van beide vormt, samen met de uitingsmogelijkheden (bewegen, spreken, schrijven) en perceptiemogelijkheden (zien, horen) de taal. Dit geldt niet alleen voor menselijke talen, maar ook voor bijvoorbeeld computertalen.

De manier waarop invulling gegeven wordt aan syntax en semantiek is echter niet universeel, maar ligt vast binnen iedere taal.

Nederlands versus Italiaans

Zo zeggen we in het Nederlands “zachtjes” als het zachtjes moet en “heel zachtjes” als het nog zachter moet. In het Italiaans doen ze dat anders: daar herhalen ze gewoon de term zachtjes (=piano). Dus heel zachtjes wordt dan “piano piano” (of “pian piano”). Evenzo wordt een heel sterke koffie aangeduid met "un caffè forte forte".

Omkeringen

Andere voorbeelden zijn de omkeringen van oorspronkelijke betekenissen zoals die van 'verschrikkelijk'. Als je antwoordt op de vraag “hoe was het eten” met "verschrikkelijk", dan was het eten gewoon verschrikkelijk vies, saai, vervelend of iets anders negatief. Je kunt dat specificeren met 'verschrikkelijk vies' (dus het eten is vies, maar de atmosfeer wellicht heel gezellig). Maar je kunt op de oorspronkelijke vraag ook antwoorden met “verschrikkelijk lekker” en dan is het juist wel erg lekker.

Veranderingen

Deze manieren van taalgebruik liggen wel redelijk vast binnen een gemeenschappelijke taal (in een zekere periode en binnen een groep gebruikers van die taal). Denk bijvoorbeeld aan de SMS-taal ("w8 ff") of de taal van Communicatie Experts ("communiceren naar de toekomst toe"). Maar taal is dynamisch en aan verandering onderhevig en ook binnen subgroepen verandert taal in de loop der tijd. Een moderne conversatie tussen twee gewone Nederlanders zou voor iemand uit 1900 dan ook heel vreemd geklonken hebben (en natuurlijk omgekeerd). Voor ons is “verschrikkelijk lekker” volstrekt normaal, want wij zijn opgegroeid met deze wijze van uitdrukken.

Taal

Geen taal

mowgli Mowgli volgens Walt Disney Maar hoe zit het als je niet met een taal opgroeit? Geen enkele?

Het beroemdste (fictieve) voorbeeld is Mowgli van Rudyard Kipling. Het jongetje wordt achtergelaten in de jungle en opgevoed door een troep wolven. Pas in zijn puberjaren komt hij in contact met mensen en als hij later verliefd wordt op een leuk dorpsmeisje kan hij gewoon met haar praten. Spraken die wolven dan Hindi? Nee, en hier gaat Kipling in de fout. Mowgli was al veel te oud en had nooit meer "gewoon" kunnen leren spreken zoals een ander.

In 1970 werd bij toeval het meisje Genie (Californië, 1957) door de politie "ontdekt'. Als kind van een blinde moeder en mishandelende vader, groeide zij in volstrekte isolatie op en werd er nooit met haar of in haar bijzijn gesproken. Toen ze op 13-jarige leeftijd bevrijd werd, stortte heel linguïstisch Amerika zich erop om te zien of de theorie van Noam Chomsky klopte. Volgens deze theorie zou ze nooit meer goed een taal kunnen leren, want ze was al te oud. Kinderen leren de taal van direct na de geboorte tot de pubertijd via copy-paste en trial-by-error van hun omgeving. Maar als die omgeving niet spreekt, dan leren ze de taal dus ook niet.
Maar wat ze vooral kwijtraken, is het vermogen een taal te leren.

Gebarentaal

Screenshot van de video met Maria Zondernaam. Doof en opgegroeid zonder gebarentaal wordt het voor haar heel lastig om nog goed een taal te leren. Iets dergelijks zie je ook bij kinderen die doof geboren worden. In de meeste ontwikkelde landen gaan dove kinderen naar speciale scholen en leren ze communiceren in de (nationale) gebarentaal. Maar niet overal op de wereld gebeurt dit en soms groeien doven kinderen geïsoleerd op. Dan wordt het ook voor hen lastig om ooit nog goed te leren communiceren, zoals uit het tragische verhaal van Maria Zondernaam blijkt (zie het eerste deel van de video “The Birth of New Sign Language in Nicaragua”).

Nieuwe taal: mensen

Maar heb je per se een school en leraren nodig om een taal te leren? Wel als je een specifieke taal, de taal van jouw groep wilt leren (Nederlands Papiamento), maar niet als je 'n taal wilt leren! Dat kun je nl ook met soortgenoten.
Plaats je bijvoorbeeld een aantal dove kinderen bij elkaar dan zie je dat ze in no-time zelf een eigen taal met een duidelijke syntax “construeren”. Wij mensen hebben nu eenmaal de behoefte om met elkaar te communiceren en proberen dat hoe dan ook te doen. Gaat dat niet met luisteren en spreken, dan maar met gebaren. Dezelfde video laat dit heel goed zien. In Nicaragua werden pas na de revolutie in 1980 dove kinderen bij elkaar gezet en werd geprobeerd hen een taal te leren. Hoewel er wel gebarentaaldocenten bij betrokken waren, trokken de kinderen zich hier weinig van hen aan en construeerden ze zelf hun eigen taal. In eerste instantie deden ze maar wat, maar al snel kwam er binnen deze taal een door iedereen (binnen de groep) geaccepteerde structuur (de syntax) en konden nieuwe kinderen deze gebarentaal makkelijker leren.

Nieuwe taal: bots

Maar hoe zit dat dan bij die bots van Facebook? Die bots (Alice en Bob) kun je eigenlijk beschouwen als twee kinderen die in isolatie opgroeien. Met behulp van ML-algoritmes konden de bots zelf aan de slag om hun “conversatievaardigheden” te versterken. Ze kregen als opdracht mee "te onderhandelen over objecten" en uiteraard om zoveel mogelijk "winst" te behalen.

dialoog Mogelijke dialoogpaden bij het onderhandelen.

In eerste instantie ging dit in het Engels, maar al snel begonnen ze afwijkende structuren te gebruiken (zoals "verschrikkelijk lekker" ?).

Na een tijdje liep dit zo uit de hand dat het voor de onderzoekers niet meer mogelijk was om te begrijpen wat de bots zeiden. Maar het was beslist niet zo dat ze zomaar random woorden achter elkaar zetten. De bots hadden samen een nieuwe taal gemaakt en konden goed met elkaar communiceren. Een voorbeeld van zo’n conversatie tussen de twee bots Bob en Alice staat hieronder.

Bob:	i can i i everything else . . . . . . . . . . . . . .
Alice:	balls have zero to me to me to me to me to me to me to me to me to
Bob:	you i everything else . . . . . . . . . . . . . .
Alice:	balls have a ball to me to me to me to me to me to me to me
Bob:	i i can i i i everything else . . . . . . . . . . . . . .
Alice:	balls have a ball to me to me to me to me to me to me to me
Bob:	i . . . . . . . . . . . . . . . . . . .

Tekstuele uitvoer van de Bob en Alice bij het onderhandelen.

Wie weet waar het over gaat, mag het zeggen. Maar voor mensen is dit vooralsnog volstrekte abracadabra. Voor de bots lag dit anders: het waren volgens de ontwikkelaars van Facebook ongelofelijk slimme onderhandelaars geworden. Nadat de regels om te onderhandelen waren ingevoerd (zie schema hierboven), werden de bots losgelaten en vertrouwden ze op ML en geavanceerde strategieën in hun poging het resultaat van de onderhandelingen te verbeteren. Meer achtergrondinformatie staat in deze blog van Facebook.

We waren hier dus, net als in de video, getuige van de geboorte van een nieuwe taal. En omdat computers in sommige dingen nu eenmaal sneller zijn dan mensen was dit niet een jaren durend proces maar slechts één van een paar weken!

R.I.P.

Een paar weken geleden hebben de onderzoekers echter de stekker eruit gehaald. Zoals Mike Lewis van Facebook's FAIR programma aangeeft, was het de bedoeling dat de bots met mensen communiceerden. Door een eigen, voor mensen volstrekt onbegrijpelijke taal te creëren, voldeed het experiment niet meer aan de oorspronkelijke opzet.

Hoe gaat dit verder?

Hoewel het experiment van Facebook op dit moment beëindigd is, ligt het in de lijn der verwachting dat zij of anderen er later mee door zullen gaan (als het nu al niet gebeurt). Deze ontwikkeling is dermate interessant dat geheid een aantal onderzoeksgroepen gaat experimenteren met nieuwe manieren om bots met elkaar te laten onderhandelen. Zeker als blijkt dat zo’n nieuw gecreëerde taal beter geschikt is om snel tot overeenstemming te komen, lijkt het mij slechts een kwestie van tijd voordat dit in de "echte" wereld zal worden toegepast. De enige eis die we waarschijnlijk aan de bots gaan opleggen, is dat er een goede vertaling van onze vraag (“ik wil een vakantiehuis huren in Italië met zwembad, maar niet duurder dan", etc.) naar de bots komt en dat de bots de uiteindelijk gevolgde strategie kunnen verduidelijken (transparantie).

De toekomst zal het leren, maar waarschijnlijk zullen wij dat nog wel meemaken.

Arjan

Waarom geen WeTransfer meer

Weer in Italië

Het einde nabij

Misschien word ik nog een paar jaar buschauffeur

Je klinkt nogal boos vandaag, wat is er?

EMLAR 2024

Een nieuwe ASR-tool: aTrain

Symposium Gezond Gefokt (UU)

Diarizatie werkt!

GPT-5 komt eraan!

Hoe werken grote taalmodellen in AI?

Whisper, a new ASR engine

EHRI - CLARIN Workshop Londen

Whisper

Waarom een Drentsche Patrijshond?

Wat bracht 2022?

Geboorte van een nieuwe taal