De excuses van Bing
Dit zijn geen zeven vragen en geen zeven antwoorden.
Je hebt gelijk. Het spijt me dat ik dat niet goed heb gedaan. Hier is een nieuwe dialoog die wel voldoet aan de eisen...
Het is een beeld dat ze vaker laten zien: indrukwekkende prestaties gaan samen met lastig te vatten blunders. In dit verband valt vaak de ontnuchterende term stochastische papegaai: de zogenoemde grote taalmodellen die bovengenoemde chatbots aansturen hebben geen begrip van de wereld, maar doen niets anders dan woorden voorspellen en de ontelbare teksten waarmee ze zijn getraind napapegaaien.
Anders dan zoekmachines zijn ChatGPT en consorten niet ontworpen om correcte antwoorden te geven, maar om natuurlijke taal te produceren via het herkennen van tekstpatronen. Als de inhoud toch correct is, wat gelukkig meestal het geval is, is dat een mooie bijvangst. Dit leidt tot ware huzarenstukjes: de laatste generatie chatbots verbeteren computercode, kunnen samenvattingen maken van ingewikkelde wetenschappelijke studies en over elk denkbaar onderwerp meepraten. En het gaat steeds beter. De vorige versie van ChatGPT zakte nog voor het Amerikaanse juristenexamen, de opvolger (voor de liefhebber: GPT-4) scoort al bovengemiddeld.
Jelle Zuidema, UvA
De snelle progressie brengt de AI-wereld in verwarring. Zijn de chatbots dan misschien toch meer dan die stochastische papegaaien die ze volgens sommige experts zijn? Jelle Zuidema, universitair hoofddocent natuurlijke taalverwerking aan de Universiteit van Amsterdam, vindt de papegaaimetafoor niet zo gelukkig: ‘Ze suggereert dat die modellen voornamelijk kopiëren en plakken, terwijl we ook in kleinere modellen zien dat ze wel degelijk nieuwe, creatieve combinaties van bestaande elementen kunnen maken.’
Volgens Zuidema zijn de aanwijzingen ‘overweldigend’ dat GPT3 (het taalmodel achter ChatGPT) en andere LLM’s (Large Language Models, grote taalmodellen) ook veel abstracte patronen over verhaal- en dialoogstructuur hebben geleerd. Met andere woorden: de papegaaimetafoor is een grove onderschatting van de capaciteiten van de moderne taalmodellen.
In één adem door waarschuwt Zuidema voor overschatting op basis van de huidige vaardigheden: ‘Je moet voorzichtig zijn met claims over menselijke cognitieve vaardigheden.’ De mens is vrij snel geneigd het etiket ‘intelligent’ op computers te plakken, maar dit soort AI-systemen werken fundamenteel anders dan ons biologische brein. ChatGPT komt tot zijn vaak indrukwekkende prestaties via statistische associaties, met als gevolg dat ook GPT-4 nog steeds prachtig verwoorde onzin kan uitkramen.
Hoe kan dat? Hoe komen de moderne chatbots aan hun zinnen? In de basis is het GPT-model (Generative Pretrained Transformer) achter ChatGPT een getraind model om patronen in taal te herkennen en zo voorspellingen te kunnen doen. Denk aan de voorspellende tekstinvoer die bijvoorbeeld op het toetsenbord van mobieltjes zit. Op basis van eerdere berichten voorspelt die software het volgende woord. Na ‘ik’ volgt ‘heb’ en daarna ‘een’ en ‘vraag’. Maar wie telkens het voorgestelde woord aanklikt, creëert uiteindelijk bijzonder vreemde zinnen.