Dit is een beetje waar ik mijn werkweek spendeer, Universiteit Utrecht, Twente en Telecats. En daar hou ik me bezig op het gebied van kunstmatige intelligentie en talenspraaktechnologie. De komende half uur wil ik jullie iets vertellen over wat er allemaal gebeurt op dit moment, wat de ontwikkelingen zijn en wat jullie kunnen verwachten dat de komende jaren gaat gebeuren. Als introductie, nou sowieso creatief is hij niet, maar ik vond het een mooie voorbeeld om jullie even te laten zien wat tegenwoordig mogelijk is. ...is geofysicus van huis uit. Het zoeken naar olie en aardwevingen, dat soort zaken. Daarnaast studeerde hij Italiaans en in een wonderlijke combinatie van beide... ...ging hij zich bezighouden met audiotechnologie en spraaktechnologie in het bijzonder. Hij werkte onder meer bij het bekende Belgische bedrijf Learnout en Houseby... ...dat een pionier genoemd mag worden op het gebied van spraaksynthese. Tegenwoordig werkt Arjan van Hesse voor Telecats in Enschede een bedrijf dat zich bezighoudt met klantencontact. Daarnaast is hij verbonden aan de universiteiten van Utrecht en Twente. Spraaktechnologie is zijn specialiteit. En over die spraaktechnologie gaan we het met hem hebben. Want de ontwikkelingen staan niet bepaald stil. Een aantal weken geleden werd in het museum een dag georganiseerd voor blinden en slechtzienden en daar was Arjan van Hesse ook bij betrokken. Miriam Tebraken zocht Arjan van Hesse op. Los even van de inhoud. Dit was een radio-interview zeg maar voor de oogvereniging. Mensen die heel slecht kunnen zien of blind zijn en die hebben natuurlijk enorm veel baat bij talenspraaktechnologie, praten met je koffiezetapparaat en dat soort dingen. Ik hoef het u niet uit te leggen. Wat hier... Goedgaat is eigenlijk alles, op paar dingen na. Hij herkent geen zinnen. Je ziet nergens een hoofdletter. Wel bij de namen, maar geen hoofdletter en geen punt, geen komma. En wat nog meer fout gaat, is twee woordjes. Telecats en museum. Telecats, dat staat, dit is gewoon een bedrijfsnaam, dat staat niet in de Grote Vandalen, dus dat werd niet herkend. We kunnen, om u een idee te geven, 256.000 woorden herkennen. Maar daar stond het niet bij. Hetzelfde geldt voor museum. Dat is natuurlijk een soort grapje. Dat is een museum voor mensen die het niet kunnen zien. Dat heet museum. Nou, dat staat er ook niet in. Dat zien jullie hier ook. Maar verder is dit feilloos. Nou is het ook, als jullie goed geluisterd hebben, een bijna of een hele mooie opname. Geen achtergrondlawaai, geen aanzelingen. Er wordt nergens gezegd van, ik, Arjan, nee, zo gaat het niet. Het is één vloeiend grammaticale uiting. Maar dan kun je die bijna honderd procent halen. En dat is eigenlijk dankzij de AI. Goed. Nee. Niet nog een keer. Even kort wat over artificial intelligence. Ik ga er geen college over geven, maar even twee of paar kernpunten. Je kunt kunstmatige intelligentie eigenlijk onderverdelen in sterk en zwak. Zwak is wat jullie altijd nu in het nieuws lezen, dat zijn trucjes. Heel goed kunnen schaken, heel goed kunnen go spelen, foto's interpreteren, pushjes op foto's herkennen, van alles en nacht wat. Dus eigenlijk alle AI die we tegenwoordig in het nieuws zien, is zwakke AI. Die kan één ding, en dat kan ontzettend goed, dikwijls beter dan mensen, maar een engine die heel goed go kan spelen, kun je niet vragen van by the way, hoe maak ik een pizza? Iets wat jullie, als het goed is, wel kunnen. Of dan zeggen jullie, nou dat weet ik ook niet precies, maar dan weet je in ieder geval dat je het niet weet. Maar wij mensen hebben dus een sterke algemene kennis. Al die AI die we nu zien, die is eigenlijk nog zwak. En ook alle bedreigingen zo van ze gaan de wereld overnemen, dat gaat voorlopig niet lukken met die zwakke AI. Tegelijkertijd zien we ook twee soorten data waarop het losgelaten wordt. Sterke of tekstgebaseerde AI en patroongebaseerde AI. En het meeste wat eigenlijk nu in het nieuws is, is die patroongebaseerde AI. Dat is sensorische informatie, het aantal auto's wat ergens rijdt, mensen dat loopt, luchtdruk. Daar kunnen we hele mooie dingen mee doen. En een van de dingen die je hier ziet, en die zal ik straks laten zien, is het herkennen van foto's. Dat is dus eigenlijk zwakke AI, met patroonherkenning. Je pakt gewoon een foto en die is duizend bij duizend pixels, nou dan heb je één miljoen pixels en dat stop je in zo'n eraan netwerk en dan ga je zeggen hier staat een hond op, iets in die richting. Iets anders, dat is meer de Watson benadering. Ik ga ervan uit dat jullie Watson allemaal wel een keer hebben gezien, ongeveer begrijpen hoe dat werkt. En dat is gebaseerd niet op de echte harde werkelijkheid hier buiten, maar op jullie. op mensen, op jullie blogs, op jullie tweets, op wat jullie schrijven, de e-mails, de boeken, al dat soort zaken wat jullie zeggen, gezichtsuitdrukkingen. Ambuguur informatie die hoort bij de mens. En dat laatste is heel erg belangrijk en ook gegeven die vraag net van Maarten over het tolken. Gaat dat lukken? Ja en nee. Als het echt ambuguur wordt komt er nog heel veel bij kijken en zover zijn we nog niet. Dus nogmaals, die hele bedreigende AI op het laatst, die is er niet voorlopig. En dat duurt, goed, niemand weet dat, maar tussen de 50 en de 100 jaar. Dus voorlopig hoeven we daar niet bang voor te zijn. Bij auto's zien we dat het een beetje die richting opgaat, die zelfrijdende auto's. Die moeten straks ook talige informatie, nieuwe regels, verkeersregels of wat dan ook kunnen interpreteren. Maar goed, hoe snel dat gaat, dat weten we ook niet. Een voorbeeldje van die meer sensorische AI. is dit, ik vond het een ontzettend mooi voorbeeld, een voorkomen nutteloos voorbeeld, want je hebt er niks aan, maar het is wel heel erg knap. Je maakt scans van zes maanden oude baby's en je gaat kijken, voorspellen, gaan deze kinderen autisme ontwikkelen, ja of nee? Dat hebben ze met een grote trainingsset gedaan, duizenden foto's van kinderen en dan later gekeken naar vijf, zes jaar, gaan deze kinderen autisme ontwikkelen, ja of nee? Dat is een hele duidelijke ja, nee vraag. Nou, ik weet niet hoe het bij jullie zit, maar ik kan hier helemaal niks mee. En een goede specialist ook niet, dit is echt te complex. Maar AI is in staat om met 96% waarschijnlijkheid te kunnen voorspellen, jullie zien het nummer hier, of dit kind, dat 6 maanden is, over 5 jaar autisme gaat ontwikkelen. Nou, mijn zusje is arts en zij heel erg knap, en wat doe je er dan aan? Niks, want er is geen middel tegen autisme. Voorlopig heb je daar nog niet zover, hoewel het waarschijnlijk voor heel veel ouders enorm prettig is om dat op tijd te weten. Maar dit is dus echt die sensorische kunstmatige intelligentie, pixels op een foto en een antwoord. Hetzelfde geldt eigenlijk voor dit, het spelletje Go. 2016 heeft Google een AI-algorithme gemaakt wat de wereldkampioen heeft verslagen. Niemand in onze wereld had gedacht dat dat zo snel zou gaan. Dat was echt wel een breakthrough. Maar daarna hebben ze nog een slim trucje gedaan. Dat wil ik even laten zien. Dit is wat er gebeurde. Ze hebben namelijk AI gemaakt die AI gaat maken. En dan kom je in de richting van een vorm van creativiteit. En dat is toch wel scary. En die AI hebben ze tegen deze winnaar van Go laten spelen. Nou, je ziet het al na drie dagen, was de eerste AI-engine die echt de hele wereld, toen ze de AI-wereld platgooide, was al verslagen. Na 21 dagen was het eigenlijk al, versloeg hij de beste 60 mensen in de wereld. En na 40 dagen, en dat is natuurlijk best lang, was hij gewoon absoluut de allerbeste ghost speler ooit op deze planeet. En dat is dus een hele simpele truc. Wat hebben ze erin gezet? Waar blijft die? Daar. Dit werkt goed. Nou, oké, wat hebben ze erin gezet? Even nog een stapje terug. Wat hebben ze hierin gezet? Gewoon, dit zijn de regels van het spelletje Go. Weet je, met schaken mag je doodoen. Go, de regels zijn heel simpel. Het aantal zetten is gigantisch. Dit mag je doen. Ga maar spelen. En waarom dit nou succesvol is geworden... is omdat dit een heel mooi voorbeeld is dat er een winnaar aan te wijzen valt. We zullen straks zien, daar waar de mens in vragen komt, is dat lastig. Je kunt zeggen dat is een mooi meisje, dat is een niet zo mooi meisje, een leuke jongen, een niet zo leuke jongen. Dat zijn allemaal menselijke interpretaties. Daar valt niks eigenlijk hards over te zeggen. Het winnen van een spelletje Go is dat wel. Je wint of je wint niet, dan verlies je. Dus die beloningsstructuur is heel erg duidelijk. En wat ze gewoon hebben gedaan, AI heeft dat spel gemaakt. Die weet de regels en die is gaan spelen tegen andere programma's. Geen historie, geen andere informatie erin. Dit zijn de regels en als je wint krijg je een beloning, als je verliest krijg je straf. Probeer die winst te optimaliseren. En na veertig dagen was hij dus de beste speler van de universe. Nou, dat was toch wel... En dat is ook wel... Om meerdere redenen is dit best wel eng, of eng, interessant. Omdat dit dus AI is die AI maakt. En dan heb je geen mensen meer nodig die die regels gaan maken, die slimme dingen gaan doen. Goed, toen kregen we IBM, ook alweer een aantal jaren geleden. Iemand in die idee wat de vraag was bij dit antwoord. Het staat er wel. Jeppardie, Amerikaanse spelletje, werkt net iets anders dan bij ons een quiz. Daar krijg je een vraag, moet je antwoord geven. Je krijgt antwoord, moet je de vraag verzinnen. Maar wat was hier de vraag? Wie is Agatha Christie? En hoe kan dat nou? Mystery author? Nou, lijkt me logisch. Detective-schrijver, schrijfster. haar man, archeoloog. Zij was getrouwd met een bekende archeoloog en van 22 tot 26 is zij in Syrië geweest en hebben ze samengezocht naar die stad Urkesh. En deze informatie is er dus niet door de programmeurs van IBM ingegooid. Dit staat in Wikipedia's, in de Financial Times, in alle encyclopedieën. Dit is textuele informatie die beschikbaar is. Watson leest dat en Watson weet het verschil tussen Arjan slaat Maarten en Maarten slaat Arjan. Dezelfde woorden, dezelfde afstand van die woorden. Toch denk ik dat we erover eens zijn dat er een verschil in zit. En IBM's Watson kan dit doen. Die kan dus die taal van ons, kan die parsen, zoals het heet, ontleden en zeggen dit is het onderwerp en dat is het leidend voorwerp of andersom. Met al die kennis kan hij dus dit soort dingen eruit halen. Dit is alweer een aantal jaren geleden. IBM is er toen gaan storten op Legal & Health. Hier zie je iets van dokters. Ook dit is alweer een paar jaar geleden. Ze hebben aan vijf specialisten gevraagd wat ze met deze kankergevallen moeten doen. En dat ook aan Watson gevraagd en je ziet dat in 99% van de gevallen ze tot hetzelfde oordeel kwamen. En opnieuw, Watson heeft puur al die medische informatie, al die wetenschappelijke papers tot zich genomen en kan daarover redeneren. Iemand in idee hoeveel wetenschappelijke papers er per dag op het gebied van medicijnen en gezondheid en zo uitkomen? Best veel. Idee, gokje. Ga niet vlaan als je ernaast zit. 40.000. Dus als er 40.000 per dag uitkomen, dat kan niemand lezen. Dus er is geen enkele arts die kan zeggen, ik ben over het hele veld helemaal up to date, dat gaat gewoon niet. Watson kan dat net wel. En daarmee kan hij dus dit soort dingetjes doen. Goed, samenvattend over AI. We kunnen dus zeggen, we hebben aan de ene kant de patroonherkenning, classificatie, discriminatie en voorspelling. Dat is meer de patroon gebaseerd. Daarnaast hebben we, zoals we dat noemen, het cognitieve, het begrijpen, antwoorden, emoties, die zitten daar ook in. Meer de mensachtige AI. En uiteraard, er zit heel veel overleg tussen, heel veel overeenkomst tussen. Het is niet zo dat dat twee gescheidene werelden zijn, maar het is denk ik voor het begrip van AI wel goed om je te realiseren dat er nogal verschil zit tussen die sensorische input, wat harde input is, en die meer vage input die van jullie, van mij, van ons mensen komt. Daar zit heel veel ambiguïteit in. Voorbeeldje, patroonherkenning. Wat zien jullie hier? Ja, best knap. Als je dit nou aan een marsmannetje zou vragen, wat zou die dan zien? Mars zijn geen honden, geen bomen. Wordt lastig. Waarom kunnen jullie dit zien? Want als je echt goed gaat kijken, zie je alleen maar wit en zwarte pixels. Maar dit is jullie geest die dit trucje doet. Jullie zien hier op een gegeven moment een hond in, dat je zegt van oh ja, dat is voor dit. Maar eigenlijk staat die hond er niet, dat is echt flauw en cool. En als je dit aan een pygme zou laten zien die nog nooit een dalmatie heeft gezien, goede kans dat hij het niet ziet. Dit is een mooi voorbeeld van, zoals we het noemen, bottom-up. Namelijk jullie ogen nemen dit waar. Jullie ogen zijn ook een soort raster. Daar komt die informatie binnen. Dat gaat die hersenen in. Daar wordt het geprocesst. Maar jullie hebben context. Jullie hebben waarschijnlijk ooit zo'n hond gezien. En je kunt je met enige fantasie voorstellen van, oh, dat plaatje, dat lijkt er eigenlijk wel op een soort similarity berekenen. En dan zeggen we, nou, het is ook logisch, want dit is niet een hond achter een computer of in een auto. Nee, die loopt op de grond, een normale habitat voor een hond. Dus dan kun je zeggen, deze vlekken, die klassificeer ik als een dalmatier in het bos. Nou, hier moet je aan denken als je gaat denken aan die kunstmatige intelligentie. Dan hebben we de term machine learning, deep learning, en ik heb hier een paar kreten voor jullie opgeschreven. Het is een methode van dataanalyse die analytische modelbouw automatiseert. Dus het idee is dat je straks geen als-dan regels meer gaat maken, maar je geeft dat over aan de engine. Het is een algoritme en die gaat iteratief in die leren van de data die je erin stopt. Dus je stopt er allemaal dingen in en daarvan gaat hij leren. Daar zit ook een heel groot gevaar in, maar daar komen we straks. En in wees is het een methode om de computers te leren voorspellingen te maken of te verbeteren op basis van die data. Dus je hebt data en je gaat dus die predictie doen. Dat is een beetje waar het voor gebruikt wordt. Er zijn meer definities, maar goed, ik neem aan dat jullie het een beetje begrijpen wat het is. Hoe is die ontwikkeling gegaan? Dit is een cohoonennetwerk uit de jaren 80. Toen computers nog niet zo snel waren en er nog niet zoveel data was... en die hadden een inputlaag, daar stopt hij iets in. Bijvoorbeeld de pixels van een hand geschreven 8 of iets dergelijk. En de output was de cijfers 0 tot en met 9. En dan moest hij die gewichtjes in het midden zo instellen... zodat hij zo goed mogelijk van die pixels naar dat cijfer 8 ging. Dat lukte, maar heel beperkt. Dat was geen groot succes. Dus eigenlijk had iedereen gedacht van nou ja, dat gaat het niet worden. Zijn ze op andere dingen gaan richten? Tot er ergens in de jaren 2005, 2006 in Amerika een aantal mensen opstonden die zeiden we gaan meer lagen toevoegen. En als jullie willen weten waar die term deep neural network vandaan komt dan is dat gewoon puur vanwege het feit dat hier heel veel lagen in zitten, tientallen lagen zitten erin. Bijvoorbeeld om die plaatjes te herkennen op jullie telefoons, zitten geloof ik 32 lagen tussen de input en de output. En wat je doet, je zegt dit is een foto van Tante Mies, die label je als Tante Mies, want je schrijft onder verjaardag met Tante Mies. Dus dan denkt de computer dat is Tante Mies. En dan gaat hij al die gewichtjes die hierin zitten, gaat hij op een bepaalde manier instellen. En uiteindelijk, als je voldoende trainingsmateriaal hebt, kan hij straks alle foto's van Tante Mies herkennen op jouw telefoon. Daar komt uw term. En wat kan het? Nou, dit is middelbare schoolwiskunde. Dat kennen jullie allemaal wel. De kleinste kwadratenmethode. Je kunt gewoon een rechte lijn trekken hier tussen en dat werkt behoorlijk goed. Maar niet perfect. Tot heel lang was dit gewoon wat we konden hebben. Dit is AI. Die kan dit soort patronen. Die kan het dus echt beter doen dan de oude manier. Alleen wat we hier daarboven zien is een mooie lineaire vergelijking. We hebben geen idee wat AI doet. En dat is een heel groot probleem. Wettelijk is dat een probleem op wereldschaal, Europa in ieder geval, kom ik straks nog op. Maar het is een heel groot probleem dat we straks voorspellingen gaan doen, waarvan we eigenlijk niet weten waar die op gebaseerd zijn. Hij doet het, hij doet het goed, maar waarom, dat weten we niet. Dan de verschillende vormen van het trainen van dit soort AI. Er zijn eigenlijk drie methodes. Unsupervised, supervised en reinforced. Unsupervised is heel simpel, je hebt heel veel data en je zegt tegen de computer, doe er maar wat mee. Kan die clusters dingen, hij kan groepjes vinden, dat is een vrij simpele manier. Heel gevaarlijk, maar werkt soms ook heel erg goed, ik zal straks een voorbeeld laten zien, waard gierend uit de klauwen. Maar dit is echt van, je kunt je voorstellen, ik heb dat ooit zelf eens gehad toen ik Italiaans studeerde, kwam ik in Italië, daar waren ze met een spelletje bezig, andere kaarten, andere regels. En ik sprak geen Italiaans, dus ik had geen enkele feedback, het enige wat ik kon doen was kijken wat men deed om te proberen die regels eruit te halen. Lastig, maar wel leuk. Dit is een bekendere manier. Dit is dat trainen van onder andere de foto's. Je stopt er heel veel foto's in waarvan je van tevoren hebt gezegd door mensen, dit is een poes, dit is een hond en dit is Tante Mies in die richting. Dat zeg je tegen de computer en dan gaat hij zo goed mogelijk proberen die klasses uit elkaar te halen. En de derde manier, en dat kennen jullie waarschijnlijk wel, iedereen met een kind en of een huisdier kent dit, Als een kind of huisdeur iets goed doet, krijgt het een beloning. Dan mag het naar de disco of krijgt het een koekje. Als het fout is, moet je je telefoon inleveren of krijg je geen koekje. En dit is re-enforced learning. Dat wil zeggen, er zit een bepaald patroon in en wat je doet door die beloning eraan te koppelen, goed of fout, train je het systeem als het ware om zich beter te gaan gedragen. Dat is het minste wat je hoopt. De laatste en de ene na laatste worden allebei gebruikt, bijvoorbeeld in een callcenter wereld, om allerlei dialogen, daar gaan we het straks nog even over hebben, die binnenkomen op de juiste afdeling af te leveren of eventueel een antwoord te geven. Als je belt met Egon, je zegt ik ga een nieuwe auto kopen, ik wil mijn auto verzekeren, dan ga je naar de afdeling autoverzekering, dan kom je toevallig uit bij de afdeling iets anders, gezondheid. En daar zegt iemand dat is niet goed en die verbindt je door met autoverzekering. Dan krijg je dus een strafpunt. En als je wel goed doorverbodert, krijg je een bonuspunt. Dat is eigenlijk wat je hier ziet en daarmee wordt het systeem, zeg maar, vanzelf beter. Maar niet zonder menselijke ingrepen. Goed. AI en tal- en spraaktechnologie. Tal- en spraaktechnologie kun je eigenlijk niet meer uit elkaar halen. Toen ik begon was dat nog echt wat anders. Je had taaltechnologie, dat ging met schrift. Je had spraaktechnologie, dat ging met woorden, met spraak. Maar nu zien we eigenlijk, naarmate die spraakkenning beter wordt, dat je dat niet meer uit elkaar kunt halen. Dat is eigenlijk één veld geworden. Het gaat om het begrijpen. Maar toch, we kunnen even kijken naar de taaltechnologie en wat willen we daarmee lezen als een mens? Maar is dat zo? Willen we lezen als een mens? Nee. We willen begrijpen als een mens, want dat is eigenlijk wat we willen. Dat is wat die Watson doet, die leest al die teksten. Dat lezen gaat vrij simpel, maar daarna moet hij erover redeneren, moet hij begrijpen wat er gezegd wordt. Deze stond een paar weken geleden, oh nee, die komt zo. En dit is ook wel belangrijk voor jullie om te onthouden. Want iedereen denkt altijd aan een taal. Welke talen spreek je? Engels, Frans, Duitsers, dat soort dingen. Maar taal is iets wat in jullie hoofd zit. Het is dus echt een mentaal proces. En dat is heel erg belangrijk. En spraak en schrift zijn uitingen daarvan. Maar het werkelijke, het kunstje, dat gebeurt in ons hoofd. Heb jij een idee wat nog meer een echte taal is? En dit is een uiting van taal? Hé? Ah, helemaal goed. En dat is niet hetzelfde als lichaamstaal, maar gebarentaal is echt een consistente taal. Je kunt dus net zo goed jezelf uitdrukken in spraak als in gebarentaal. En het knappe is, als ik... Nou, jullie zijn te oud, maar jullie kinderen of kleinkinderen, die dump ik ergens op een eiland. Ik snij de stembanden door, ze kunnen dus niet meer praten, dat is lullig. En dan zul je zien dat binnen een halve generatie die kinderen op dat eiland, zegt Schiermonnick ook, helemaal zelfstandig een eigen taal gaan ontwikkelen. En er zijn heel veel voorbeelden van waar we het kunnen zien. De laatste was in Nicaragua. Na de revolutie werden heel veel kinderen uit de jungle gehaald, want daarvoor werd er niks aan gedaan. Bij elkaar gezet, maar er was niet voldoende geld, niet voldoende expertise. En binnen één, twee jaar hebben die kinderen een eigen Nicarawanse gebarentaal ontwikkeld. Dus geen Spaans, maar gewoon hun eigen taal. En daar kunnen ze alles in vertellen. En als je die filmpjes ziet, enthousiaste jonge lui die daar vertellen over feestjes en andere dingen, dat is echt geweldig. Maar dat is dus iets in onze geest. En dat is ook de reden dat kinderen naar school moeten. Want als jullie boven de 16 zijn, dan leer je het eigenlijk, uitzonderingen daar gelaten, nooit meer om native een andere taal te leren. Jullie hebben waarschijnlijk allemaal wel goed in Engels, maar waarschijnlijk ook te laat begonnen, nogmaals uitzondingen daar gelaten. Dat ga je nooit meer leren laten staan, Arabisch of Chinees. Dat is gewoon bij te laat. Maar pak je nu dat kind van vijf jaar en je zet hem in Beijing bij een aantal Chinees ouders en je zegt kom over een half jaar terug. Over een half jaar spreekt dat kind goed Chinees. En wij leren dat nooit meer. En dat heeft gewoon echt te maken met hoe wij hardwarematig geprogrammeerd zijn. Dat en dat is uw staal, dat vermogen in ons hoofd om er iets mee te kunnen doen. Dan gaan we weer terug naar het lezen. En deze vond ik wel heel erg gaaf. De Chinese internetgigant Alibaba en Microsoft, de Amerikaanse, hebben intelligentie ontwikkeld, zeg maar die talige informatie, waarin ze een test, een hele beroemde test van de Stanford Reading Comprehension Test, beter beantwoorden dan mensen. Gemiddeld. Er zijn mensen die het beter doen, maar als je kijkt over de laatste 20 jaar, dan zitten mensen op, wat is het, 82.3 en Alibaba op 4 en Microsoft zelfs op 8. En dat is dus een hele simpele dingen. Waar komt Fido Castro vandaan? Wat is regen? Wat is het verschil tussen een auto en een vrachtauto? Het zijn echt vrij simpele voor kinderen. Maar wat je ziet, is dat die technologie in staat is beter antwoord te geven dan wij mensen. Nogmaals, het verschil is heel erg klein, maar het is de eerste stap in die richting. Dus deze leestechnologie, die gaat er gewoon komen. Spraaktechnologie zien we eigenlijk hetzelfde. Hoor je alles in mens? Dat was onze eerste opgave. Ik zeg Apple en dan wil ik op de computer Apple zien in tekst. Dat trucje werkt. Jullie hebben het net in het begin gezien. En nu gaan we eigenlijk de volgende stap doen. Niet wat wordt er gezegd, maar wat wordt er bedoeld. Ik wil begrijpen. En zeker natuurlijk in allerlei klantcontacten is dat essentieel. Je wilt begrijpen wat iemand aan de andere kant zegt. Niet een 100% transcriptie. Dat is op zich niet zo boeiend. Ontwikkeling en spraaktechnologie? Nou, je ziet hier eigenlijk dat in het begin was het echt een ingenieurbenadering. Voor degenen die het weten, een VAS-foyer-transform, dat is echt een rekenmethode, kwam je redelijk ver mee, maar niet echt heel ver. Jaren 90 tot 2005-06 was het hidden Markov models. Dat zijn statistische modellen waarmee onder andere het weer wordt voorspeld. En vanaf 2010, dat was Microsoft op een paper op een internetconferentie, die liet zien wat ze konden doen met die deep neural networks. Als je gaat kijken naar de resultaten, dan zie je dit. En zeker in die jaren, nou ja, 90, 2000 was het heel frustreerend. Dan kwam je op zo'n conferentie en dan was er een of andere groep ergens vandaan die scoorde een half procent beter. Wauw, dat was echt gaaf. Weet je wel, drie woordjes beter herkend in deze standaartest. En daarna ging het heel hard omhoog. En wat jullie hier dus zien is dat voor het eerst, twee jaar geleden, de herkenning beter was dan die van de mens. En dat is niet de herkenning die we hier hebben, jullie gezellig, buiten babbelend. Nee, zover zijn we nog niet. Een standaartest met allerlei commando's van de Amerikaanse Navy, maar die werd sinds de jaren zeventig ergens hier gebruikt als een soort benchmark. Hoe goed werkt dat? Nou, je ziet hier de cijfers. En hier voor het eerst 4,6 procent fouten door de machine, 4,8 procent door de mensen. Dus nogmaals, heel dicht bij elkaar, maar het is wel voor het eerst dat in geconditioneerde omgeving spraakherkenning het beter doet dan de mens. En dit is alweer twee jaar geleden. Dus dit gaat komen. Straks vraag je niet meer aan je buurvrouw van, wat zei die nou precies? Maar vraag het aan je computer, want die doet dat beter. Goed, zijn wij mensen zo goed? Dat is natuurlijk altijd de vraag. En zijn wij mensen nou zo geweldig goed in spraakherkenning? Nou, het antwoord is nee. Maar ik zal even laten zien wat ik daarmee bedoel. Wat staat hier? Nou, ik hoor een beetje twijfel in de zaal. Twee verschillende dingen. Ik kan dit phonetisch uitschrijven. Maar dan krijg ik deze. Of ik krijg deze. En welke is het? Het boelde zit best veel verschillen. Wat je op een gegeven moment kunt doen, en dat is een heel leuk experiment, dan ga je met die pauses tussen vorst en in en in gevallen, ga je net zo lang vreubelen, tot de helft van de studenten zegt, het is vorst ingevallen en de andere helft zegt, vorst ingevallen. Dan heb je een soort evenwicht bereik dat je zegt, nou als ik de pauze zo maak, dan zit men op dat kantop punt, je weet het eigenlijk niet, 50-50. En dan doen we dit, laten we dat zien. En dan zie je dus een enorme verschuiving richting vorst ingevallen. Of je doet dit en dan gaat het de andere kant op. Maar dit geeft te denken. Dus wij mensen horen hetzelfde geluid. Dat heb je netjes getest. En dan laat je een plaatje zien en dan gaan mensen plots heel wat anders horen. Nou, dit is best wel lastig. Wij denken dat we heel goed zijn in spraakherkenning, maar dat is vooral omdat wij kennis hebben van de wereld. En ik denk dat jullie dat allemaal herkennen als je een andere taal leert. Naarmate je die taal beter leert, maar ook het land beter kent, herken je die taal, herken je wat er gezegd wordt steeds beter eigenlijk, omdat je begrijpt waar het er waarschijnlijk over gaat. Dat is een statistisch proces dat wij proberen na te maken en dat noemen wij een taalmodel. De man stopt in zijn. Mevrouw hier, maak jij die zin eens af. Goh. Goed gegrokken. Iedereen, namelijk iedere Nederlander. Ik heb het één keer gehad met een meisje die kwam uit Oost-Europa. Niet de Oekraïne, maar... ...uit Oost-Europa. En die sprak goed Nederlands, met een accent, maar ze sprak goed Nederlands en die zei heel wat anders. Ze zei, geloof ik, Beto ofzo. Toen heb ik dat later gevraagd en zei, ja, in mijn taal is dat eigenlijk het meest waarschijnlijke. Maar wat je dus hier ziet, is dat jij gewoon je taalmodel gebruikt. Je bent gewoon Nederlander, dit ben je gewend. Dus je hebt een statistische waarschijnlijkheid, hoor je dit, dan weet je eigenlijk al wat er gezegd wordt. En zo werkt de taal. En daarom is ook een taal die we niet zo goed kennen, lijkt moeilijker, maar vooral langzaam of sneller te gaan. Als ik tegen jullie zeg, gister ben ik op het politiebu, dan weten jullie al wat ik wil zeggen. Dat we zeggen dat jullie hersenen, een time-out nemen, Achteroverleunen zeggen, ah, er komt bureau, want er kan eigenlijk niks anders komen. Gisteren stapt de man in zijn en dan denk je, oh ja, auto, dus je stopt even met luisteren en je denkt, daar moet ik weer aandacht aan besteden. Zo werkt onze geest. Hoe beter wij een taal kennen, hoe beter we kunnen voorspellen en hoe langzamer en logischer een taal in onze oren verloopt. Dit willen we namaken. Hoe doen we dat? Dit is van het FIOD spraakproject. Maar het werkt voor alle projecten eigenlijk hetzelfde. We gaan heel veel textuele informatie naar binnen halen... en leren wat het woordgebruik is van dit geval, de FIOD. Maar voor EGON is dat weer anders en voor de overheid is dat weer anders, et cetera. Dus eigenlijk wat we leren is hetzelfde als een nieuwe medewerker bij jullie op kantoor. In het begin is dat lastig. Die kent alle producten niet, alle regels niet. Die moet leren welke dat zijn. Hoe beter die leerling dat leert, hoe makkelijker straks de gesprekken aan de telefoon gaan. En dus dit is echt een cruciaal iets, dat taalmodel, dat moeten we goed hebben en als we dat kunnen, zo ziet zo'n taalmodel eruit, kunnen we redelijk voorspellen wat iemand gaat zeggen. Als jullie nu straks in de koffiepauze weer buiten zijn en je gaat het hierover hebben, kun je plots een context switchen. Dan ga je het hebben over Max Verstappen of iets anders. Iets wat helemaal buiten porté van deze bijeenkomst valt. Dan zul je ook zien dat mensen even moeite hebben om je te herkennen. Dan zie je eens even kijken. Oh, Max Verstappen. Ja, die AHA-erlevenis. Dus dan switch je context en ga je naar het F1-model, zo te zeggen. Dat is wat we doen. Goede spraakherkenning heeft dit voor ons nog nodig. We moeten dat echt trainen. Een beetje in de praktische richting. Wat zien we nou in het klantcontact? Hebben we AI? Ja. Bestaande tools worden beter. Spraakherkenning, dialoogvoering, spraakgeneraties, dus dat de computer dingen gaat voorlezen. Dat zien we dat die onder, of met behulp van AI, beter en beter worden. Maar wat we ook zien, is allerlei dingen die eigenlijk vroeger niet kunnen voorspellen, het analyseren van die hele data-stroom, ook daar wordt AI voor gebruikt. Dus dit is echt iets wat we zien dat in alle mens-machine-interactie callcenters binnenkomt. En dit is een aardig voorbeeld. Jullie kennen dit waarschijnlijk wel, je medewerkers, en je kunt je klanten verdelen in goud, zilver en brons. Wat je daarvan vindt is wat anders, maar dat kun je doen. En we hadden deze vraag. Ik heb iemand die belt, ik weet het kanaal, ik weet het klantbeeld, het algemene klantbeeld van jou, ik weet de historie van degene die contact opneemt en ik weet de inhoud. Want de spraakherkenning is meer dan voldoende goed om die boodschap min of meer goed te herkennen. Ik heb hier de medewerker. Die heeft hard skills. Die spreekt Engels en Nederlands en Duits. Soft skilled is een heel empathisch iemand. En er is ook een historie. En dat zou dus ook de historie met de klant zijn. Misschien dat dit jongen of meisje met die heeft gesproken. Dat zou interessant kunnen zijn. Wat we nu aan het proberen tussen deze twee, en dat gaat met de hulp van machine learning, is het volgende. We hebben NPS en average handling time en al dat soort dingen. Maar we gaan ook aan de bellen vragen, wat wil je nou precies? Wil je snel geholpen worden, goed geholpen worden of plezier geholpen worden? Goed, het liefst alle drie tegelijk, dat begrijp ik ook wel. Maar je moet het denken aan het volgende. Ik had een probleem met Sycho. Modem deed het niet. Ik lag onder de grond en die jongen had me ontzettend goed geholpen. Hij moest dat doen en dat doen. Stekkertje eruit trekken, vijf minuten wachten, stekkertje erin, knopje drukken met zo'n dingetje. Nou, ontzettend gedoe. Na een kwartier was ik klaar. Ik deed het niet. Bel weer op, want dan had hij gezegd, als het niet werkt, bel even terug. Ik bel terug, ik krijg een heel ander iemand aan de lijn. Dan kan ik het hele verhaal opnieuw doen. Dus voor mij, dat voor zaken onder plezier, zou dit eigenlijk heel erg prettig zijn als het systeem herkent, oh, je hebt net met Jaap gesproken, Jaap staat nu nog in de wachtlerij, wil je wachten? Ja, dan moet ik drie minuten wachten, maar dat heb ik met liefde over, hoef ik niet dat hele verhaal opnieuw te doen. Dat zal een paar keer anders zijn, maar dat is wat we hier aan het uitzoeken zijn en dat gaat ook met behulp van machine learning. Hoe kun je nou verschillende klanten zo goed mogelijk hiermee helpen? Laatste ontwikkeling op dit gebied is emotie. Kunnen we emotie in spraak herkennen? Ja, dat kan, maar niet alles. Deze kunnen we redelijk herkennen, de grote de Big Five, verdriet, boosheid, angst en vreugde. Maar denk eraan, emotie is een norm cultuur gebonden. Het maakt heel veel uit. Dat is ook vaak wat fout gaat in onze maatschappij. Mensen van verschillende culturen, daar gaan we doen alsof dat allemaal hetzelfde is, want dat geeft heel vaak gedoe. Emotie is heel erg lastig. Dingen als sarcasme, ironie, dat is voorlopig eigenlijk nog te ver. Er wordt aan gewerkt, maar voorlopig is dat niet productierijp. Maar deze kunnen we redelijk meten en teruggeven. En dan krijgen we dus medewerkers in het callcenter die de boodschap hebben, dus herkent wat er gezegd wordt. Ze hebben die hele kennisgraaf, zoals het heet, tot hun beschikking over alles wat er in het verleden gebeurd is. Een vorm van emotie. Meneer is geagiteerd of juist heel erfrolijk. En daarmee kunnen we voor een deel self-service doen. We kunnen mensen makkelijker doorverbinden, verslaglegging. En niet op één gesprek, maar over alles, die analyse en die predictie die ik net ook heb laten zien. Maar dit is dus wat we echt al zien wat er in het callcenter nu gaat gebeuren. Dat met name door dit en dit, deze twee, eigenlijk die mensen veel beter op beslaagde eisen komen als ze het gesprek opnemen dan dat het in het verleden was. Ja. Dan ga ik daar snel doorheen. Een van de dingen waar we dat toe passen. Dat is misschien wel een leuk voorbeeld. Ik moet daar straks ook nog een verhaal over houden, maar ik wou het wel even laten zien. Van spraak naar informatie. Dit is de 112 centrale. We zijn nieuwe 112 centrale aan het maken, samen met KPN en de Radboud Universiteit. We hebben daarvoor 60 uur 112 gesprekken, dat is behoorlijk heftig, opgenomen en die zijn we nu helemaal aan het uitwerken. Echt letterlijk uitschrijven met alle eus en aarzelingen, vloeken, alles wat je maar wilt wat er gezegd wordt, dat wordt uitgeschreven. Daar gaan we straks ook emotionele cues aan gooien. Maar met het idee dat we in de nabije toekomst volgend jaar medewerkers in de 112 centrale gaan ondersteunen met dit systeem. En dan zeg je, ik ben hier op de Hightech Campus in Eindhoven en er is een moord gepleegd. Dan weet je waar het over gaat, er is een moord gepleegd. Hightech Campus Eindhoven, dat lukt ook wel. En die medewerker van de 112 ziet dus gelijk op Google Maps waar die Hightech Campus ligt. Er is moord, dat is een zwaardelict, en dergelijk worden allerlei andere diensten geactiveerd, want hier is iets aan de hand. Dus dit is echt een ondersteuning van die medewerkers van wat kunnen we nou doen? En dan gaat het, en dat is de titel van het project, van herkennen naar begrijpen. Het gaat er dus niet om dat we 100% herkennen, maar wel dat we 100% begrijpen. Het is zo goed mogelijk. En dit zien jullie dus ook. Dus zoals we het kunnen noemen, de praatpalen. Nog niet in het Nederlands. Google zegt nu einde van het jaar dat ze met Nederlands komt. Amazon is niet duidelijk. Maar deze gaan straks ook met jullie bedrijven communiceren. Straks ga je dus echt aan de keukentafel zeggen van, wat is mijn premie, of wat moet ik nog doen, of wat ze ook maar voor vragen gaan stellen. Dan gaat het dus buiten de callcenters om. Maar dan is het rechtstreeks van praatpaal naar jullie bedrijf. En hier zie je de ontwikkeling in Amerika, het aantal huishoudens, maar je ziet dus dat 20% van de huishoudens in Amerika zo'n ding heeft. Niet mensen, maar huishoudens. Het valt heel veel op af, de dingen. Zo populair zijn ze ook weer niet, maar het is wel een ontwikkeling waar je goed over na moet denken. Nou, dat gebeurt op deze Open Voice. Er zijn nog plaatsen, geloof ik over twee weken, gaan hier een aantal mensen in Amsterdam over praten van wat moet je nou precies met die Open Voice, of met die dingen doen. Dit is, denk ik, dan de laatste. Dan laat ik een aantal verhaaltjes zitten, het ethisch gedeelte. Ik weet niet of jullie deze hebben gehoord, maar ik wou hem toch even laten horen. Google Duplex. Zo, hoe gaat het met jou? Hoi, ik heb een vrouwens haircut gehaald voor een klant. Ik ben aan het zoeken voor iets op mei 3. Oké, geef me een seconde. Sure, what time are you looking for around? At 12 p.m. We do not have a 12 p.m. available. The closest we have to that is a 1.15. Do you have anything between 10 a.m. and 12 p.m.? Depending on what service she would like, what service is she looking for? Just a woman's haircut for now. Okay, we have a 10 o'clock. 10 a.m. is fine. Okay, what's her first name? Goed. De vraag dan, wie is de computer en wie is de mens? En degene die de afspraak maakt, is hier de computer. Die klinkt eigenlijk beter in het Engels. Er zijn nog andere voorbeelden waar het nachtduidelijker is. Maar dit is dus een combinatie van dat begrijpen, interpreteren en een menselijk gedrag. Dus op de juiste manieren, hm hm zeggen. Dat maakt het heel erg menselijk. En je hoort eigenlijk geen verschil meer tussen de computer en de mens hier. Er valt nog wel wat op af te dingen en zo, maar dit is wel een ontwikkeling die de komende jaren gaat spelen. Dat wil zeggen dat je straks tegen je Alexa of wat dan ook zegt van maak een afspraak bij de kapper en dan gaat die dat voor je regelen. Dus dit komt eraan. Heel kort, ethische dilemma's. Dan wil ik het even deze vraag stellen. Wat was de vraag, de zoekvraag achter dit resultaat? En dat is wel iets goed om over na te denken. Nee, geef mij zwarte tieners, geef mij witte tieners. En dit is natuurlijk niet wat we willen, ook al zou je kunnen zeggen, en dat was de reactie van Google, van ja luister eens, dit weer spiegelt eigenlijk wat wij vinden in de maatschappij, dat is waar. Dat is ook zo. Er zijn heel veel foto's, blijkbaar, van zwarte tieners in gevangenisomstandigheden. En bij die witte zie je allemaal van ideale hockeygezelschappen met een truitje en dat soort dingen. Dus Google vindt dat op het net. En dat staat erbij, witte teenagers aan het soccerplayen en hier dit. Maar dat is wat je krijgt. En dit is dus wel het gevaar van AI. Als je dat unsupervised doet en echt tegen AI zegt, zoek het maar uit, dan krijg je dit soort dingen. Ga maar zoeken op CEO. Oudere witte mannen. Ook al verschuift dat tegenwoordig, maar dat zijn de foto's die je krijgt. Hetzelfde en dat is een voorbeeld van het unsupervised learning. Deze bot, Microsoft had hem neergezet, werkte ontzettend goed. Na 24 uur was er nou jullie kunnen het lezen, een Hitler loving sex robot en wat hij over vrouwen en joden zei, dat wil je niet weten. En dat was gewoon omdat daar een soort geen stijl, maar dan de Amerikaanse versie daar constant tweets naartoe zat te sturen. Dus hij leerde van die tweets. Hij ging dus echt unsupervised zelf leren. Dan krijg je dit. Dus dat is een hele mooie techniek, maar alsjeblieft weet wat je doet. Dat is gewoon heel gevaarlijk. Nou, dan ga ik het hiermee afsluiten. Dit is ook AI. Ik denk dat jullie allemaal je rijbewijs hebben en allemaal, als het goed is, geleerd hebben dat als ik hier een doorgetrokken witte streep heb en daar een gestippelde witte streep, mogen auto's van die baan wel hierop, maar niet terug. Dat kun je programmeren, dat zet je erin, die regels leer je. Dus AI doet dat heel goed, zo'n testzaal zal niet zomaar die streep overrijden. En dan krijg je dit. En in het filmpje wat erbij hoort, komt deze auto dus niet meer weg. Die rijdt naar voren, die rijdt naar achter en ziet steeds van ja, een barrière van ik mag hier niet uit. En ik denk dat er onder jullie niemand is die naar huis belt en zegt ja sorry schat, ik ben erg laat, maar ik kan niet wegrijden. Dat doe je niet. Het is natuurlijk heel erg grappig, maar het geeft wel aan dat als we AI echt zo in de maatschappij gaan doen, dan krijg je dit soort situaties. Dus denk daar goed over na, hoe gaan we die AI gebruiken, maar ga het wel gebruiken. Deze sla ik over, dat is de Europese gemeenschap die ook zegt, denk eraan, AI mag je gebruiken, maar explain of gebruik het niet. Is er nog een toekomst voor AI, voor de mensen? Ja. Dat is echt wel een serieuze boodschap aan jullie. Ga het alsjeblieft gebruiken. Ga ermee spelen. Ik sprak zo'n headhunter en die zei, Arjan, die techniek van jou, die gaat ervoor zorgen dat ik mijn bedrijf kan opdoeken. Ik zei, ja, dat klopt. Het goed zoeken naar mensen, dat gaat echt. Google heeft het nu al voor de Amerikaanse markt, maar dat gaat echt beter met die technologie. Maar hij zei heel slim, ik ga mijn bedrijf omgooien, ik ga AI gebruiken om te zoeken en ik ga bedrijven helpen met het definiëren van de zoekvraag. Wat voor soort mensen wil je nou in je bedrijf? En daar zijn mensen natuurlijk nog wel heel goed in. Maar die strijd met AI, die ga je verliezen. Doe dat dus niet. Volvo als voorbeeld gebruikt dit ook. En dit is echt de laatste slide. Ik wil een beetje een stip op de horizon. En nogmaals, ik weet dus niet of we zo gaan of we zo gaan. Hoe lang het precies lukt, dat kun je niet doen. Maar deze technologie komt op sneltreinvaart onze maatschappij en ook jullie bedrijven in. Ga ermee spelen. Ga met universiteiten of startups praten. Ga kijken wat je samen kunt doen. Word niet bang. En als je denkt van nou het zal mijn tijd wel duren of mensen zijn toch beter. Nee. Dan ga je het echt verliezen. Goed, ik moet zo wel weg. Ik ben er nog eventjes, maar ik hou er helemaal niet van om gelijk weg te gaan. Maar het is niet anders, want we hebben zo'n workshop op de politieacademie in Apeldoorn. En dat gaat hierover, en die vond ik ook wel leuk. Seminar technologie en criminaliteitsbeschrijding. Wat kun je met al die technologieën die ik een beetje heb laten zien, doen in de criminaliteitsbeschrijving? Dat was hem.
Time_index | Confidentiality | Speaker |
---|---|---|