Het is een kleine stap van de geofysica naar de taal- en spraaktechnologie. Het gaat allebei om trillingen en golven. Dus voor Arjan van Hessen, opgeleid tot geofysicus, was de overstap logisch. Hij is werkzaam bij diverse universiteiten, is betrokken bij het project Clariah en werkt voor het bedrijf Telecats. “Wat ik ontzettend boeiend vind is datgene wat er uitgevonden wordt in de praktijk gebruiken. Ik ben niet een hele goeie wetenschapper, maar ik ben wel goed in staat om die vertaalslag te maken van dat wat al die slimme collega’s van mij doen naar het bedrijfsleven waar ik ook werk. Dus om te zorgen dat datgene wat bedacht en uitgevonden wordt en waar mensen aan werken om dat ook echt in de maatschappij te gaan gebruiken.”
Op dit moment zijn er al vrij veel toepassingen van taal – en spraaktechnologie waar mensen dagelijks mee te maken krijgen. Denk aan de spellingschecker op de computer of de TomTom die tegen je praat. Maar de komende jaren zullen de voorbeelden alleen maar toenemen. “We zien dat de verzorgingsmaatschappij onder druk staat, mensen worden ouder. Er zijn minder jongeren om voor de ouderen te gaan zorgen. Je ziet al in Japan dat er steeds meer robots komen, maar wil je die robots echt in het intermenselijk verkeer als partner hier aan tafel erbij hebben dan moeten ze niet alleen kunnen praten, maar ze moeten ook kunnen begrijpen en sociaal kunnen zijn. Als jij gewoon chagrijnig bent dan wil je niet zo’n vrolijke eikel van een robot naast je hebben, dus hij moet aanvoelen hoe jij bent. Hij moet de manier waarop je praat kunnen interpreteren, kunnen aanvoelen. Social signal processing is dat. Waarom zie ik dat jij vrolijk bent? Dat is waanzinnig complex. En vaak cultureel afhankelijk. Dat maakt het ook lastig.”
De afgelopen jaren heeft taal- en spraaktechnologie een enorme ontwikkeling doorgemaakt. “In de laatste 5, 6 jaar is er een enorme boost geweest in deze technologie en dat komt door het zogeheten deep learning. Jij ziet iemand lopen, die herken je. Waarom? Geen idee, het is iets in de manier van lopen. Beschrijf dat eens? Dat kun je niet. Dat is wat neurale netwerken ook doen. Wanneer je heel veel voorbeelden geeft leert de computer: wat zijn de parameters, hoe moet ik hem instellen om het kopje van het glas te onderscheiden. Die technologie wordt gebruikt voor gezichtsherkenning, beeld herkenning in het algemeen, spraak herkenning en emotie herkenning. En omdat we en heel veel computing power en heel veel data hebben zorgt dat voor stappen voorwaarts de laatste 5 jaar”
Gingen computers vroeger bij 1 op de 7 woorden de mist in qua herkenning, op dit moment is het 1 op de 12 woorden. “Dat is misschien nog wel te hoog, maar mensen zijn ook niet perfect. En waar mensen heel goed in zijn is een aha erlebnis: je hoort iets en je verstaat het eigenlijk niet goed maar vanwege de context kun je dat invullen.” Mensen spreken woorden vaak alles behalve netjes uit, maar door een context weten anderen vrijwel altijd wat je bedoelt. “Dus mensen horen wat ze verwachten te horen en meestal klopt dat en daarom zijn wij er zo goed in en dat moeten we de computer nog leren.” Een belangrijk proces dat zorgt voor brede inzetbaarheid van computers in diverse telefonische dienstverlening. Door computers goed te tunen zijn ze uitstekend in staat om een eerste afvang te doen, waarna mensen het werk kunnen overnemen. “Dat is wat je overal ziet: het is een hybride systeem. Saaie, makkelijke dingen gaat de computer doen en mensen gaan echt doen waar mensen goed in zijn: emotie en al dat soort zaken.”
Grote bedrijven als Facebook, Amazon en Google zetten fors in op de nieuwe mogelijkheden. “Google zegt wij willen alle informatie van de wereld ontsluiten. Een belangrijk deel van die informatie zit tegenwoordig in video, maar video is eigenlijk nog heel slecht doorzoekbaar voor een gebruiker.” Dat wordt anders wanneer het gesproken woord geautomatiseerd omgezet kan worden in tekst. Tekst is doorzoekbaar en kun je ordenen op trefwoorden. “Die bedrijven zetten dus massaal in op die technologie. Ik zag een interessante keynote van Microsoft. Die willen op je telefoon naar een situatie waarin one rules them all : één applicatie die straks al de andere apps gaat sturen. Waarom heb ik een app nodig voor de trein en het vliegtuig en het weer en hotels? Ik kan straks gewoon tegen dat ding praten en dan zorgen zij voor die onderlinge communicatie“
Of in de toekomst werkelijk alles doorzoekbaar zal worden en iedereen overal herkenbaar zal zijn, moeten we afwachten. Dat veiligheidsdiensten graag meer grip krijgen op wat burgers zeggen en doen staat vast. Misschien is dit dan ook een goed moment om na te denken over privacy en het beschermen daarvan. De ontwikkelingen staan in ieder geval niet stil. “Ik gok dat we nog een jaar of vijf in de versnelling zitten, omdat er nog heel veel data beschikbaar zijn waar mee getraind kan worden. Daar zul je nog enorm vaak winst door zien. In het begrijpen wat wordt er bedoeld? Waar gaat het over? Wat zegt ze nou precies? Want als iemand zegt ‘ik wil het nu niet over terrorisme hebben’ dan pikt de computer op dit moment als onderwerp terrorisme op, maar daar gaat het juist niet over. Er zit een ontkenning in. Dat is nog een stap die gemaakt kan worden en zal worden.”
(Een verslag van @daalder)
De afleveringen van Top Names zijn via Soundcloud en iTunes als podcast beschikbaar dankzij sponsoring van Merchandise.