Line

De vraag was in eerste instantie die spraaktechnologie van jullie. Jullie zeggen dat het werkt, maar wij als visueel gehandicapten merken daar nog eigenlijk heel weinig van. Nou, dat is niet de eerste keer dat we dat horen. Dus samen met mijn collega Henk van de Heuvel van de Radboud hebben we toen aangeboden aan de mensen die ons daar ontvingen in het museum. We willen wel eens voor jullie een dag organiseren om te laten zien wat kan, wat niet kan, wat de problemen zijn. En in ruil daarvoor zouden we voor jullie graag van tevoren willen horen, wat zouden jullie willen? Want anders dan gaan wij bedenken wat goed is voor jullie en dat werkt in de praktijk niet. Dus we hebben toen aan mensen gevraagd van goh, vertel eens, wat zijn jullie dromen? Wat zouden jullie graag willen dat er straks kan. Dat hebben we gedaan. We hebben van dertig mensen een reactie gehad, sommige heel kort, sommige heel uitgebreid. Die hebben we gebruikt voor die bijeenkomst. Er waren drie velden. Het was de buitenwereld. Iedereen kent de tonton, maar er waren een aantal mensen die zeiden ik wil een tonton van deurklink tot deurklink. Want het is niet om van Utrecht naar Amsterdam te komen, maar voor ons is het belangrijk van de stoep en het hele verhaal. Naar het beste huis of inderdaad. Precies. Dat was één categorie. Dan was de categorie internet. Dat mensen zeiden van ja, ik wil kunnen zoeken. Ik wil slim kunnen zoeken. Niet op woordjes kunnen zoeken, maar meer op begrippen. En de over grote meerderheid, dat was denk ik 70 procent, waren mensen die zeiden van Het wordt zo lastig met al die slimme apparaten in huis om ze te kunnen bedienen. Vroeger had je een koffiezetapparaten, daar zat één knop op, aan en uit. Nu heb je hele mooie koffie apparaten, maar daar zitten acht knoppen in en sommige moet je dubbel indrukken. Als je dat niet kunt zien dan kun je ze niet bedienen. Is daar nou niet iets voor mogelijk? En dat koffiezetapparaat kwam een aantal keer terug, maar vooral ook de wasmachine, de droogmachine, ja gewoon al dat soort dingen. En dat is wat we natuurlijk noemen domotica, het automatiseren van processen in huis. Nou daar zijn we naar gaan kijken van wat kan. We hebben een aantal voorbeelden gemaakt en het bleek eigenlijk dat de spraakherkenning daar geen issue meer is. Iedereen kan dat eigenlijk zelf uittesten met Google of met Siri of Cortona van Microsoft. Die spraakherkenning werkt zo goed dat als je een beetje oefent, een beetje leert hoe je het moet zeggen en je zorgt ervoor dat de omgeving enigszins rustig is, dan maak je bijna geen fouten meer. Nee, precies. Dus dan bedoel je dus de spraakherkenning, je zegt iets en het apparaat begrijpt wat jij wilt, hè? Nou, nee. Nog niet, oké. Je maakt een leenneme, je maakt een klassieke fout. Het apparaat zet de spraak om in de woorden die jij gezegd hebt. Maar het is dat niet begrijpen. Begrijpen is de volgende stap. Het is het herkennen. En natuurlijk, we willen graag begrijpen. Maar dat is nog een lastig iets. Daar zijn we wel mee bezig, maar dat staat hier eigenlijk los van. Wat we ook gedemonstreerd hebben is het voorbeeld van zet de wasmachine op 20 graden of doe de deuren open. Dan zie je op het scherm die woorden helemaal goed herkend worden. Dat is de hond die even gaat liggen. En die gaat nu liggen. Maar dat is dus wat je ziet. Die spraakherkenning voor dit soort simpele dingen, dat werkt heel erg goed. Of bestel een pizza macarita en een rijstafel. Als je dat zegt, dat herkent hij ook. Alleen de volgende stap is van ja oké, zet de wasmachine op 60 graden. Maar als die wasmachine geen interface heeft om die spraak om te zetten in het laten draaien van de was op 60 graden. dan schiet er niks meer op. En dat was het teleurstellende van de bijeenkomsten in Nijmegen, dat we moesten zeggen, kijk die spraaktechnologie, die is goed genoeg. Maar nu is het de beurt aan de machinebouwers, de fabrikanten, om te zorgen dat die wasmachine ook werkelijk gaat draaien. En dat is iets van die fabrikanten die daar inmoets door willen stappen. En dan hadden we het net al even over, de mensen met de virtuele pegging zijn dan, is ervoor Roedelakker het maar even zo noemen, maar als het voor een grotere groep nodig zou zijn dan is het veel meer kans dat het ontwikkeld wordt. Precies, dat zie je altijd bij dit soort dingen. Je gaat eerst kijken naar de mensen die het hardst nodig hebben. Nou, mensen met een visuele beperking hebben het hardst nodig. Dat is voor iedereen duidelijk, dat hoef je ook niet uit te leggen. Maar ja, dat zijn er gelukkig maar heel weinig. Of in ieder geval te weinig om, iedereen is één te veel, maar het zijn er veel te weinig om het direct commercieel te kunnen uitbaden. Dus voor een fabrikant die daar geld in moet stoppen, die gaat zich afvragen, hoeveel extra wasmachines verkoop ik nou als ik die doe? En dat is natuurlijk de vraag. Nou, dan hebben we, en dat is het voordeel voor mensen met een visuele beperking, er komen heel veel ouderen bij. En mensen met Starr of mensen met Reuma of mensen met Parkinson, allemaal mensen die last krijgen van het bedienen van die mooie touchscreens en andere zaken. Dus je zult zien dat er een hele grote groep komt van mensen die niet zo overweg kunnen met al die mooie, gedesignde, slimme apparaten. Dat wil zeggen, dat is onze verwachting, dat de doelgroep enorm zal gaan stijgen. Een simpel voorbeeld, je hebt nu een mobiele telefoon voor ouderen met grote toetsen, zodat ze dat gewoon kunnen zien. Dat is een heel simpel voorbeeld, dat iedereen zegt, heel mooi zo'n AUF-foon, maar ja, Als ik die toetsen niet kan zien en niet kan voelen, dan schiet ik er helemaal niks meer op. Dus ik wil gewoon echte knoppen hebben. Dat is een heel simpel voorbeeld waarvan wij denken dat dat op veel meer vlakken zal kunnen. Tegelijkertijd zie je dat mensen ook één apparaat willen waar ze heel veel verschillende dingen mee kunnen. Dus wij denken dan dat spraakinterface eigenlijk een redelijk ideale oplossing kan bieden. Omdat ook iemand met Parkinson, zolang de stemnach maar enigszins goed blijft, gewoon kan zeggen, doe de gordijnen open, zonder dat je biberend op een knopje moet drukken, wat niet lukt. Of als je reuma hebt dat je liever niet opstaat dan dat je toch de gordijnen of de voordeur wel open doet. Dat zal niet altijd foutloos gaan. Maar als je een goede interface defineert waarin je zorgt dat je niet te veel, maar ook niet te weinig feedback geeft. Zet de verwarming op 20 graden en de computer of wat dan ook zegt, verwarming op 20 graden. Dan kun je altijd nog zeggen nee, 21 graden. Ja, maar als je je berekent en anders is ja... Precies, precies. In Twente doen we heel veel robotica onderzoek, met echt robots die rondrijden op de campus. En die moeten mensen kunnen aanspreken, die moeten mensen ontwijken, want je wilt niet dat zo'n apparaat door jou, want die zijn best groot, 2 meter groot of zo, anderhalve meter. Oké, die wil je tegen je aankrijgen, denk ik. Precies, dus die moeten, en dat is waar we nu mee bezig zijn, natuurlijk, ze kunnen je zien, met een radar of wat dan ook, dat is nog wel te bouwen. Maar wat je wilt, is een menselijke manier van omgaan, dus de social computing zoals het dan wordt genoemd, Dat we ons niet gaan aanpassen aan een robot, met allemaal rare commando's enzovoort, maar dat die robot zich aanpast aan ons. En dat wij met die robot omgaan alsof het een goede vriend is. Dat is eigenlijk wat we graag willen. En dat is het onderzoek wat we daar doen. Dan wordt echt gekeken van, is iemand blij of is iemand chagrijnig of is iemand verdrietig? Hoe kun je dat? Wij mensen kunnen dat meestal doen. Je zegt van, volgens mij gaat het niet zo goed met jou. Maar weten we nou precies waarom we dat weten? Ja, en dan kan het ook nog bij de ene persoon op een andere manier gegeten worden dan bij de andere. Absoluut, je ziet een hele grote verschil in de culturen. Dat je soms denkt als je een Italiaan hoort die is boos en dan vraag je het en dan kijkt hij aan en zegt hij nou nee, niks aan nodig. We hadden gewoon even een discussie. Exact, dus er zit een culturele component in, maar wat we vooral willen weten van hoe moeten we dat berekenen? En dat is nog echt wel academisch onderzoek. En wat wil je dan ook in die robotstoffen, zodat die dat kunnen herkennen bij de echte mensen. Je ziet in Japan, daar wordt erg veel aan robotica gedaan. En daar rij je dus op zieke zalen daar robots rond. Die brengen de post weg, de pillen, eten, al dat soort zaken. En dan wordt het wel hogelijk gewaardeerd als mensen daadwerkelijk met die robots kunnen converseren. En niet alleen maar dat hij komt en een bliepje geeft of wat dan ook. Dus je kunt het echt niet ter eerste stoppen van bij dat bed moet dat worden gebracht. Maar dan ook, vooral misschien dat hij zegt hoe gaat het met u of iets anders. Precies. Ik gebruik op college vaak dat voorbeeld, als er gebeld wordt hier Ik doe de deur open, dan staat er een meneer met een pakketje. En hij zegt goeiemorgen. Ik zeg goeiemorgen. En als het regent zeg ik, vervelend dat het regent. Ja, wat mee meneer. Blablabla. Je hebt dus een vorm van sociale interactie. Maar ik doe de deur open, een pakketje in de vangst neem en hij belt aan om het pakketje af te geven. Dus ja, je kunt ook gewoon de deur open doen, pakketje aannemen, de deur weer dicht smijten. Toch doen we dat niet. Dus we stellen het op prijs om daar iets mee te doen. Ook al weten we, hij wordt betaald om dat hier aan te bellen en te geven en ik wil dat en ik wil het pakketje hebben. En dat is academisch onderzoek. Op het moment dat we weten dat het werkt, of hoe het werkt, We kunnen het namaken, we kunnen de testen meedoen. Dan is voor een universiteit natuurlijk de belangstelling neemt af. Want een universiteit is een universiteit en geen bedrijf. En wat nou zo jammer is, is dat heel veel dingen die kunnen. Er worden mooie papers overgeschreven, publicaties, mooie demo's gegeven. En dan gaat men door naar de volgende stap. En we hebben dat gezien met onze spraakherkenning. Die was op een gegeven moment heel goed. Daar konden we allemaal dingen mee doen. Koningin Wilhelmina herkennen, mensen die in Boegenwald hadden gezeten. Dat liep heel goed. Maar op een gegeven moment konden wij er geen papers meer over schrijven, want dat hadden we al gedaan. De zesde collectie, dat geloven we wel dat het net zo goed doet als de vijfde collectie. Dus wij moesten op zoek naar nieuw materiaal, moeilijker, andere omstandigheden. En die techniek, die bleef... Ja, onbenut. En wat we dan doen, dan gaan we met bedrijven praten. Kunnen we niet een vorm van kennistransfeur geven, van zo werkt het. En daar kun je het gebruiken. Kun je daar een voorbeeld van geven? Ja, Koningin Willemina. Dat is niet voor niets het voorbeeld. We zijn daar met een promotieonderzoek in 2002 mee begonnen samen met het NIOT in Amsterdam en die hadden alle beeld en geluid, die hadden de banden en die hadden de teksten en wij konden laten zien wat we allemaal konden. Dus je kunt nu echt naar Wilhelmina luisteren, je ziet de tekst die wordt er automatisch onder gezet, et cetera, et cetera. Hartstikke mooi. Toen hebben we dan nog een keer gedaan voor Boegenwald en ook nog een keer gedaan voor het Vrouweninstituut. Atria in Amsterdam, vrouwen in de hulpverleningen in de jaren zeventig. Er waren hele mooie interviews. Dat konden we allemaal goed doen en toen waren wij qua onderzoek een beetje klaar. Toen zijn we met bedrijven gaan praten en dat was onder andere Telecats maar ook nog een andere. En die hebben die techniek gebruikt om allemaal diensten aan te bieden. En nu is het zo dat we bezig zijn om alles wat er in het parlement gezegd wordt, dus gewoon de Tweede Kamer, om dat te kunnen herkennen. En doen we hetzelfde trucje als we 10 jaar geleden deden voor Boegenwald en Koningin Wilhelmina. En dat heeft z'n tijd nodig, maar je ziet dat in een aantal jaren die kennis van zo zou het moeten werken, echt gebruikt wordt in de samenleving. Spraakherkenning voor de Tweede Kamer. Dat zou betekenen dat de Griffie ander werk moet gaan zoeken. Hoe gaat dat er in de praktijk dan uitzien? Arjan van Hesse? We hebben de afgelopen half jaar een aantal voorbeelden gedaan voor de Kamer. Zowel met echte spraakherkenning als met het opleinen. Opleinen is dezelfde technologie, maar dan weet je wat er gezegd wordt. En dan wil je alleen maar zeggen wanneer het gezegd wordt. Dus ik zeg tegen jou, wil jij nog koffie? En ik schrijf op, wil jij nog koffie? En dan wil ik precies, als jij zegt, ik en wil nog een koffie, wil ik weten wanneer begon dat woord. Dat is opleiden. En dat is voor het ondertitelen handig, want als het woord gesproken wordt, laat je dat op het beeldscherm zien. Dat is opleiden. Spraakherkenning, dan zeg je echt, wat wil je nog? Dan herken je dat, wil je nog koffie? Als voorbeeld. In de Tweede Kamer zijn we nu eerst aan het opleiden. Dat wil zeggen dat de griffie, de stenografen, de mensen die het uitwerken, maken de tekst. maar die zorgen er ook voor dat het fatsoenlijk Nederlands wordt. En dat is nog een hele strijd. Dus als een politicus in de Kamer zegt, ja, maar de belastingsschuld is groter als dat bla bla bla, dan schrijven ze op groter dan. En we hebben gekeken naar het beroemde woord zinsnede van van Wilders, doe effe normaal man. Dat konden we niet vinden, daar stond het in doe even gewoon meneer. Je zegt hetzelfde, En we hebben een hele discussie gehad en die mensen uit de grieven zeiden, goh Arjen, we kunnen toch geen straattaal opschrijven. Nee, dat is waar. En nou zo'n groter als groter dan verschil, dat maakt niet zoveel uit. Dat gaat goed. Maar wat ik bij de laatste testen heb gezien, is dat ze ook bijzinnen omdraaien. Dus een voorbeeld geven. Het is heel erg warm en daarom wil ik naar het zwembad. Goed Nederlandse zin. Dat wordt er gezegd. Wat schrijven ze dan op? Ik wil naar het zwembad, want het is heel warm. Wat qua betekenis precies hetzelfde is. Alleen is dat lastig. Wanneer ga je nou die zin op het scherm tonen? En dan horen mensen, het is heel erg warm en ze zien, ik wil naar het zwembad. En even later horen ze, daarom ga ik naar het zwembad. En dat brengt ons tot de volgende stap. Wat is daar het punt? Voor mensen spreken in de regel, a-grammaticaal en nooit vloeiend. Dit interview, ga dat maar eens uitwerken. Als je dat letterlijk uitwerkt, dat alle woorden die ik zeg met de haperingen, met de verweteringen, met ik was, ik ben en dat soort dingen, dat is niet te lezen. Met andere woorden, je hebt altijd nog een interpretatie nodig van je luistert naar wat er gezegd wordt en daar maak je een coherente zin van die wel weergeeft van wat er gezegd wordt maar niet noodzakelijke wijze honderd procent hetzelfde is. En dat zien we nu ook in de Tweede Kamer. Die mensen zullen een andere taak krijgen. In plaats van het letterlijk uitschrijven zullen ze de resultaten van de spraakherkenning gaan corrigeren, zoals wat er aan het betekenisgebied hetzelfde blijft staan, maar dat dat grammaticaal correct is. En dat zeggen ze en hebben ze natuurlijk een punt. We kunnen nu de handelingen van 1837 zo teruglezen. Dat is gewoon goed Nederlands uit die tijd. Dus dat willen we nu ook wel doen. We gaan niet het letterlijke verhaal van ik ben voorzitter, dat leest gewoon niet. Daar zie je hoe dat in de Tweede Kamer gaat. De mens blijft echt wel nodig, maar voor de interpretatie en voor het mooi maken zodat je het kunt leren. Lees taal, schrijf taal en spreek taal is gewoon niet hetzelfde. Dat zijn hele verschillende dingen. We hebben al in het begin gezegd, de doelgroep blinden en slechtzienden, dat is natuurlijk een kleine ploegroep, die van specifieke dingen gebruikt maken, ook van dingen waar iedereen van gebruikt maken, wil ik even met je naartoe. Wat ik zelf heel interessant vind, is bijvoorbeeld de gesproken ondertiteling voor televisieprogramma's. Er zijn wat systemen voor, wat mogelijkheden voor, ik weet niet of je daar wat over weet. Maar er is ook nog wel heel veel over te doen. Wat kun je daarover zeggen? Want volgens mij ken jij dat wel, hè? Ja, maar dan ben ik vooral benieuwd naar wat jij zegt. Er is heel veel over te doen. Wat bedoel je daarmee? Nou, er is wel veel over te doen. Dat het dus erg gekoppeld is, inderdaad, aan wat voor tv je hebt. Het oude of het nieuwe. Je hebt dus een paar systemen. En het enige systeem werkt wel op een wat ouder tv, maar niet op de meest intelligente tv's. Of juist andersom. En dan heb je dus de mogelijkheid dat een provider een signaal meezint of juist niet. Die systemen zijn er. En daar is veel gediscussie over. Of discussie en wat kun je het beste hebben aan een externe apparaat hebben. Of is er nou toch niet de mogelijkheid dat dat gewoon standaard wordt meegestuurd vanuit de studio, noem ik het maar eventjes zo. Ja, kijk het is niet heel erg anders dan een aantal jaar geleden met de telefoon aan de hand was. Toen kwamen er allerlei diensten bij bedrijven en dan was het, wilt u de afdeling sportmanagement toets 1, wilt u de afdeling verkoop toets 2. En daar zat je met je draait telefoon. Dat ging niet. Oh ja. Ja, dat was natuurlijk een... En in landen waar dat langer heeft geduurd, Duitsland bijvoorbeeld, waar het langer duurde voordat ze andere apparaten gingen gebruiken, zijn ze toen ook begonnen met spraaktechnologie om dat op te vangen. Maar dat is hier hetzelfde probleem. En dat is gewoon een kwestie van geduld. En over een tijdje die televisies worden slimmer en slimmer. Dat zijn natuurlijk al computers. Die kunnen straks veel meer. Je zult denk ik zien dat de televisie losgekoppeld wordt. Dat je een beeldscherm hebt met een doosje. En dat doosje is gewoon een computer. Dus je zult zien dat dat allemaal naast elkaar zal komen te staan. Wat je kunt voorstellen. Wat ik ook wel zie, want we hebben ook met de NPO, praten we natuurlijk over, taal en spraaktechnologie, die zijn er erg in geïnteresseerd. Nu wordt alles nog met de hand ondertiteld. Dat is duur. Voor realtime zal dat nog wel even de mens blijven, maar als die spraakherkenning goed genoeg is, kun je zeggen, luister eens, ik heb hier een mooie uitzending, die haal ik door de spraakherkenner. De teksten, die laat ik door mensen controleren of er geen rare dingen in staan. Maar dat scheelt een enorm, dat is 40% nog maar van de tijd, dus je wint 60% als je dat met machines doet. Daar zie je dat. Maar je kunt je voorstellen straks, op het moment dat je die ondertiteling hebt, van gewoon een Nederlands programma, dat je kunt zeggen, hey, ik ga voorlezen in het Nederlands, zoals het in het Engels is, dat lijkt automatisch vertalen, dan heb je de Nederlandse tekst en die kun je voorlezen. Nu is het zo dat mensen dat inkloppen, dan soms wordt het gebrand op het televisie signaal, daar heb je niet zoveel aan. Maar in toenemende mate is het een apart bestand, wat je gewoon mee kunt sturen. Dan kun je zeggen, ik ga het in de studio, ga ik er al spraak van maken. Dit is een text to speech systeem, dus die leest dat voor. Dat gaat in de regel goed. Dat signaal stuur ik mee, maar je zult zien, dat over niet al te lange tijd dat ze niet meer de spraak maken in de studio, maar dat ze gewoon de tekst meesturen. En dan is jouw computer, slim genoeg, en dan kan het zijn dat jij de stem van Claire vreselijk vindt en dat jij kiest voor Piet. En die Marwanne zegt, nou moet die Piet die kamie lucht afzien, ik kies voor Marietje. Dus dat wil zeggen dat je een veel grotere vrijheid hebt, je krijgt die tekst, En jij, als eigenaar van het systeem, kunt beslissen van welke stem wil ik daarbij horen? Welke niet? Wil ik hem harder, zachter? Wil ik hem met een Fries accent? Alles kan natuurlijk in principe. De techniek staat voor niets. In de TomTom werkt het al zo. De tekst staat vast, maar de consument kan kiezen uit verschillende stemmen. De laatste update van Dezi speler Plex Talk Pocket heeft nu ook een Vlaamse en Franstalige stem voor de Belgische markt. Op een conferentie in China heeft Facebookbaas Mark Zuckerberg een lezing gegeven in het Engels, die ter plekke werd ondertiteld in het Chinees. Nog een nieuwtje? Misschien maakt u er binnenkort wel gebruik van. Skype komt nu met een dienst dat werkt nu nog alleen in Amerika, dus dat wil zeggen binnen een jaar zal het naar Europa komen. Dat als jij met iemand Skype praat, die een andere taal spreekt, en jouw taal niet machtig is, of in ieder geval geen gezamenlijke talen, kun je Als het een populaire taal is, het Vinscholgaars dan nog wel even wachten. Maar zeg Duits, Engels, Frans, Engels, Frans, Spaans, Italiaans, Chinees waarschijnlijk. Jij praat in het Engels, de andere kant hoort het Chinees. Dieste zegt wat in het Chinees, dat wordt realtime vertaald en jij hoort het weer in het Engels. En zo kun je dus met mensen praten, terwijl Skype in dit geval de tolk is. Dat gaat er ook aan komen en dat is er eigenlijk al. Ik denk binnen een jaar, twee jaar wordt dat gemengeld. We zeggen wel eens, spottend op de UT, dat tonton ontwikkeld is voor vrouwen. Want die hebben een, zoals bekend, een minder goede richtingsgevoel. Dus die hadden veel meer behoefte aan een tonton. Nou, is dat wat gechecheerd? Maar je merkt wel dat er heel veel mensen zijn die dat... Sommige mensen kunnen het goed. Die zien een kaart en kunnen dat visualiseren en weten, oh, ik moet daar naar links en dan naar rechts, dan ben ik er. Andere mensen kunnen het niet. Nou, daar is een tonton ideaal voor. Of als je de nieuwe stad komt, dat heeft heel veel voordeel. En ja, doordat het goed werkt, betaalbaar was, zijn heel veel mensen het gaan gebruiken. Ook mensen die het in eerste instantie niet nodig hadden. Als die interface lastig is, als je nog allerlei commando's moet geven en moet wachten en precies moet zeggen, wasmachine graden 20, als dat het protocol is, Dan ga ik het niet gebruiken, maar op het moment dat het beter gaat werken. En ik kan gewoon zeggen, hey, wasmachine doen, dus de was, de bont was op 20 graden. Met fouten, met herhalingen. En dan zeg ik, oké, doe ik. Om 10 uur vanavond klaar. Dan wordt het interessant. Dan heb je het bewijs dat je het voorbij kan roepen voordat je weggaat. Zo kan ik me dat u eerst te voorstellen. Precies, precies. En zo werkt het natuurlijk zelf ook. Als Brigitte mijn mevrouw wil dat ik boodschappen ga doen. kan ze dan in normaal taal zeggen, ze hoeven niet een lijstje te maken en dat aan mij te geven, dit wil ik hebben in deze volhoorden. Nee, zij zegt gewoon heel veel aardappelshalen bla bla bla. Dat werkt goed. Als straks de huiskomputer dat ook op die manier kan, dan zul je zien dat het steeds meer en meer gebruikt gaat worden. Het leuke Mirjam is dat het de combinatie is van technologie En mensen. En dat maakt het zo ontzettend boeiend. Het is niet alleen technologie, technisch werkt het wel. De mens werkt wel, maar nu die combinatie. En de resultaten kunnen ontzettend bevredigend zijn. Ja, dat vind ik natuurlijk heel verschillend. Ja, want dat vertelde je net in het voorgesprek dat nu inderdaad, hoe noem je dat ook weer, de menswetenschappen nu om de hoek kunnen komen kijken, emoties inbouwen. De uitspraak van IBM met zijn Watson, dat zou ik iedereen kunnen aanraden. Dat kost 1 miljard, 40 mensen, 4 jaar aangewerkt. Dat is niet niets. In de jaren 90 kwam IBM met Deep Blue. Dat was de schaakcomputer die voor het eerst won van een wereldkampioen schake. Daar hadden ze toen een groot huis voor nodig met allemaal computers en zoals dat toen ging. Tegenwoordig zijn die algoritmen zo goed en is de computer zo krachtig dat jij op jouw mobiele telefoon sterker bent dan Deep Blue van 20 jaar geleden. IBM heeft dat trucje weer gedaan, dat heet Watson. En daar hebben ze een quiz mee gedaan, Jeopardy in Amerika. En ze hebben gewoon echt gewonnen. De wereldkampioen heeft dik en dik verloren van de computer. En er werden gewoon vragen gezet, gewoon een quizvraag. Het werkt iets anders dan in Nederland bij een quiz, maar ongeveer vergelijkbaar. En als je dat ziet wat er op internet staat, en je luistert die vragen, jeetje, wie nou, hoe zou ik dat zelf moeten antwoorden? Dan zie je dus dat de computer die vraag kan interpreteren, begrijpt welke antwoord erbij hoort. En ook het antwoord opleven. En dan een antwoord voorlezen. En dat is wat IBM tegen ons zei in allerlei samenwerkingsprojecten. The humanities are the next big thing. En dat bedoelen we met de geestenswetenschappen. Dus de vaagheid, de complexheid van de menselijke conversatie, van het menselijk zijn. Dat is de volgende uitdaging. Dus vergelijken met hoe knap wij zijn dat we met elkaar kunnen praten. We kijken elkaar aan, we bewegen, we hebben lichaamstaal, van alles tonen en we begrijpen elkaar hopelijk. Dat is zo complex dat vergeleken daarmee een retour naar de maan heel erg simpel is. Je moet wel die apparaten bouwen, dat kost wel wat geld, maar technisch is het niet zo heel erg moeilijk om dat te doen. De volgende uitdaging is die zoals ze het zelf zeggen, die fuzziness van de menselijke communicatie. Wat wordt er bedoeld? Heb je lekker gegeten? Mwah! Wat bedoel je in godsdame met mwah als je het zo zegt? En dat is hoe ga je daaraan rekenen. Dat is wat zij bedoelen met de next, de volgende uitdaging in de computerwetenschappen is onder andere de mens begrijpen. Wat maakt ons mens mens? Er is laatst een hele leuke TED lezing geweest van iemand en dat ging onder andere, ik heb het gebruik als voorbereiding op die lezing, die zei, kijk, als je nou kijkt naar wat wij mensen zien, gewoon normale mensen die goed kunnen zien, die kunnen van rood tot paars, dat is wat we zien. Maar als je het hele spectrum bekijkt, dan is het maar een heel klein beetje van wat wij werkelijk waarnemen. Slangen die kijken op een andere manier. Die zien dus ook andere dingen dan wij zien. Die zien warmte of wat dan ook. Honden zien er ook wel anders, niet heel erg van anders. En er zijn allerlei rare beesten in de oceanen en vogels. Een deel gebruikt magnetisme, een deel gebruikt infrarood. Omdat dat hele spectrum, en zijn stelling was van wij nemen de wereld waar door datgene wat wij zien. wat wij waarnemen. Dus voor een slang is de werkelijkheid ook heel anders want die ziet gewoon iets anders. En wat hij beoogt en wat hij wil is dat hij dat spectrum gaat uitbreiden. En dat is natuurlijk op zich heel erg boeiend voor mensen die nou net een manco hebben in dat visuele spectrum wat wij zien doen. Kun je nou niet met allerlei kunst trucjes zorgen dan wij of fysiek met onze ogen zouden kunnen. Door bijvoorbeeld een sensor op je hoofd te plakken die warmte waarnemt of echo doet, waardoor jij leert, en onze geest is flexibel genoeg om dat te leren, dat wij een soort vleermuis worden. In plaats van dat het licht weer kaat, ik weet dat dus een muur er moet ik niet tegenaan lopen, is dat een geluidsgolfje die vertaald wordt in een trilling, en ik leer op een gegeven moment van hey, dat wil zeggen dat daar een muurtje staat, of daar een stoepje is, of daar, etc. Dus hij zegt van nou, je zult zien, en dat is nu nog echt onderzoek, maar het werkt voor een deel wel, dat wij ons spectrum waar we informatie uit halen, dat we dat gaan verbreden. Ik wil nog even naar een afrondend laatste onderwerp. Dat is misschien weer een heel andere stap. Moet je horen is het natuurlijk een uitgave van Dedicom. Ik heb ook begrepen dat je ook veel samenwerkt met Dedicom. En dan hebben we het over de mensen met dyslexie. Dus dat is ook een veel groter groep dan andere mensen met een visuele beperking. Of eigenlijk een hele ander soort visuele beperking. Wat hebben jullie daarvoor ontwikkeld? Het is eigenlijk heel erg simpel. Dat is het voorlezen, wat ik eigenlijk al eerder noemde, dat is niet het spraak herkennen, dat is het spraak opleiden. Dat moet je je zo voorstellen. Er is een boek geschreven, de Da Vinci Code, die hebben we gedaan. Dat is een boek, dat is geschreven in het Engels, dat is vertaald in het Nederlands. Maar ja, als je blind bent heb je weinig aan een boek, welke taal dan ook, dus dat stopt. Dedicom doet dat voor mensen met een visuele handicap. Die hebben een groot aantal vrijwilligers, en ik heb een aantal dagen meegenomen, over het algemeen hele mooie stemmen vind ik, die geleerd hebben dat op een rustige, mooie manier voor te lezen. Dus die gaan daar zitten in zo'n geluidskabine en dan in een aantal dagen lezen ze dat hele boek voor. Een luisterboek. Nou, hartstikke mooi. Maar dan is het van ja, maar luister eens, we hebben de tekst, want het is geschreven, dat staat gewoon in een woord file of wat dan ook, we hebben nu de audio, die mensen gaan niet het verhaal navertellen in eigen woorden, die lezen keurig vork, wat er gezegd is, dan moet het toch heel erg simpel zijn om die geschreven tekst en de gesproken tekst op elkaar te leggen. Dat is het opleiden, wat we net al over hebben gehad, dat hebben we gedaan. Maar ja, dat is natuurlijk voor iemand die visueel gehandicapt is, heeft dat geen meerwaarde, die heeft een ondertiteling. Maar ja, als je toch niks kunt zien, maar zij heeft het bedediging om, mensen die dyslectisch zijn, die hebben vaak heel veel baat bij het gelijktijdige aanbieden van én het gesproken woord én de geschreven versie. En daar zit dus een groot winstpunt. En dit is heel simpel, want het boek is er al, het voorlezen is er al, Die technologie kost geen fluit en die werkt heel erg goed. Dus het is heel erg simpel om dat aan elkaar te koppelen. En dan kun je dus voor mensen die dyslectisch zijn, kun je het aanbieden in de hoop dat als je die twee informatiestromen aanbiedt, dat ze het veel eerder begrijpen. Dankjewel Ayan voor dit uitgebreide gesprek. Graag gedaan. En heel veel succes met alle ontwikkelingen. Dankjewel. Tot zover Arjan van Hessen. We houden u over de ontwikkelingen natuurlijk op de hoogte. Voorlopig wordt Moet Je Horen nog gewoon door echte mensen voorgelezen. De vraag was in eerste instantie die spraaktechnologie van jullie. Jullie zeggen dat het werkt, maar wij als visueel gehandicapten merken daar nog eigenlijk heel weinig van. Nou, dat is niet de eerste keer dat we dat horen. Dus samen met mijn collega Henk van de Heuvel van de Radboud hebben we toen aangeboden aan de mensen die ons daar ontvingen in het museum. We willen wel eens voor jullie een dag organiseren om te laten zien wat kan, wat niet kan, wat de problemen zijn. En in ruil daarvoor zouden we voor jullie graag van tevoren willen horen, wat zouden jullie willen? Want anders dan gaan wij bedenken wat goed is voor jullie en dat werkt in de praktijk niet. Dus we hebben toen aan mensen gevraagd van goh, vertel eens, wat zijn jullie dromen? Wat zouden jullie graag willen dat er straks kan. Dat hebben we gedaan. We hebben van dertig mensen een reactie gehad, sommige heel kort, sommige heel uitgebreid. Die hebben we gebruikt voor die bijeenkomst. Er waren drie velden. Het was de buitenwereld. Iedereen kent de tonton, maar er waren een aantal mensen die zeiden ik wil een tonton van deurklink tot deurklink. Want het is niet om van Utrecht naar Amsterdam te komen, maar voor ons is het belangrijk van de stoep en het hele verhaal. Naar het beste huis of inderdaad. Precies. Dat was één categorie. Dan was de categorie internet. Dat mensen zeiden van ja, ik wil kunnen zoeken. Ik wil slim kunnen zoeken. Niet op woordjes kunnen zoeken, maar meer op begrippen. En de over grote meerderheid, dat was denk ik 70 procent, waren mensen die zeiden van Het wordt zo lastig met al die slimme apparaten in huis om ze te kunnen bedienen. Vroeger had je een koffiezetapparaten, daar zat één knop op, aan en uit. Nu heb je hele mooie koffie apparaten, maar daar zitten acht knoppen in en sommige moet je dubbel indrukken. Als je dat niet kunt zien dan kun je ze niet bedienen. Is daar nou niet iets voor mogelijk? En dat koffiezetapparaat kwam een aantal keer terug, maar vooral ook de wasmachine, de droogmachine, ja gewoon al dat soort dingen. En dat is wat we natuurlijk noemen domotica, het automatiseren van processen in huis. Nou daar zijn we naar gaan kijken van wat kan. We hebben een aantal voorbeelden gemaakt en het bleek eigenlijk dat de spraakherkenning daar geen issue meer is. Iedereen kan dat eigenlijk zelf uittesten met Google of met Siri of Cortona van Microsoft. Die spraakherkenning werkt zo goed dat als je een beetje oefent, een beetje leert hoe je het moet zeggen en je zorgt ervoor dat de omgeving enigszins rustig is, dan maak je bijna geen fouten meer. Nee, precies. Dus dan bedoel je dus de spraakherkenning, je zegt iets en het apparaat begrijpt wat jij wilt, hè? Nou, nee. Nog niet, oké. Je maakt een leenneme, je maakt een klassieke fout. Het apparaat zet de spraak om in de woorden die jij gezegd hebt. Maar het is dat niet begrijpen. Begrijpen is de volgende stap. Het is het herkennen. En natuurlijk, we willen graag begrijpen. Maar dat is nog een lastig iets. Daar zijn we wel mee bezig, maar dat staat hier eigenlijk los van. Wat we ook gedemonstreerd hebben is het voorbeeld van zet de wasmachine op 20 graden of doe de deuren open. Dan zie je op het scherm die woorden helemaal goed herkend worden. Dat is de hond die even gaat liggen. En die gaat nu liggen. Maar dat is dus wat je ziet. Die spraakherkenning voor dit soort simpele dingen, dat werkt heel erg goed. Of bestel een pizza macarita en een rijstafel. Als je dat zegt, dat herkent hij ook. Alleen de volgende stap is van ja oké, zet de wasmachine op 60 graden. Maar als die wasmachine geen interface heeft om die spraak om te zetten in het laten draaien van de was op 60 graden. dan schiet er niks meer op. En dat was het teleurstellende van de bijeenkomsten in Nijmegen, dat we moesten zeggen, kijk die spraaktechnologie, die is goed genoeg. Maar nu is het de beurt aan de machinebouwers, de fabrikanten, om te zorgen dat die wasmachine ook werkelijk gaat draaien. En dat is iets van die fabrikanten die daar inmoets door willen stappen. En dan hadden we het net al even over, de mensen met de virtuele pegging zijn dan, is ervoor Roedelakker het maar even zo noemen, maar als het voor een grotere groep nodig zou zijn dan is het veel meer kans dat het ontwikkeld wordt. Precies, dat zie je altijd bij dit soort dingen. Je gaat eerst kijken naar de mensen die het hardst nodig hebben. Nou, mensen met een visuele beperking hebben het hardst nodig. Dat is voor iedereen duidelijk, dat hoef je ook niet uit te leggen. Maar ja, dat zijn er gelukkig maar heel weinig. Of in ieder geval te weinig om, iedereen is één te veel, maar het zijn er veel te weinig om het direct commercieel te kunnen uitbaden. Dus voor een fabrikant die daar geld in moet stoppen, die gaat zich afvragen, hoeveel extra wasmachines verkoop ik nou als ik die doe? En dat is natuurlijk de vraag. Nou, dan hebben we, en dat is het voordeel voor mensen met een visuele beperking, er komen heel veel ouderen bij. En mensen met Starr of mensen met Reuma of mensen met Parkinson, allemaal mensen die last krijgen van het bedienen van die mooie touchscreens en andere zaken. Dus je zult zien dat er een hele grote groep komt van mensen die niet zo overweg kunnen met al die mooie, gedesignde, slimme apparaten. Dat wil zeggen, dat is onze verwachting, dat de doelgroep enorm zal gaan stijgen. Een simpel voorbeeld, je hebt nu een mobiele telefoon voor ouderen met grote toetsen, zodat ze dat gewoon kunnen zien. Dat is een heel simpel voorbeeld, dat iedereen zegt, heel mooi zo'n AUF-foon, maar ja, Als ik die toetsen niet kan zien en niet kan voelen, dan schiet ik er helemaal niks meer op. Dus ik wil gewoon echte knoppen hebben. Dat is een heel simpel voorbeeld waarvan wij denken dat dat op veel meer vlakken zal kunnen. Tegelijkertijd zie je dat mensen ook één apparaat willen waar ze heel veel verschillende dingen mee kunnen. Dus wij denken dan dat spraakinterface eigenlijk een redelijk ideale oplossing kan bieden. Omdat ook iemand met Parkinson, zolang de stemnach maar enigszins goed blijft, gewoon kan zeggen, doe de gordijnen open, zonder dat je biberend op een knopje moet drukken, wat niet lukt. Of als je reuma hebt dat je liever niet opstaat dan dat je toch de gordijnen of de voordeur wel open doet. Dat zal niet altijd foutloos gaan. Maar als je een goede interface defineert waarin je zorgt dat je niet te veel, maar ook niet te weinig feedback geeft. Zet de verwarming op 20 graden en de computer of wat dan ook zegt, verwarming op 20 graden. Dan kun je altijd nog zeggen nee, 21 graden. Ja, maar als je je berekent en anders is ja... Precies, precies. In Twente doen we heel veel robotica onderzoek, met echt robots die rondrijden op de campus. En die moeten mensen kunnen aanspreken, die moeten mensen ontwijken, want je wilt niet dat zo'n apparaat door jou, want die zijn best groot, 2 meter groot of zo, anderhalve meter. Oké, die wil je tegen je aankrijgen, denk ik. Precies, dus die moeten, en dat is waar we nu mee bezig zijn, natuurlijk, ze kunnen je zien, met een radar of wat dan ook, dat is nog wel te bouwen. Maar wat je wilt, is een menselijke manier van omgaan, dus de social computing zoals het dan wordt genoemd, Dat we ons niet gaan aanpassen aan een robot, met allemaal rare commando's enzovoort, maar dat die robot zich aanpast aan ons. En dat wij met die robot omgaan alsof het een goede vriend is. Dat is eigenlijk wat we graag willen. En dat is het onderzoek wat we daar doen. Dan wordt echt gekeken van, is iemand blij of is iemand chagrijnig of is iemand verdrietig? Hoe kun je dat? Wij mensen kunnen dat meestal doen. Je zegt van, volgens mij gaat het niet zo goed met jou. Maar weten we nou precies waarom we dat weten? Ja, en dan kan het ook nog bij de ene persoon op een andere manier gegeten worden dan bij de andere. Absoluut, je ziet een hele grote verschil in de culturen. Dat je soms denkt als je een Italiaan hoort die is boos en dan vraag je het en dan kijkt hij aan en zegt hij nou nee, niks aan nodig. We hadden gewoon even een discussie. Exact, dus er zit een culturele component in, maar wat we vooral willen weten van hoe moeten we dat berekenen? En dat is nog echt wel academisch onderzoek. En wat wil je dan ook in die robotstoffen, zodat die dat kunnen herkennen bij de echte mensen. Je ziet in Japan, daar wordt erg veel aan robotica gedaan. En daar rij je dus op zieke zalen daar robots rond. Die brengen de post weg, de pillen, eten, al dat soort zaken. En dan wordt het wel hogelijk gewaardeerd als mensen daadwerkelijk met die robots kunnen converseren. En niet alleen maar dat hij komt en een bliepje geeft of wat dan ook. Dus je kunt het echt niet ter eerste stoppen van bij dat bed moet dat worden gebracht. Maar dan ook, vooral misschien dat hij zegt hoe gaat het met u of iets anders. Precies. Ik gebruik op college vaak dat voorbeeld, als er gebeld wordt hier Ik doe de deur open, dan staat er een meneer met een pakketje. En hij zegt goeiemorgen. Ik zeg goeiemorgen. En als het regent zeg ik, vervelend dat het regent. Ja, wat mee meneer. Blablabla. Je hebt dus een vorm van sociale interactie. Maar ik doe de deur open, een pakketje in de vangst neem en hij belt aan om het pakketje af te geven. Dus ja, je kunt ook gewoon de deur open doen, pakketje aannemen, de deur weer dicht smijten. Toch doen we dat niet. Dus we stellen het op prijs om daar iets mee te doen. Ook al weten we, hij wordt betaald om dat hier aan te bellen en te geven en ik wil dat en ik wil het pakketje hebben. En dat is academisch onderzoek. Op het moment dat we weten dat het werkt, of hoe het werkt, We kunnen het namaken, we kunnen de testen meedoen. Dan is voor een universiteit natuurlijk de belangstelling neemt af. Want een universiteit is een universiteit en geen bedrijf. En wat nou zo jammer is, is dat heel veel dingen die kunnen. Er worden mooie papers overgeschreven, publicaties, mooie demo's gegeven. En dan gaat men door naar de volgende stap. En we hebben dat gezien met onze spraakherkenning. Die was op een gegeven moment heel goed. Daar konden we allemaal dingen mee doen. Koningin Wilhelmina herkennen, mensen die in Boegenwald hadden gezeten. Dat liep heel goed. Maar op een gegeven moment konden wij er geen papers meer over schrijven, want dat hadden we al gedaan. De zesde collectie, dat geloven we wel dat het net zo goed doet als de vijfde collectie. Dus wij moesten op zoek naar nieuw materiaal, moeilijker, andere omstandigheden. En die techniek, die bleef... Ja, onbenut. En wat we dan doen, dan gaan we met bedrijven praten. Kunnen we niet een vorm van kennistransfeur geven, van zo werkt het. En daar kun je het gebruiken. Kun je daar een voorbeeld van geven? Ja, Koningin Willemina. Dat is niet voor niets het voorbeeld. We zijn daar met een promotieonderzoek in 2002 mee begonnen samen met het NIOT in Amsterdam en die hadden alle beeld en geluid, die hadden de banden en die hadden de teksten en wij konden laten zien wat we allemaal konden. Dus je kunt nu echt naar Wilhelmina luisteren, je ziet de tekst die wordt er automatisch onder gezet, et cetera, et cetera. Hartstikke mooi. Toen hebben we dan nog een keer gedaan voor Boegenwald en ook nog een keer gedaan voor het Vrouweninstituut. Atria in Amsterdam, vrouwen in de hulpverleningen in de jaren zeventig. Er waren hele mooie interviews. Dat konden we allemaal goed doen en toen waren wij qua onderzoek een beetje klaar. Toen zijn we met bedrijven gaan praten en dat was onder andere Telecats maar ook nog een andere. En die hebben die techniek gebruikt om allemaal diensten aan te bieden. En nu is het zo dat we bezig zijn om alles wat er in het parlement gezegd wordt, dus gewoon de Tweede Kamer, om dat te kunnen herkennen. En doen we hetzelfde trucje als we 10 jaar geleden deden voor Boegenwald en Koningin Wilhelmina. En dat heeft z'n tijd nodig, maar je ziet dat in een aantal jaren die kennis van zo zou het moeten werken, echt gebruikt wordt in de samenleving. Spraakherkenning voor de Tweede Kamer. Dat zou betekenen dat de Griffie ander werk moet gaan zoeken. Hoe gaat dat er in de praktijk dan uitzien? Arjan van Hesse? We hebben de afgelopen half jaar een aantal voorbeelden gedaan voor de Kamer. Zowel met echte spraakherkenning als met het opleinen. Opleinen is dezelfde technologie, maar dan weet je wat er gezegd wordt. En dan wil je alleen maar zeggen wanneer het gezegd wordt. Dus ik zeg tegen jou, wil jij nog koffie? En ik schrijf op, wil jij nog koffie? En dan wil ik precies, als jij zegt, ik en wil nog een koffie, wil ik weten wanneer begon dat woord. Dat is opleiden. En dat is voor het ondertitelen handig, want als het woord gesproken wordt, laat je dat op het beeldscherm zien. Dat is opleiden. Spraakherkenning, dan zeg je echt, wat wil je nog? Dan herken je dat, wil je nog koffie? Als voorbeeld. In de Tweede Kamer zijn we nu eerst aan het opleiden. Dat wil zeggen dat de griffie, de stenografen, de mensen die het uitwerken, maken de tekst. maar die zorgen er ook voor dat het fatsoenlijk Nederlands wordt. En dat is nog een hele strijd. Dus als een politicus in de Kamer zegt, ja, maar de belastingsschuld is groter als dat bla bla bla, dan schrijven ze op groter dan. En we hebben gekeken naar het beroemde woord zinsnede van van Wilders, doe effe normaal man. Dat konden we niet vinden, daar stond het in doe even gewoon meneer. Je zegt hetzelfde, En we hebben een hele discussie gehad en die mensen uit de grieven zeiden, goh Arjen, we kunnen toch geen straattaal opschrijven. Nee, dat is waar. En nou zo'n groter als groter dan verschil, dat maakt niet zoveel uit. Dat gaat goed. Maar wat ik bij de laatste testen heb gezien, is dat ze ook bijzinnen omdraaien. Dus een voorbeeld geven. Het is heel erg warm en daarom wil ik naar het zwembad. Goed Nederlandse zin. Dat wordt er gezegd. Wat schrijven ze dan op? Ik wil naar het zwembad, want het is heel warm. Wat qua betekenis precies hetzelfde is. Alleen is dat lastig. Wanneer ga je nou die zin op het scherm tonen? En dan horen mensen, het is heel erg warm en ze zien, ik wil naar het zwembad. En even later horen ze, daarom ga ik naar het zwembad. En dat brengt ons tot de volgende stap. Wat is daar het punt? Voor mensen spreken in de regel, a-grammaticaal en nooit vloeiend. Dit interview, ga dat maar eens uitwerken. Als je dat letterlijk uitwerkt, dat alle woorden die ik zeg met de haperingen, met de verweteringen, met ik was, ik ben en dat soort dingen, dat is niet te lezen. Met andere woorden, je hebt altijd nog een interpretatie nodig van je luistert naar wat er gezegd wordt en daar maak je een coherente zin van die wel weergeeft van wat er gezegd wordt maar niet noodzakelijke wijze honderd procent hetzelfde is. En dat zien we nu ook in de Tweede Kamer. Die mensen zullen een andere taak krijgen. In plaats van het letterlijk uitschrijven zullen ze de resultaten van de spraakherkenning gaan corrigeren, zoals wat er aan het betekenisgebied hetzelfde blijft staan, maar dat dat grammaticaal correct is. En dat zeggen ze en hebben ze natuurlijk een punt. We kunnen nu de handelingen van 1837 zo teruglezen. Dat is gewoon goed Nederlands uit die tijd. Dus dat willen we nu ook wel doen. We gaan niet het letterlijke verhaal van ik ben voorzitter, dat leest gewoon niet. Daar zie je hoe dat in de Tweede Kamer gaat. De mens blijft echt wel nodig, maar voor de interpretatie en voor het mooi maken zodat je het kunt leren. Lees taal, schrijf taal en spreek taal is gewoon niet hetzelfde. Dat zijn hele verschillende dingen. We hebben al in het begin gezegd, de doelgroep blinden en slechtzienden, dat is natuurlijk een kleine ploegroep, die van specifieke dingen gebruikt maken, ook van dingen waar iedereen van gebruikt maken, wil ik even met je naartoe. Wat ik zelf heel interessant vind, is bijvoorbeeld de gesproken ondertiteling voor televisieprogramma's. Er zijn wat systemen voor, wat mogelijkheden voor, ik weet niet of je daar wat over weet. Maar er is ook nog wel heel veel over te doen. Wat kun je daarover zeggen? Want volgens mij ken jij dat wel, hè? Ja, maar dan ben ik vooral benieuwd naar wat jij zegt. Er is heel veel over te doen. Wat bedoel je daarmee? Nou, er is wel veel over te doen. Dat het dus erg gekoppeld is, inderdaad, aan wat voor tv je hebt. Het oude of het nieuwe. Je hebt dus een paar systemen. En het enige systeem werkt wel op een wat ouder tv, maar niet op de meest intelligente tv's. Of juist andersom. En dan heb je dus de mogelijkheid dat een provider een signaal meezint of juist niet. Die systemen zijn er. En daar is veel gediscussie over. Of discussie en wat kun je het beste hebben aan een externe apparaat hebben. Of is er nou toch niet de mogelijkheid dat dat gewoon standaard wordt meegestuurd vanuit de studio, noem ik het maar eventjes zo. Ja, kijk het is niet heel erg anders dan een aantal jaar geleden met de telefoon aan de hand was. Toen kwamen er allerlei diensten bij bedrijven en dan was het, wilt u de afdeling sportmanagement toets 1, wilt u de afdeling verkoop toets 2. En daar zat je met je draait telefoon. Dat ging niet. Oh ja. Ja, dat was natuurlijk een... En in landen waar dat langer heeft geduurd, Duitsland bijvoorbeeld, waar het langer duurde voordat ze andere apparaten gingen gebruiken, zijn ze toen ook begonnen met spraaktechnologie om dat op te vangen. Maar dat is hier hetzelfde probleem. En dat is gewoon een kwestie van geduld. En over een tijdje die televisies worden slimmer en slimmer. Dat zijn natuurlijk al computers. Die kunnen straks veel meer. Je zult denk ik zien dat de televisie losgekoppeld wordt. Dat je een beeldscherm hebt met een doosje. En dat doosje is gewoon een computer. Dus je zult zien dat dat allemaal naast elkaar zal komen te staan. Wat je kunt voorstellen. Wat ik ook wel zie, want we hebben ook met de NPO, praten we natuurlijk over, taal en spraaktechnologie, die zijn er erg in geïnteresseerd. Nu wordt alles nog met de hand ondertiteld. Dat is duur. Voor realtime zal dat nog wel even de mens blijven, maar als die spraakherkenning goed genoeg is, kun je zeggen, luister eens, ik heb hier een mooie uitzending, die haal ik door de spraakherkenner. De teksten, die laat ik door mensen controleren of er geen rare dingen in staan. Maar dat scheelt een enorm, dat is 40% nog maar van de tijd, dus je wint 60% als je dat met machines doet. Daar zie je dat. Maar je kunt je voorstellen straks, op het moment dat je die ondertiteling hebt, van gewoon een Nederlands programma, dat je kunt zeggen, hey, ik ga voorlezen in het Nederlands, zoals het in het Engels is, dat lijkt automatisch vertalen, dan heb je de Nederlandse tekst en die kun je voorlezen. Nu is het zo dat mensen dat inkloppen, dan soms wordt het gebrand op het televisie signaal, daar heb je niet zoveel aan. Maar in toenemende mate is het een apart bestand, wat je gewoon mee kunt sturen. Dan kun je zeggen, ik ga het in de studio, ga ik er al spraak van maken. Dit is een text to speech systeem, dus die leest dat voor. Dat gaat in de regel goed. Dat signaal stuur ik mee, maar je zult zien, dat over niet al te lange tijd dat ze niet meer de spraak maken in de studio, maar dat ze gewoon de tekst meesturen. En dan is jouw computer, slim genoeg, en dan kan het zijn dat jij de stem van Claire vreselijk vindt en dat jij kiest voor Piet. En die Marwanne zegt, nou moet die Piet die kamie lucht afzien, ik kies voor Marietje. Dus dat wil zeggen dat je een veel grotere vrijheid hebt, je krijgt die tekst, En jij, als eigenaar van het systeem, kunt beslissen van welke stem wil ik daarbij horen? Welke niet? Wil ik hem harder, zachter? Wil ik hem met een Fries accent? Alles kan natuurlijk in principe. De techniek staat voor niets. In de TomTom werkt het al zo. De tekst staat vast, maar de consument kan kiezen uit verschillende stemmen. De laatste update van Dezi speler Plex Talk Pocket heeft nu ook een Vlaamse en Franstalige stem voor de Belgische markt. Op een conferentie in China heeft Facebookbaas Mark Zuckerberg een lezing gegeven in het Engels, die ter plekke werd ondertiteld in het Chinees. Nog een nieuwtje? Misschien maakt u er binnenkort wel gebruik van. Skype komt nu met een dienst dat werkt nu nog alleen in Amerika, dus dat wil zeggen binnen een jaar zal het naar Europa komen. Dat als jij met iemand Skype praat, die een andere taal spreekt, en jouw taal niet machtig is, of in ieder geval geen gezamenlijke talen, kun je Als het een populaire taal is, het Vinscholgaars dan nog wel even wachten. Maar zeg Duits, Engels, Frans, Engels, Frans, Spaans, Italiaans, Chinees waarschijnlijk. Jij praat in het Engels, de andere kant hoort het Chinees. Dieste zegt wat in het Chinees, dat wordt realtime vertaald en jij hoort het weer in het Engels. En zo kun je dus met mensen praten, terwijl Skype in dit geval de tolk is. Dat gaat er ook aan komen en dat is er eigenlijk al. Ik denk binnen een jaar, twee jaar wordt dat gemengeld. We zeggen wel eens, spottend op de UT, dat tonton ontwikkeld is voor vrouwen. Want die hebben een, zoals bekend, een minder goede richtingsgevoel. Dus die hadden veel meer behoefte aan een tonton. Nou, is dat wat gechecheerd? Maar je merkt wel dat er heel veel mensen zijn die dat... Sommige mensen kunnen het goed. Die zien een kaart en kunnen dat visualiseren en weten, oh, ik moet daar naar links en dan naar rechts, dan ben ik er. Andere mensen kunnen het niet. Nou, daar is een tonton ideaal voor. Of als je de nieuwe stad komt, dat heeft heel veel voordeel. En ja, doordat het goed werkt, betaalbaar was, zijn heel veel mensen het gaan gebruiken. Ook mensen die het in eerste instantie niet nodig hadden. Als die interface lastig is, als je nog allerlei commando's moet geven en moet wachten en precies moet zeggen, wasmachine graden 20, als dat het protocol is, Dan ga ik het niet gebruiken, maar op het moment dat het beter gaat werken. En ik kan gewoon zeggen, hey, wasmachine doen, dus de was, de bont was op 20 graden. Met fouten, met herhalingen. En dan zeg ik, oké, doe ik. Om 10 uur vanavond klaar. Dan wordt het interessant. Dan heb je het bewijs dat je het voorbij kan roepen voordat je weggaat. Zo kan ik me dat u eerst te voorstellen. Precies, precies. En zo werkt het natuurlijk zelf ook. Als Brigitte mijn mevrouw wil dat ik boodschappen ga doen. kan ze dan in normaal taal zeggen, ze hoeven niet een lijstje te maken en dat aan mij te geven, dit wil ik hebben in deze volhoorden. Nee, zij zegt gewoon heel veel aardappelshalen bla bla bla. Dat werkt goed. Als straks de huiskomputer dat ook op die manier kan, dan zul je zien dat het steeds meer en meer gebruikt gaat worden. Het leuke Mirjam is dat het de combinatie is van technologie En mensen. En dat maakt het zo ontzettend boeiend. Het is niet alleen technologie, technisch werkt het wel. De mens werkt wel, maar nu die combinatie. En de resultaten kunnen ontzettend bevredigend zijn. Ja, dat vind ik natuurlijk heel verschillend. Ja, want dat vertelde je net in het voorgesprek dat nu inderdaad, hoe noem je dat ook weer, de menswetenschappen nu om de hoek kunnen komen kijken, emoties inbouwen. De uitspraak van IBM met zijn Watson, dat zou ik iedereen kunnen aanraden. Dat kost 1 miljard, 40 mensen, 4 jaar aangewerkt. Dat is niet niets. In de jaren 90 kwam IBM met Deep Blue. Dat was de schaakcomputer die voor het eerst won van een wereldkampioen schake. Daar hadden ze toen een groot huis voor nodig met allemaal computers en zoals dat toen ging. Tegenwoordig zijn die algoritmen zo goed en is de computer zo krachtig dat jij op jouw mobiele telefoon sterker bent dan Deep Blue van 20 jaar geleden. IBM heeft dat trucje weer gedaan, dat heet Watson. En daar hebben ze een quiz mee gedaan, Jeopardy in Amerika. En ze hebben gewoon echt gewonnen. De wereldkampioen heeft dik en dik verloren van de computer. En er werden gewoon vragen gezet, gewoon een quizvraag. Het werkt iets anders dan in Nederland bij een quiz, maar ongeveer vergelijkbaar. En als je dat ziet wat er op internet staat, en je luistert die vragen, jeetje, wie nou, hoe zou ik dat zelf moeten antwoorden? Dan zie je dus dat de computer die vraag kan interpreteren, begrijpt welke antwoord erbij hoort. En ook het antwoord opleven. En dan een antwoord voorlezen. En dat is wat IBM tegen ons zei in allerlei samenwerkingsprojecten. The humanities are the next big thing. En dat bedoelen we met de geestenswetenschappen. Dus de vaagheid, de complexheid van de menselijke conversatie, van het menselijk zijn. Dat is de volgende uitdaging. Dus vergelijken met hoe knap wij zijn dat we met elkaar kunnen praten. We kijken elkaar aan, we bewegen, we hebben lichaamstaal, van alles tonen en we begrijpen elkaar hopelijk. Dat is zo complex dat vergeleken daarmee een retour naar de maan heel erg simpel is. Je moet wel die apparaten bouwen, dat kost wel wat geld, maar technisch is het niet zo heel erg moeilijk om dat te doen. De volgende uitdaging is die zoals ze het zelf zeggen, die fuzziness van de menselijke communicatie. Wat wordt er bedoeld? Heb je lekker gegeten? Mwah! Wat bedoel je in godsdame met mwah als je het zo zegt? En dat is hoe ga je daaraan rekenen. Dat is wat zij bedoelen met de next, de volgende uitdaging in de computerwetenschappen is onder andere de mens begrijpen. Wat maakt ons mens mens? Er is laatst een hele leuke TED lezing geweest van iemand en dat ging onder andere, ik heb het gebruik als voorbereiding op die lezing, die zei, kijk, als je nou kijkt naar wat wij mensen zien, gewoon normale mensen die goed kunnen zien, die kunnen van rood tot paars, dat is wat we zien. Maar als je het hele spectrum bekijkt, dan is het maar een heel klein beetje van wat wij werkelijk waarnemen. Slangen die kijken op een andere manier. Die zien dus ook andere dingen dan wij zien. Die zien warmte of wat dan ook. Honden zien er ook wel anders, niet heel erg van anders. En er zijn allerlei rare beesten in de oceanen en vogels. Een deel gebruikt magnetisme, een deel gebruikt infrarood. Omdat dat hele spectrum, en zijn stelling was van wij nemen de wereld waar door datgene wat wij zien. wat wij waarnemen. Dus voor een slang is de werkelijkheid ook heel anders want die ziet gewoon iets anders. En wat hij beoogt en wat hij wil is dat hij dat spectrum gaat uitbreiden. En dat is natuurlijk op zich heel erg boeiend voor mensen die nou net een manco hebben in dat visuele spectrum wat wij zien doen. Kun je nou niet met allerlei kunst trucjes zorgen dan wij of fysiek met onze ogen zouden kunnen. Door bijvoorbeeld een sensor op je hoofd te plakken die warmte waarnemt of echo doet, waardoor jij leert, en onze geest is flexibel genoeg om dat te leren, dat wij een soort vleermuis worden. In plaats van dat het licht weer kaat, ik weet dat dus een muur er moet ik niet tegenaan lopen, is dat een geluidsgolfje die vertaald wordt in een trilling, en ik leer op een gegeven moment van hey, dat wil zeggen dat daar een muurtje staat, of daar een stoepje is, of daar, etc. Dus hij zegt van nou, je zult zien, en dat is nu nog echt onderzoek, maar het werkt voor een deel wel, dat wij ons spectrum waar we informatie uit halen, dat we dat gaan verbreden. Ik wil nog even naar een afrondend laatste onderwerp. Dat is misschien weer een heel andere stap. Moet je horen is het natuurlijk een uitgave van Dedicom. Ik heb ook begrepen dat je ook veel samenwerkt met Dedicom. En dan hebben we het over de mensen met dyslexie. Dus dat is ook een veel groter groep dan andere mensen met een visuele beperking. Of eigenlijk een hele ander soort visuele beperking. Wat hebben jullie daarvoor ontwikkeld? Het is eigenlijk heel erg simpel. Dat is het voorlezen, wat ik eigenlijk al eerder noemde, dat is niet het spraak herkennen, dat is het spraak opleiden. Dat moet je je zo voorstellen. Er is een boek geschreven, de Da Vinci Code, die hebben we gedaan. Dat is een boek, dat is geschreven in het Engels, dat is vertaald in het Nederlands. Maar ja, als je blind bent heb je weinig aan een boek, welke taal dan ook, dus dat stopt. Dedicom doet dat voor mensen met een visuele handicap. Die hebben een groot aantal vrijwilligers, en ik heb een aantal dagen meegenomen, over het algemeen hele mooie stemmen vind ik, die geleerd hebben dat op een rustige, mooie manier voor te lezen. Dus die gaan daar zitten in zo'n geluidskabine en dan in een aantal dagen lezen ze dat hele boek voor. Een luisterboek. Nou, hartstikke mooi. Maar dan is het van ja, maar luister eens, we hebben de tekst, want het is geschreven, dat staat gewoon in een woord file of wat dan ook, we hebben nu de audio, die mensen gaan niet het verhaal navertellen in eigen woorden, die lezen keurig vork, wat er gezegd is, dan moet het toch heel erg simpel zijn om die geschreven tekst en de gesproken tekst op elkaar te leggen. Dat is het opleiden, wat we net al over hebben gehad, dat hebben we gedaan. Maar ja, dat is natuurlijk voor iemand die visueel gehandicapt is, heeft dat geen meerwaarde, die heeft een ondertiteling. Maar ja, als je toch niks kunt zien, maar zij heeft het bedediging om, mensen die dyslectisch zijn, die hebben vaak heel veel baat bij het gelijktijdige aanbieden van én het gesproken woord én de geschreven versie. En daar zit dus een groot winstpunt. En dit is heel simpel, want het boek is er al, het voorlezen is er al, Die technologie kost geen fluit en die werkt heel erg goed. Dus het is heel erg simpel om dat aan elkaar te koppelen. En dan kun je dus voor mensen die dyslectisch zijn, kun je het aanbieden in de hoop dat als je die twee informatiestromen aanbiedt, dat ze het veel eerder begrijpen. Dankjewel Ayan voor dit uitgebreide gesprek. Graag gedaan. En heel veel succes met alle ontwikkelingen. Dankjewel. Tot zover Arjan van Hessen. We houden u over de ontwikkelingen natuurlijk op de hoogte. Voorlopig wordt Moet Je Horen nog gewoon door echte mensen voorgelezen.


Interview_van_Hessen.mp4
 0.0
Time_indexConfidentialitySpeaker