Interview met CEO Barnier Geerling

Interview met CEO Barnier Geerling

Interview met CEO Barnier Geerling

Author

Team DAISYS

Category

Interview

Stel je voor dat jij jouw stem helemaal opnieuw zou mogen uitvinden. Hoe zou die stem dan klinken?
Nederlandse startup DAISYS ontwikkelt AI-gestuurde stemtechnologie van de toekomst
De Nederlandse AI-startup DAISYS maakt het mogelijk om levensechte menselijke stemmen tot in de kleinste details te ‘componeren’.

De unieke, geheel inhouse ontwikkelde technologie gaat een cruciale stap verder dan de gekloonde stemmen van concurrenten. “Wij ontwikkelen de Heilige Graal van de AI-gestuurde voice technology”, stelt DAISYS CEO en mede-founder Barnier Geerling.

“De menselijke stem is de interface van de toekomst ”, vertelt CEO Barnier Geerling van Nederlandse AI-startup DAISYS. “Stembediening neemt de rol van knopjes, toetsenborden en touchscreens steeds meer over. Of je nu een interactieve video of game produceert, een persoonlijke AI-assistent of een nieuwe auto, tv of koffiemachine: je kunt straks niet meer zonder een voice interface. Die stem moet op precies de juiste toon, timbre, emotie en ritme met de gebruiker kunnen communiceren.”

Unieke technologie

De totale gebruikservaring valt of staat dan dus met de juiste stem. “Die moet jouw merk, dienst of product perfect vertegenwoordigen”, aldus Geerling. “Hij moet prettig en duidelijk zijn, uitnodigen tot interactie, en liefst geheel af te stemmen op de voorkeuren én realtime emoties van de gebruiker. De mogelijkheid om stemmen geheel naar eigen inzicht te kunnen componeren is daarom zeer waardevol. En dat is precies de unieke technologie die wij de afgelopen vier jaar hebben ontwikkeld.”

Razendsnelle ontwikkeling

Als stemacteur, stemregisseur, eigenaar van een geluidsstudio en ‘echte science fiction nerd’, volgde Geerling de snelle ontwikkeling van voice-technologie al jaren op de voet. “Van een blikkerige robotstem ging het dankzij de opkomst van machine learning en AI opeens razendsnel naar echt menselijk klinkend stemgeluid. Dat was het moment dat ik daar met mijn twee partners op ben opgesprongen. Maar wel met onze eigen, en geheel unieke insteek.”

Gekloonde LEGO-blokjes

De technologie van het moment maakt gebruik van databases met bestaande stemmen. Algoritmes vervormen of ‘klonen’ die stem om de illusie van een nieuwe stem te creëren. “Maar die ‘nieuwe stem’ is dus eigenlijk gewoon een aangepaste versie van een bestaande stem”, constateert Geerling. “Als stemacteur weet ik als geen ander hoe gevoelig dat kan liggen. Ik wilde daarom een stap verder gaan, en technologie ontwikkelen die elk aspect van de stem geheel kunstmatig kan componeren.”

Technologische uitdaging

Recente rechtszaken, zoals die van Scarlet Johansson tegen OpenAI, tonen momenteel het gelijk van Geerlings gevoelsmatige voorkeur. Op dat moment zadelt Geerling zijn partners en het snel groeiende team echter op met een enorme technologische uitdaging. “Het volledig losmaken, oftewel disentanglen van brondata en output, is een soort Heilige Graal in AI-land”, lacht hij. “Ik overzag op dat moment absoluut niet hoe complex dat zou worden. Maar we zijn er uiteindelijk wél in geslaagd.”

Unieke onderscheidende waarde

De unieke, AI-gestuurde stemtechnologie die DAISYS nu presenteert, verschilt op een aantal cruciale punten van de diensten van elke andere aanbieder. Allereerst stelde de startup de eigen data set met menselijke stemmen - onmisbaar startpunt voor elke AI-stemtechnologie - geheel zelf samen. Geerling: “Zestig Nederlandse stemacteur-collega’s hebben hun stem geleend, en kregen in ruil daarvoor een klein aandeel. Zo tonen we direct dat we responsible technology heel serieus nemen.”

Melodiebuigingen

DAISYS ontwikkelde de vereiste machine learning- en AI-technologie bovendien ook geheel inhouse. “Die kan elk onderdeel dat een stem uniek maakt nu volledig isoleren”, vertelt Geerling. “Dus bijvoorbeeld niet alleen timbre of ritme, maar ook kenmerken waar tot op heden simpelweg geen naam voor was. Wij bedenken daarom nu zelf termen als ‘melodiebuigingen’. Gebruikers kunnen hun gewenste stem daardoor met extreme precisie zelf componeren. Dat is een echte game changer.”

Geautomatiseerd leerproces

Gebruikers kunnen hun unieke stem straks (laten) componeren via het eveneens geheel inhouse ontwikkelde SPEAK-platform van DAISYS. Met een slimme API-ontsluiting sluiten ze het platform bovendien direct aan op hun eigen back-end technologie. “Chatbots zijn in de toekomst onder meer in staat de emotie van de gesprekspartner te ‘meten’”, legt Geerling uit. “Via onze API kan de chatbot dan automatisch een stem componeren die bijvoorbeeld op rustgevende of blije toon reageert.”

Nieuw dataplatform

Die mogelijkheid verhoogt de kwaliteit en effectiviteit van door AI aangestuurde communicatie enorm. “Nu deze unieke technologie écht staat, gaan we ons model verder trainen met grote aangekochte en open source data sets”, vervolgt Geerling. “Om dat snel en effectief te kunnen doen, moeten we die data echter wel ‘voorbewerken’. Gelukkig hebben we nu ook een platform ontwikkeld dat deze bewerkelijke klus geheel kan automatiseren. Wij zijn nu dus echt klaar voor de toekomst.”

Gerenommeerde risicokapitaalverstrekkers

DAISYS werkte al aan pilots met grote Nederlandse omroepen, en is in gesprek met een grote Nederlandse verzekeraar. De startup praat nu ook met investeerders om de verdere ontwikkeling van de technologie, het inmiddels 15-koppige team én de beschikbare data set te kunnen financieren. Britse marktleider ElevenLabs, dat werkt met de minder geavanceerde cloning-technologie, haalde in januari van dit jaar 80 miljoen dollar op bij verschillende gerenommeerde risicokapitaalverstrekkers.

Nuchtere Nederlandse aanpak

“Dankzij onze nuchtere Nederlandse aanpak hebben wij veel minder geld nodig”, lacht Geerling. “Maar het is wel cruciaal dat onze technologie nu snel veel leert over alle verschillende accenten, dialecten en andere uitdagingen die de Engelse taal wereldwijd kenmerkt. Wij hebben op dit moment een grote voorsprong, maar gezien de razendsnelle ontwikkelingen kan die snel kleiner worden. Onze unieke insteek maakt gelukkig wel een zeer efficiënte training van onze AI-modellen mogelijk.”

Rozige toekomst

Zo produceert een Nederlandse startup nu dus de Heilige Graal van de AI voice technology. Dat er voor het onlangs naar een groter pand in Amsterdam verhuisde DAISYS een gouden toekomst in het verschiet ligt lijkt dus zeer aannemelijk. “De binnen ons bereik liggende voice-markt is goed voor ruim 37 miljard dollar”, aldus Geerling. “Als wij daar slechts een klein deel van kunnen veroveren zitten we al op rozen. Dankzij de kracht van onze unieke technologie durven we daar nu echt van te dromen.”

Ontdek meer artikelen..