Sur votre flux audio personnalisé, vous préférez écouter Bernard le dépressif ou Edith la québécoise ?

Par Marine Protais - Le 25 octobre 2021

Accueil > Tech à suivre > Sur votre flux audio personnalisé, vous préférez écouter Bernard le dépressif ou Edith la québécoise ?

Lancée cet été, l’application française Juice a créé une vingtaine de voix de synthèse pour lancer sa « rédaction virtuelle » … Et près de 10 000 auditeurs sont déjà inscrits, dont certains écouteraient l'appli plusieurs heures par jour. On vous raconte l'avenir de la radio ?

Les voix synthétiques dont on a l’habitude – pensez à celles qui vous aiguillent quand vous tentez de joindre votre banquier – sont assez éloignées de la voix artificielle du film Her, incarnée par Scarlett Johansson. Elles restent robotiques, un peu étranges et monotones.

Pourtant la startup française Juice mise gros sur leur potentiel. Son application, lancée il y a quelques semaines, permet de façonner un flux audio selon ses goûts. En mixant musique (Juice accède au compte Spotify, Apple et bientôt Deezer de l’utilisateur), podcasts, extraits radio et flash infos à base de titres d’articles de presse lus par l’une des vingt voix de synthèse de Juice. Ce mélange de contenus audio varie selon les paramètres sélectionnés par l’utilisateur. Il peut choisir d’écouter plus de news et moins de musique, plutôt des informations économiques que sportives... La granularité est assez poussée : il est par exemple possible d’exclure le podcast d’un chroniqueur que l’on n’apprécie pas, ou un sujet très précis (le golf par exemple). Au fil du temps, l’algorithme de Juice s’adapte aussi selon ce que l’utilisateur zappe ou écoute jusqu’au bout, à la manière d’un TikTok ou d’un Netflix. De quoi créer une sorte de radio hyper-personnalisée.

Une voix synthétique, ça coûte moins cher qu’un journaliste

Les voix de synthèse se chargent d’animer ce flux audio. « Elles répondent à un souci économique, nous n’aurions pas eu les moyens d’avoir ce niveau de personnalisation avec de vraies personnes, mais nous assumons pleinement ce choix » , explique Stéphane Dadian, co-fondateur de l’entreprise.

La startup mise sur une technologie encore jeune. Si les deepfakes vidéo abreuvent le web, les deepfakes audio (bien que déjà existants) se font plus rares. « Dans le champ du deep learning, le langage a toujours été en retard par rapport à l’image, expose Stéphane Dadian. L’image se prête assez bien à une lecture informatique car elle est constituée de pixels. Le langage en revanche a bien plus de paramètres, et la voix encore plus. » Mais la voix serait en train de rattraper son retard, assure cet ingénieur spécialiste du langage naturel. En 2017, la technologie a fait un bond important grâce à l'entreprise californienne Nvidia qui est parvenue à simuler une voix naturelle avec bien moins de matériel informatique qu’auparavant.

Bernard, le dépressif et Edith, la québécoise

Pour rendre les voix plus agréables à écouter, Juice essaie de leur donner « une âme » . Chacune d’entre elles a un nom, un caractère et un rôle précis… Elles forment selon Juice « une rédaction virtuelle », « mi-journaliste mi-robot » . Il y a Edith, la voix à l’accent québécois qui se concentre sur les infos internationales. Yasmina, spécialiste de l’économie. Ou encore Bernard, le dépressif, qui fait une chronique de temps en temps entre un flash info et un podcast…

L’habillage sonore est très important aussi. « On s’est rendu compte qu’en ajoutant des bruits de fond comme celui d’un hall de gare, la voix paraissait beaucoup plus humaine car elle était dans un espace physique et donnait l’impression d’avoir un corps » , raconte Rafi Haladjian, co-fondateur et président de Juice.

Pour créer ses voix, Juice puise chez les acteurs du marché de la voix de synthèse (oui il y a déjà un marché, mené notamment par Google et Microsoft), et les entraîne constamment à bien prononcer les mots et noms propres liés à l’actualité du moment. Certaines voix – comme Bernard le dépressif – sont développées en interne de A à Z.

Jiminy Cricket virtuel

La radio doit-elle trembler devant cette armée de voix synthétiques ? L’appli compte pour le moment près de 10 000 inscrits et certains l'écouteraient déjà plusieurs heures par jour. Mais pas sûr que le concept plaise à tout le monde. Quelques imperfections techniques rendent le résultat pas toujours convaincant – pour le moment en tout cas. Lors des flashs concoctés par l’appli, aucune hiérarchisation de l’information n’est faite. Les fondateurs assurent adapter les titres et les chapô de la presse écrite pour l’audio, mais cela n’est pas toujours réussi (par exemple cette reprise d'un titre des Échos : « Microentrepreneur : facile à créer, simple à gérer… et difficile d’y renoncer », qui n’a pas grande valeur informative sans le reste du texte.)

À terme, les fondateurs aimeraient faire de Juice une sorte de Jiminy Cricket, un conseiller virtuel capable de vous donner des conseils avisés et personnalisés à des moments opportuns. Comme vous glisser quelques éléments de biographie sur une personne que vous vous apprêtez à rencontrer par exemple. « C’est-à-dire faire ce que promettent les lunettes de réalité augmentée, mais de manière plus socialement acceptable. Puisque tout le monde porte déjà des AirPods sans problème », observe Rafi Haladjian.

Pub audio dictée par une voix de synthèse

Juice envisage d’intégrer de la publicité à son flux audio, des annonces personnalisées elles aussi et dictées par une voix de synthèse… Des annonceurs seraient déjà en discussion avec la startup pour tester de tels formats.