2 femmes face à face, avec des ondes audios passant de l'une à l'autre

VALL-E, le nouvel outil d'IA de Microsoft qui peut imiter votre voix en 3 secondes

© Laura Stanley

Après ChatGPT et DALL-E, voici VALL-E, un outil d'intelligence artificielle de synthèse vocale qui peut imiter n'importe quelle voix. Flippant non ?

Le géant de la technologie Microsoft a dévoilé son nouvel outil d'intelligence artificielle VALL-E, une IA capable de reproduire n'importe quelle voix à partir d’un échantillon audio de seulement 3 secondes. Et ce n'est pas tout ! Pour plus de réalisme, l'outil est également capable de reproduire les intonations et les émotions du speaker (ce dont les modèles précédents n'étaient pas capables.)

Une IA de synthèse vocale qui peut imiter la voix de n'importe qui

Présentant VALL-E dans un article publié par l'Université Cornell, les développeurs ont expliqué que l'outil avait été formé à partir de 60 000 heures d'enregistrement issues de 7000 locuteurs uniques (données Libri-light de Meta). Ils ont également indiqué que VALL-E était en capacité de prononcer un discours en « situation zéro ». Qu'est-ce que ça signifie ? L'outil fait preuve de capacités d’apprentissage en contexte, pouvant ainsi reproduire des mots qu’il n’a jamais entendus. Comment est-ce possible ? L'équipe affirme que son système Text To Speech (TTS) a utilisé des centaines de fois plus de données que les systèmes TTS existants, ce qui lui permet de générer un discours sans aucun exemple préalable, ni formation dans un contexte ou une situation spécifique.

Sous le capot, VALL-E est un « modèle de langage de codec neuronal » basé sur la technologie de compression audio EnCodec de Meta, révélée à la fin 2022. EnCodec promet une compression dix fois meilleure que le MP3 à qualité égale.

Un outil qui soulève de nombreuses inquiétudes

Selon ses créateurs VALL-E est destiné à être utilisé pour des applications de synthèse vocale, de l’édition vocale ou encore de la création de contenus. Conscient des risques de détournement Microsoft ne propose à ce jour qu'une version démo de son nouvel outil, le géant de l'informatique ayant fait le choix de ne pas le rendre disponible au grand public pour des questions de sécurité : « Étant donné que VALL-E pourrait synthétiser la parole qui maintient l'identité du locuteur, il peut comporter des risques potentiels en cas d'utilisation abusive du modèle, comme l'usurpation d'identification vocale ou l'usurpation de l'identité d'un locuteur spécifique. Pour atténuer ces risques, il est possible de construire un modèle de détection pour discriminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles. »

Microsoft mise sur l'IA

Microsoft qui a investi 1 milliard de dollars (930 millions d'euros) dans OpenAI en 2019 a déclaré dans un rapport publié cette semaine sur semafor.com envisager d'investir 10 milliards de dollars supplémentaires (9,3 milliards d'euros) dans l'entreprise. On comprend ainsi mieux le clin d'œil de VALL-E à DALL-E, le générateur d'IA d’images conçu par OpenAI.

commentaires

Participer à la conversation

Laisser un commentaire