En 2022 et 2023, Ircam Amplify a participé à des projets pour synthétiser les voix de personnalités disparues. Des prouesses techniques qui reposent sur une analyse précise de ce qui caractérise la voix. Frédéric Amadu, directeur technique, nous explique.
Au commencement était la voix. « La particularité de l’espèce humaine, c’est que l’on parle », pose Frédéric Amadu, directeur technique d’Ircam Amplify. Avant les machines, les claviers et les souris d’ordinateur, « l’interface de communication privilégiée était la voix », rappelle-t-il.
Dans la vision de Ircam Amplify, la voix est naturellement une interface homme-machine. Afin d’être efficace, elle se doit d’être précise. « L’attitude et l’identité de la voix doivent dépendre du contexte, de ce qu’on est en train de dire, à qui, et à quel moment, détaille Frédéric Amadu. Dit simplement, on n’énonce pas la météo et la nouvelle d’un accident d’avion de la même manière. »
La voix, porteuse d’identité et d’attitude
Deux caractéristiques viennent marquer la voix comme interface : l’identité et l’attitude. « Si vous entendez la voix de quelqu’un que vous connaissez, son image va se projeter, souligne le directeur technique. C’est l’identité. » Ainsi, des caractéristiques comme le timbre, la vitesse d’énonciation, l’accent, entrent en jeu. En bref, la mélodie de la voix, aussi appelée prosodie.
L’attitude est plus difficile à capturer. « Est-ce que je parle de manière douce ou énervée, est-ce que j’essaie d’imposer quelque chose, ou bien je suis dans la séduction ? », présente Frederic Amadu. À ce stade, même les meilleurs programmes de synthèse ne parviennent pas à simuler une attitude. D’ailleurs, les personnes ne perçoivent pas tous la même attitude dans une même façon de dire les choses, a-t-il été établi. « Il y a une partie subjective et une partie technique à la précision très fine. C’est ce qui fait que ce n’est pas simple à résoudre. » Cette caractéristique est néanmoins un objet d’étude, notamment à l’Ircam – Centre Pompidou, et les résultats sont positifs. « On pressent qu’on va pouvoir synthétiser certaines attitudes », partage le directeur technique.
C’est à partir de ces deux prismes de lecture qu’Ircam Amplify a participé sur le plan technologique à Vocal’iz de la MGEN, une application gratuite pour mesurer les caractéristiques techniques de la voix, entraîner sa prosodie et améliorer ses prises de paroles. « C’est en faisant des variations qu’on captive une audience, rappelle l’expert. En faisant des cassures, en s’exclamant, en accélérant… comme un bon morceau de musique, il se passe quelque chose. »
Reproduire la voix de Dalida et du général de Gaulle
Surtout, c’est sur l’attitude et l’identité que le laboratoire STMS (CNRS, Ircam, Sorbonne Université, Ministère de la culture) associé à Ircam Amplify a construit Voice Cloning, un programme qui permet de reconstruire des voix, clones synthétiques d’une voix existante. « Le principe est exactement le même qu’en cinéma quand on applique une texture sur un comédien : on applique sur lui des points d’intérêt pour savoir quand il bouge ses bras, quelle est l’attitude de son visage, etc. Puis on vient lui appliquer une texture, du bleu par exemple si on réalise Avatar », décrit Frédéric Amadu. Alors qu’à l’image l’humain est essentiel pour donner du naturel aux mouvements, pour la voix on s’appuie aussi sur un acteur pour asseoir l’attitude. « Comme au cinéma, les points d’intention seront portés sur son attitude vocale, sur laquelle on applique le timbre, donc l’identité de quelqu’un d’autre. »
Ce travail a été décrit en détail dans une enquête du Monde, par laquelle le journaliste en association avec les équipes d’Ircam Amplify et l’acteur François Morel ont reconstitué l’appel du 18 juin, dont l’enregistrement n’a jamais été enregistré par la BBC. Afin d’être le plus juste, l’identité a été entraînée sur des enregistrements datés de 1940 – on retrouve donc un général de Gaulle encore peu connu du grand public, dont la voix n’a pas encore l’assurance qu’on lui connaît quelques années plus tard.
Éthique et éducation
Un soin apporté à la justesse historique de la voix, mais aussi aux paroles prononcées. Ainsi, alors qu’Ircam Amplify s’est associé à Thierry Ardisson pour synthétiser la voix de Dalida pour son émission l’Hôtel du Temps, les équipes se sont assurées que les contenus dits par la chanteuse avaient été prononcés ou écrits. L’émission a également eu le feu vert de ses ayants droit.
Une éthique au cœur de la pratique du centre de recherche et d’Ircam amplify. « On s’efforce de faire ces projets pour que l’on ne parle pas que de deepfakes, que cette technologie ne fasse pas peur mais soit culturelle », explique Frédéric Amadu. Pour le directeur technique, la sensibilisation à ces technologies est une des missions d’Ircam Amplify. « Aujourd’hui on est éduqué sur l’image. On sait que des moyens techniques permettent de créer des fausses images et on est plus prudent. On peut se faire plus facilement avoir avec le clonage de voix, parce qu’on n’a pas l’habitude. » Désormais, on le sait avec certitude : il ne faut pas croire tout ce qu’on entend.
Participer à la conversation