
Une intonation, un souffle, la rapidité de votre débit... autant d'indices qui en disent au moins autant sur vous que vos datas perso. Démonstration !
Ainsi, lorsque l’on parle, les mots n’ont qu’une influence de l’ordre de 7 % tandis que la prosodie – soit l’inflexion, le ton, la tonalité, l’intonation, l’accent, la modulation de la voix – compte, elle, pour 38 %.
Alors, tant que l’ensemble de ces subtiles nuances ne sera pas assimilé par les machines dotées d’intelligence artificielle, elles ne pourront pas vraiment comprendre les humains, ni prétendre leur proposer autre chose qu’un dialogue mécanique. Et quand on sait la complexité de comprendre les mots, si l’on doit y ajouter la couche émotionnelle… autant dire que les IA sont face à un énorme chantier.
Robot bien sous tous rapports échange data contre parole
Au laboratoire de recherche en audiovisuel de l’université de Toulouse-Le Mirail, les chercheurs sont parvenus à utiliser ces données perceptibles dans la voix pour capturer certains états physiologiques : le stress ou une simple fatigue.
Selon Gaël Richard, enseignant-chercheur à Télécom ParisTech : « Des travaux restent à mener sur la compréhension du degré émotionnel. On peut comprendre la peur, mais estimer la profondeur de ce sentiment devient plus ardu. » Le champ de progression demeure donc encore important mais des sociétés commencent déjà à revendre ces « données affectives » à des professionnels du ciblage, voire à des marques.
L’émotion vocale, ça se vend combien ?
Désormais, un robot vendeur (à l’image de Pepper du groupe japonais Softbank) est capable de comprendre si un client ne l’apprécie pas ou désire couper court à toute conversation. Il va traduire des intonations sèches, recouper des phrases courtes ou identifier un souffle d’exaspération dans la voix pour filer vers un autre client.
Comprendre ce qu’un client ressent réellement pour l’orienter vers d’autres produits ou l’installer dans un climat émotionnel de confiance… le champs d’application peut être large. La société israélienne Beyond Verbal s’est spécialisée dans ce domaine. Sa promesse est d’analyser l’émotion d’une voix en décodant les intonations, les tons, les graves/aigus pour produire des « affective analytics », sorte de set émotionnel propre à chaque individu et qui le distingue au même titre que ses empreintes digitales.
Parmi les cas d’usage, l’entreprise propose d’améliorer les algorithmes des services de rencontre en ligne en y ajoutant la dimension vocale. Les profils des utilisateurs pourraient alors « matcher » en fonction des émotions qu’ils dégagent, de leur attitude ou de leur état à un instant donné. Dotée d’une telle fonctionnalité, une application de rencontre est à même de mettre en relation, pour un soir ou plus, deux personnes qui ont les mêmes dispositions émotionnelles. Si elles expriment la joie par exemple, l’algorithme pourrait prendre en compte cet élément pour les rapprocher…
Autre secteur exploitable, les ressources humaines. En ajoutant cette nouvelle couche analytique, un recruteur pourrait connaître instantanément ce que ressent un candidat lorsqu’il lui pose une question en particulier. Une manière redoutable de tester la résistance au stress d’un futur collaborateur en lui posant une question complexe, voire piège. De quoi voir à travers l’autre, l’anticiper, sans même avoir besoin de connaître son passé.
Mais la méthode trouve toutefois ses limites dans la mesure où les émotions décodées par les IA ne sont peut-être pas celles réellement ressenties par la personne. La reconnaissance vocale pourra peut-être bientôt tout savoir de nous… à condition que l’on n’ait pas appris à bluffer.
Ce texte est paru dans le numéro 14 de la revue de L’ADN consacré à la Transmission. Pour vous la procurer, cliquez ici.
Participer à la conversation