Tout le monde pourra cloner sa voix à l’avenir

Cloner votre voix à l’aide de l’intelligence artificielle est à la fois fastidieux et simple : les caractéristiques d’une technologie à peu près mature et prête à être rendue publique.

Tout ce que vous avez à faire est de parler dans un microphone pendant environ 30 minutes, en lisant un script aussi attentivement que possible (dans mon cas : la voix off d’un documentaire de David Attenborough). Après avoir démarré et arrêté des dizaines de fois pour réenregistrer vos flubs et marmonnements, vous enverrez les fichiers audio résultants à traiter et, dans quelques heures, vous serez informé qu’une copie de votre voix est prête et en attente. Ensuite, vous pouvez taper tout ce que vous voulez dans une boîte de discussion, et votre clone d’IA vous le dira, avec l’audio résultant réaliste pour tromper même vos amis et votre famille, au moins pendant quelques instants. Le fait qu’un tel service existe même peut être une nouvelle pour beaucoup, et je ne pense pas que nous ayons commencé à considérer pleinement l’impact qu’un accès facile à cette technologie aura.

Le travail de synthèse vocale s’est considérablement amélioré ces dernières années, grâce aux progrès de l’apprentissage automatique. Auparavant, les voix synthétiques les plus réalistes étaient créées en enregistrant l’audio d’un acteur vocal humain, en découpant son discours en sons composants et en les rassemblant comme des lettres dans une demande de rançon pour former de nouveaux mots. Désormais, les réseaux de neurones peuvent être entraînés sur des données non triées de leur voix cible pour générer l’audio brut d’une personne parlant à partir de zéro. Les résultats finaux sont plus rapides, plus faciles et plus réalistes pour démarrer. La qualité n’est certainement pas parfaite lors du déploiement direct de la machine (bien que des ajustements manuels puissent améliorer cela), mais ils ne feront que s’améliorer dans un proche avenir.

Il n’y a pas de sauce particulière pour fabriquer ces clones, ce qui signifie que des dizaines de startups proposent déjà des services similaires. Il suffit de rechercher sur Google « synthèse vocale AI » ou « AI voice deepfakes » et vous verrez à quel point la technologie est banale, disponible dans les magasins spécialisés qui se concentrent uniquement sur la synthèse vocale, comme Resemble.AI et Respeecher, et également intégrée dans des entreprises avec de plus grandes plates-formes, comme Veritone (où la technologie fait partie de son répertoire publicitaire) et Descript (qui l’utilise dans le logiciel qu’elle fabrique pour l’édition de podcasts).

Ces clones de voix ont simplement été une nouveauté dans le passé, apparaissant comme des faux ponctuels comme ce faux Joe Rogan, mais ils commencent à être utilisés dans des projets sérieux. En juillet, un documentaire sur le chef Anthony Bourdain a suscité la controverse lorsque les créateurs ont révélé qu’ils avaient utilisé l’IA pour créer l’audio des lignes « parlantes » de Bourdain qu’il avait écrites dans une lettre. (Notamment, peu de gens ont remarqué le deepfake jusqu’à ce que les créateurs révèlent son existence.) Et en août, la startup Sonantic a annoncé qu’elle avait créé un clone de voix AI de l’acteur Val Kilmer, dont la propre voix a été endommagée en 2014 après avoir subi une trachéotomie dans le cadre de son traitement contre le cancer de la gorge. Ces exemples encadrent également certaines des dimensions sociales et éthiques de cette technologie. Le cas d’utilisation de Bourdain a été décrié comme une exploitation par beaucoup (d’autant plus que son utilisation n’a pas été divulguée dans le film), tandis que le travail de Kilmer a été généralement salué, la technologie étant louée pour fournir ce que d’autres solutions ne pouvaient pas.

Les applications célèbres de clones vocaux seront probablement les plus importantes au cours des prochaines années, les entreprises espérant que les célèbres voudront augmenter leurs revenus avec un minimum d’effort en clonant et en louant leurs voix. Une entreprise, Veritone, a lancé un tel service plus tôt cette année, affirmant qu’il permettrait aux influenceurs, aux athlètes et aux acteurs d’autoriser leur voix IA pour des choses telles que des mentions et des identités radio, sans jamais avoir à entrer dans un studio. « Nous sommes vraiment enthousiasmés par ce que cela signifie pour une multitude d’industries différentes, car la partie la plus difficile de la voix de quelqu’un et de pouvoir l’utiliser et de pouvoir l’étendre est le temps de l’individu », Sean King, vice-président exécutif de Veritone Un, dit Les Vergecast. « Une personne devient le facteur limitant dans ce que nous faisons. »

De telles applications ne sont pas encore très répandues (ou si elles le sont, elles ne sont pas largement évoquées), mais cela semble être un moyen évident pour les célébrités de gagner de l’argent. Bruce Willis, par exemple, a déjà autorisé son image à être utilisée comme deepfake visuel dans les publicités pour téléphones mobiles en Russie. L’affaire lui permet de gagner de l’argent sans jamais sortir de chez lui, tandis que la société de publicité obtient un acteur infiniment malléable (et, notamment, un plus jeune version de Willis, tout droit sorti de sa Mourir fort jours). Ces sortes de clones visuels et audio pourraient accélérer les échelles d’économie pour le travail des célébrités, leur permettant de capitaliser sur leur renommée – tant qu’ils sont heureux de louer un simulacre d’eux-mêmes.

Dans l’ici et maintenant, la technologie de synthèse vocale est déjà intégrée à des outils comme le logiciel d’édition de podcast éponyme construit par la société américaine Descript. La fonction « Overdub » de la société permet à un podcasteur de créer un clone IA de sa voix afin que les producteurs puissent apporter des modifications rapides à leur audio, en complétant l’édition basée sur la transcription du programme. Comme l’a dit le PDG de Descript, Andrew Mason Le Vergecast: « Vous pouvez non seulement supprimer des mots dans Descript et lui faire supprimer l’audio, vous pouvez taper des mots et cela générera de l’audio dans votre voix. »

Le logiciel d’édition de podcasts Descript utilise des clones de voix AI pour éditer la parole comme une transcription.
Image : Descriptif

Lorsque j’ai moi-même essayé la fonction Overdub de Descript, elle était certainement assez facile à utiliser – même si, comme mentionné ci-dessus, l’enregistrement des données d’entraînement était un peu une corvée. (C’était beaucoup plus facile pour mon collègue et régulier Bord l’hôte de podcast Ashley Carman, qui avait beaucoup d’audio préenregistré prêt à envoyer l’IA.) Les clones vocaux créés par Overdub ne sont certainement pas sans faille. Ils ont un ton étrange et n’ont pas la capacité de vraiment charger les lignes avec émotion et emphase, mais ils sont aussi indéniablement tu. La première fois que j’ai utilisé mon clone de voix a été un moment vraiment étrange. Je n’avais aucune idée que cette chose profondément personnelle – ma voix – pouvait être copiée par la technologie aussi rapidement et facilement. Cela ressemblait à une rencontre avec le futur mais était aussi étrangement familier. Après tout, la vie est déjà pleine de miroirs numériques – d’avatars et de flux de médias sociaux censés incarner « vous » sous diverses formes – alors pourquoi ne pas ajouter un automate parlant au mélange ?

Cependant, le choc initial d’entendre une voix clone de vous-même ne signifie pas que les voix humaines sont redondantes. Loin de là. Vous pouvez certainement améliorer la qualité des deepfakes vocaux avec un peu d’édition manuelle, mais sous leur forme automatisée, ils ne peuvent toujours pas offrir la gamme d’inflexion et d’intonation que vous obtenez des professionnels. Comme l’a dit la chanteuse et narratrice Andia Winslow Le Vergecast, alors que les voix d’IA peuvent être utiles pour le travail vocal par cœur – pour les systèmes de messagerie internes, les annonces publiques automatisées, etc. – elles ne peuvent pas rivaliser avec les humains dans de nombreux cas d’utilisation. « Pour les gros trucs, les choses qui ont besoin de souffle et de vie, ça ne va pas se passer comme ça parce que, en partie, ces marques aiment travailler avec les célébrités qu’elles embauchent, par exemple », a déclaré Winslow.

Mais que signifie cette technologie pour le grand public ? Pour ceux d’entre nous qui ne sont pas assez connus pour bénéficier de la technologie et qui ne sont pas professionnellement menacés par son développement ? Eh bien, les applications potentielles sont variées. Il n’est pas difficile d’imaginer un jeu vidéo où l’écran de création de personnage inclut une option pour créer un clone de voix, il semble donc que le joueur parle tout le dialogue du jeu. Ou il pourrait y avoir une application pour les parents qui leur permet de copier leur voix afin qu’ils puissent lire des histoires au coucher à leurs enfants même lorsqu’ils ne sont pas là. De telles applications pourraient être réalisées avec la technologie d’aujourd’hui, bien que la qualité médiocre des clones rapides les rende difficiles à vendre.

Il y a aussi des dangers potentiels. Les fraudeurs ont déjà utilisé des clones vocaux pour inciter les entreprises à transférer de l’argent sur leurs comptes, et d’autres utilisations malveillantes se cachent certainement juste au-delà de l’horizon. Imaginez, par exemple, un lycéen enregistrant subrepticement un camarade de classe pour en créer un clone vocal, puis simulant l’audio de cette personne en train de dénigrer un enseignant pour lui causer des ennuis. Si les utilisations de deepfakes visuels sont quelque chose à faire, où les inquiétudes concernant la désinformation politique se sont avérées largement déplacées mais la technologie a fait d’énormes dégâts en créant de la pornographie non consensuelle, ce sont ces types d’incidents qui constituent les plus grandes menaces.

Une chose est sûre, cependant : à l’avenir, n’importe qui pourra créer un clone de voix IA de lui-même s’il le souhaite. Mais le script que suivra ce chœur de voix numériques n’a pas encore été écrit.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*