Deepfakes, vidéos truquées, n’en croyez ni vos yeux ni vos oreilles!

Par Divina FRAU-MEIGS | Edition N°:6803 Le 10/07/2024 | Partager

Divina Frau-Meigs est professeure des sciences de l’information et de la communication, Auteurs historiques The Conversation France

Les spécialistes en fact-checking et en éducation aux médias pensaient avoir trouvé les moyens de lutter contre les «deepfakes», ou hypertrucages, ces manipulations de vidéos fondées sur l’intelligence artificielle, avec des outils de vérification comme Invid-Werify et le travail des compétences d’analyse d’images (littératie visuelle), avec des programmes comme Youverify.eu. Mais quelques cas récents montrent qu’une nouvelle forme de cyberattaque vient de s’ajouter à la panoplie des acteurs de la désinformation, le deepfake audio.

Aux États-Unis, en janvier 2024, un robocall généré par une intelligence artificielle et prétendant être la voix de Joe Biden a touché les habitants du New Hampshire, les exhortant à ne pas voter, et ce, quelques jours avant les primaires démocrates dans cet État. Derrière l’attaque, Steve Kramer, un consultant travaillant pour un adversaire de Biden, Dean Phillips. En Slovaquie, en mars 2024, une fausse conversation générée par IA mettait en scène la journaliste Monika Tódová et le dirigeant du parti progressiste slovaque Michal Semecka fomentant une fraude électorale. Les enregistrements diffusés sur les réseaux sociaux pourraient avoir influencé le résultat de l’élection.

Le même mois, en Angleterre, une soi-disant fuite sur X fait entendre Keir Starmer, le leader de l’opposition travailliste, insultant des membres de son équipe. Et ce, le jour même de l’ouverture de la conférence de son parti. Un hypertrucage vu plus d’un million de fois en ligne en quelques jours. Un seul «deepfake» peut causer de multiples dégâts, en toute impunité. Les implications de l’utilisation de cette technologie affectent l’intégrité de l’information et du processus électoral. Analyser comment les hypertrucages sont générés, interpréter pourquoi ils sont insérés dans les campagnes de déstabilisation et réagir pour s’en prémunir relève de l’Éducation aux médias et à l’information.

Le deepfake audio est une composante des médias synthétiques, à savoir des médias synthétisés par l’intelligence artificielle, de plus en plus éloignés de sources réelles et authentiques. La manipulation audio synthétisée par l’IA est un type d’imitation profonde qui peut cloner la voix d’une personne et lui faire dire des propos qu’elle n’a jamais tenus. C’est possible grâce aux progrès des algorithmes de synthèse vocale et de clonage de voix qui permettent de produire une fausse voix, difficile à distinguer de la parole authentique d’une personne, sur la base de bribes d’énoncés pour lesquels quelques minutes, voire secondes, suffisent.

L’évolution rapide des méthodes d’apprentissage profond (Deep Learning), en particulier les réseaux antagonistes génératifs (GAN) a contribué à son perfectionnement. La mise à disposition publique de ces technologies à bas coût, accessibles et performantes, ont permis, soit de convertir du texte en son, soit de procéder à une conversion vocale profonde. Les vocodeurs neuronaux actuels sont capables de produire des voix synthétiques qui imitent la voix humaine, tant par le timbre (phonation) que la prosodie (accentuation, amplitude…)

Les deepfakes sonores sont redoutablement efficaces et piégeants parce qu’ils s’appuient également sur les avancées révolutionnaires de la psycho-acoustique – l’étude de la perception des sons par l’être humain, notamment en matière de cognition. Du signal auditif au sens, en passant par la transformation de ce stimulus en influx nerveux, l’audition est une activité d’attention volontaire et sélective. S’y rajoutent des opérations sociocognitives et interprétatives comme l’écoute et la compréhension de la parole de l’autre, pour nous faire extraire de l’information de notre environnement.

Sans compter le rôle de l’oralité dans nos cultures numériques, appuyée sur des usages en ligne et en mobilité, comme en témoigne la vogue des podcasts. Les médias sociaux se sont emparés de cette réalité humaine pour construire des outils artificiels qui instrumentent la voix comme outil narratif, avec des applications comme FakeYou. La voix et la parole relèvent du registre de l’intime, du privé, de la confidence… et la dernière frontière de la confiance en l’autre. Par exemple, la radio est le média en qui les gens ont le plus confiance, selon le dernier baromètre de confiance Kantar publié par La Croix!

Opérations facilitées par l’intelligence artificielle

Le clonage vocal présente un énorme potentiel pour détruire la confiance du public et permettre à des acteurs mal intentionnés de manipuler les appels téléphoniques privés. Les deepfakes audio peuvent être utilisés pour générer des falsifications sonores et diffuser de la désinformation et du discours de haine, afin de perturber le bon fonctionnement de divers secteurs de la société, des finances à la politique. Ils peuvent aussi porter atteinte à la réputation des personnes pour les diffamer et les faire chuter dans les sondages. Le déploiement de deepfakes audio présente de multiples risques, notamment la propagation de fausses informations et de «fake news», l’usurpation d’identité, l’atteinte à la vie privée et l’altération malveillante de contenus.

Les risques ne sont pas particulièrement nouveaux mais néanmoins réels, contribuant à dégrader le climat politique, selon le Alan Turing Institute au Royaume-Uni. Il ne faut donc pas sous-estimer cette amplification à échelle industrielle. Les deepfakes audio sont plus difficiles à détecter que les deepfakes vidéo tout en étant moins chers et plus rapides à produire: ils se greffent facilement sur une actualité récente et sur les peurs de certains secteurs de la population, bien identifiés. En outre, ils s’insèrent avantageusement dans l’arsenal des extrémistes, lors de campagnes d’ingérence en temps de paix comme les élections.

Détection des fraudes, régulation et éducation

Il existe plusieurs approches pour identifier les différents types d’usurpation audio. Certaines mesurent les segments silencieux de chaque signal de parole et relèvent les fréquences plus ou moins élevées, pour filtrer et localiser les manipulations. D’autres entraînent des IA pour qu’elles distinguent des échantillons authentiques naturels d’échantillons synthétiques. Toutefois, les solutions techniques existantes ne parviennent pas à résoudre complètement la question de la détection de la parole synthétique. Cette détection reste un défi car les manipulateurs tentent de supprimer leurs traces de contrefaçon (par des filtres, des bruits…), avec des générateurs de deepfake audio qui sont de plus en plus sophistiqués. Face à ces vulnérabilités démocratiques restent donc des solutions humaines diverses, qui vont de l’autorégulation à la régulation et impliquent divers types d’acteurs.

Les journalistes et les fact-checkeurs ont augmenté leurs techniques de recherche contradictoire, pour tenir compte de cette nouvelle donne. Ils s’en remettent à leurs stratégies de vérification des sources et de validation du contexte d’émission. Mais ils font aussi appel, via Reporters sans Frontières, au corps juridique, pour la protection des journalistes, afin qu’ils créent un «délit de deepfake» capable de dissuader les manipulateurs. Les plateformes de médias sociaux (Google, Meta, Twitter et TikTok) qui les véhiculent et les amplifient par leurs algorithmes de recommandation sont soumises au nouveau code de pratique de l’UE en matière de désinformation. Renforcé en juin 2022, il interdit les deepfakes et enjoint les plateformes à utiliser leurs outils (modération, déplatformisation…) pour s’en assurer.

Les enseignants et les formateurs en Éducation aux Médias et à l’Information se doivent à leur tour d’être informés, voire formés, pour pouvoir alerter leurs étudiants sur ce type de risque. Ce sont les plus jeunes qui sont les plus visés. A leurs compétences en littératie visuelle, ils doivent désormais ajouter des compétences en littératie sonore. Les ressources manquent à cet égard et réclament de la préparation. C’est possible en choisissant de bons exemples comme ceux liés à des personnalités politiques et en faisant attention aux 5D de la désinformation (discréditer, déformer, distraire, dévier, dissuader). S’appuyer sur le contexte et le timing de ces cyberattaques est aussi fructueux.

Aux personnalités politiques, somme toute concernées mais très peu formées, le Alan Turing Institute propose une stratégie partageable par tous, les 3I: informer, intercepter, insulariser. En phase de pré-élection, cela consiste à informer sur les risques des deepfakes audio; en phase de campagne, cela implique d’intercepter les deepfakes et de démonter les scénarios de menace sous-jacents; en phase post-électorale, cela oblige à renforcer les stratégies d’atténuation des incidents relevés et à les faire connaître auprès du public. Toutes ces approches doivent se cumuler pour pouvoir assurer l’intégrité de l’information et des élections. Dans tous les cas, soignez votre écoute et prenez de l’AIR: analysez, interprétez, réagissez!

La version originale de cet article a été publiée sur The Conversation