Le deepfake[ˈdiːpfeɪk][1], ou hypertrucage[2],[3], est une technique de synthèse multimédia reposant sur l'intelligence artificielle. Elle peut servir à superposer des fichiers vidéo ou audio existants sur d'autres fichiers vidéo (par exemple changer le visage d'une personne sur une vidéo) ou audio (par exemple reproduire la voix d'une personne pour lui faire dire des choses inventées). Cette technique peut être utilisée pour créer des infox et des canulars malveillants[4],[5]. Le terme deepfake est un mot-valise provenant de l'anglais formé à partir de deep learning (« apprentissage profond ») et de fake (« faux », « contrefait »)[6].
Il est possible de créer des hypertrucages en utilisant l'application FakeApp[7], qui utilise TensorFlow, un outil open source développé par Google[8].
Les hypertrucages vidéo sont aussi appelés infox vidéo[9] ou vidéotox[9].
L'hypertrucage audio est apparu en novembre 2016, avec la présentation du programme Adobe Voco, premier programme d'hypertrucage audio capable de reproduire la voix humaine[11].
En juillet 2017, la BBC diffuse un discours prononcé par une intelligence artificielle reproduisant Obama, discours essentiellement indiscernable de la réalité[12].
La pornographie hypertruquée est apparue sur Internet en 2017, notamment sur Reddit[13], et a depuis été interdite par Reddit, Twitter, Pornhub et d'autres[14],[15],[16].
En a été mise en ligne une application appelée FakeApp qui permet de créer facilement des vidéos où les visages ont été permutés et de les partager. Les célébrités sont les principales cibles de ces fausses vidéos sexuelles, mais certaines autres personnes sont aussi touchées[17],[18],[19].
En août 2018, des chercheurs de l'université de Californie à Berkeley ont publié une étude sur la création de fausses vidéos de danseurs. Un individu peut être collé sur les mouvements d'un danseur professionnel[20],[21].
Domaines d'application
Pornographie
Les hypertrucages sont surtout connus pour avoir été utilisés afin de créer de fausses vidéos érotiques (sextapes), mettant en scène des célébrités, et de la pornodivulgation (revenge porn)[22].
Au cours de l'automne 2017, un utilisateur anonyme du site Reddit publie, sous le pseudonyme « Deepfakes », plusieurs vidéos pornographiques. La première a attiré l'attention et l'une de celles ayant suscité le plus de réactions met en scène l'actrice Daisy Ridley. Une autre montre l'actrice Gal Gadot (vedette du fim Wonder Woman) en train d'avoir des rapports sexuels avec son beau-frère. D'autres célébrités — Emma Watson, Katy Perry, Taylor Swift ou Scarlett Johansson — ont également été la cible de vidéos créées par l'utilisateur « Deepfakes ».
Avec le temps, le faussaire a corrigé les défauts des vidéos, les rendant de plus en plus réalistes. Le phénomène des hypertrucages a d'abord été dénoncé en dans la section technique et scientifique du magazine Vice, ce qui a entraîné l'apparition de nombreux reportages dans d'autres médias[23].
Au Royaume-Uni, les producteurs d'hypertrucages peuvent être poursuivis pour harcèlement, mais il y a des appels à faire de l'hypertrucage un délit à part entière[24].
Les deepfakes pornographiques sont très répandus en Corée du Sud en conséquence du fort sexisme de la société coréenne[25].
Politique
La permutation de visages a été utilisée pour donner une image fausse de politiciens connus sur des portails vidéo, des plates-formes de streaming et de discussion en ligne. Par exemple, le visage du président argentin Mauricio Macri a été remplacé par celui d'Adolf Hitler et le visage d'Angela Merkel par celui de Donald Trump[26],[27]. En , Jordan Peele et Jonah Peretti ont montré les dangers de l'hypertrucages en créant une fausse vidéo de Barack Obama faisant une annonce publique[28].
Le deepfake peut parfois servir un but d'influence et de modification du comportement de la population ou servir à discréditer une personnalité. En 2022, en pleine invasion russe de l'Ukraine, la chaîne d'information Ukraine 24 diffuse sur son site Internet une vidéo prétendument tournée par le président ukrainien Volodymyr Zelensky, dans laquelle il exhorte la population à rendre les armes. La vidéo était en réalité un deepfake, partagé au même moment sur les réseaux sociauxFacebook et Telegram, probablement à l'initiative de la Russie ou d'un compte pro-russe, et avait pour but de semer le trouble sur les intentions réelles du chef d'État[29].
Vidéo d'Art
En , l'artiste Joseph Ayerle publie la vidéo d'art intitulée Un'emozione per sempre 2.0, dans laquelle il met en scène une Ornella Muti virtuelle, recréée par intelligence artificielle. Le logiciel était capable d'animer le visage de l'actrice italienne pour réaliser des scènes qu'elle n'a jamais jouées[30],[31].
Cinéma
Sorti en 2022, Fairytale, réalisé par le cinéaste russe Alexandre Sokourov, utilise une technologie de deepfake pour rassembler Staline, Hitler, Churchill et Mussolini au Purgatoire.
Le procédé a aussi été utilisé pour insérer, dans une fiction cinématographique, une archive historique en substituant la silhouette et le visage de l'interprète du personnage historique à ceux du personnage historique lui-même[32].
Il pourra également être utilisé au cinéma afin de modifier le mouvement des lèvres des acteurs afin de correspondre au doublage dans une autre langue[33].
Télévision
L'émission de télévisionfrançaise à caractère humoristique et satirique C Canteloup sur TF1 utilise cette technologie à partir du 18 novembre 2019, depuis la diffusion d'un numéro spécial intitulé C'est Canteloup, La grande Métamorphose.
Le feuilleton téléviséfrançaisPlus belle la vie a pu poursuivre le tournage de son intrigue malgré l'absence d'une comédienne, Malika Alaoui, à l'isolement car cas contact au Covid-19, en greffant son visage sur celui d'une autre actrice[34].
Deep Fake Neighbour Wars, littéralement « La guerre des voisins façon deepfake », est une comédie en six épisodes de 30 minutes utilisant le deepfake, mise en ligne le sur ITV, la télévision privée du Royaume-Uni[35].
Programmes de trucage
FakeApp utilise des réseaux de neurones artificiels. Elle utilise la puissance de la carte graphique plus 3 ou 4 Go de stockage pour générer le rendu final. Pour un bon rendu, le programme a besoin de beaucoup de photos de la personne. En effet, le programme doit apprendre quels aspects de la vidéo cible doivent être modifiés et, pour ce faire, il utilise des algorithmes d'apprentissage profond. Le logiciel utilise TensorFlow, un outil développé par Google, qui, entre autres, a été déjà utilisé pour créer DeepDream.
Programmes d'hypertrucage audio
Adobe Voco est un logiciel prototype d'édition et de production d'hypertrucage audio conçu par Adobe qui permet la création et la modification audio novatrices. Surnommé « Photoshop-for-Voice », il a été présenté pour la première fois lors de l'événement Adobe MAX en novembre 2016.
La technologie présentée dans Adobe MAX était un aperçu pouvant potentiellement être intégré à Adobe Creative Cloud. À compter de juillet 2019, Adobe n'a pas encore publié d'informations supplémentaires sur une date de sortie potentielle[11].
LyreBird
WaveNet est un réseau de neurones profond permettant de générer du son brut. Il a été créé par des chercheurs de la société d'intelligence artificielle basée à Londres.
La technique, décrite dans un document de septembre 2016, est capable de générer des voix de type humain à la voix relativement réaliste en modélisant directement des formes d'onde à l'aide d'une méthode de réseau neuronal entraînée avec des enregistrements de parole réelle. Des tests avec l'anglais américain et le mandarin auraient montré que le système surpasse les meilleurs systèmes de synthèse vocale existants de Google, même si, en 2016, sa synthèse textuelle était encore moins convaincante que le discours humain réel.
La capacité de WaveNet à générer des formes d'ondes brutes lui permet de modéliser tout type d'audio, y compris la musique[36].
Critiques
Abus
Le quotidien suisse germanophone Aargauer Zeitung affirme que la retouche d'images et de vidéos à l'aide de l'intelligence artificielle pourrait devenir un phénomène de masse dangereux. Cependant, la falsification d'images et de vidéos est antérieure à l'avènement des logiciels de montage vidéo et des programmes de retouche d'images ; dans ce cas, c'est le réalisme, la facilité et la rapidité de la modification et son caractère de plus en plus difficile à détecter qui créent un nouveau problème.
Il est également possible d'utiliser l'hypertrucage pour des canulars ciblés et de la pornodivulgation à des fins idéologiques ou de cyberharcèlement[37],[38]. Le 24 octobre 2023, la Commission du Sénat américain sur la cybersécurité, les technologies de l'information et l'innovation gouvernementale, lors d'une session consacrée à l'état des avancées de la technologie du deepfake, a auditionné trois témoins (Dana Rao, vice-président exécutif, directeur juridique et directeur de la confiance chez Adobe, le docteur David Doermann, président par intérim de l'université d'État d'informatique et d'ingénierie de New York à Buffalo ,et Sam Gregory, directrice exécutive de WITNESS). Tous trois sont convenus que fabriquer un deepfake très réaliste devient de plus en plus accessible et facile, ce qui implique un risque d'utilisation accrue pour diffuser de fausses informations ou nuire à la réputation de quelqu'un, y compris via des contenus à caractère sexuel non consenti[39]. Selon Dana Rao, les deepfakes peuvent être encore améliorés via des techniques sophistiquées. Pour Sam Gregory, il est urgent d'améliorer les technologies de détection, de créer une législation dédiée et de sensibiliser le public aux risques posés par les deepfakes[39].
Un autre effet de l'hypertrucage est qu'on ne peut plus distinguer si le contenu est satirique ou authentique. Interrogé, en 2018, par le site américain The Verge (qui traite de l'actualité technologique, de l'information et des médias), le chercheur en intelligence artificielle américain Alex Champandard (programmeur et cofondateur de la startup Creative) estime que
« tout le monde devrait être conscient de la rapidité à laquelle les choses peuvent être modifiées aujourd'hui à l'aide de cette technique et que le problème ne doit pas venir de la technique mais plutôt être résolu par la confiance des personnes dans l'information et le journalisme. Le principal danger est de voir arriver le moment où les humains ne pourront plus déterminer si ce qui se trouve dans une vidéo correspond à la vérité ou non[40]. »
Informations immatérielles et non palpables, les infox vidéo brisent la confiance du fait qu'elles trompent les individus[41].
Réactions
Mesures prises sur Internet
Les sites Twitter et Gfycat ont annoncé qu'ils allaient supprimer les hypertrucages et bloquer leurs auteurs. Auparavant, la plate-forme Discord avait bloqué un canal de discussion comportant des hypertrucages. Le site pornographique Pornhub prévoyait, lui aussi, de bloquer ces contenus, mais cette interdiction n'a pas été appliquée en 2017 et 2018[42],[43].
Chez Reddit, la situation était restée incertaine jusqu'à ce que le subreddit — la sous-partie thématique en question — soit suspendu le en raison de la violation de la politique de « pornographie involontaire »[44],[45],[46],[47].
En mai 2022, Google modifie ses conditions d'utilisation de Jupyter Notebook, une application Web multimédia pour la création et le partage de documents informatiques, interdisant son utilisation pour créer des deepfakes[48]. Ce changement intervient peu après la publication d'un article de Vice affirmant que « la plupart des deepfakes sont du porno non consensuel », souvent générés par le logiciel alors le plus populaire de deepfakeDeepFaceLab (DFL), utilisé par la Walt Disney Company pour des clips vidéo officiels et la websérie Sassy Justice, des créateurs de South Park, mais aussi via GitHub ou Discord pour générer des deepfakes pornographiques[49].
Lois ou projets de loi
À partir du , la Chine interdit tout contenu ne mentionnant pas l'utilisation de superpositions de vidéos et d'audios ; les infox vidéo qui ne sont pas mentionnées comme telles seront considérées comme illégales[50],[51].
Aux États-Unis, en 2023, aucune loi fédérale n'interdit les contrefaçons numériques d'images ou de vidéos présentant un caractère intime sexuel ou pornographique, créées via une IA et inspirées de personnes réelles ; un projet de loi déposé en 2023, proposant des peines allant jusqu'à 10 ans de prison, n'avait pas avancé. Seuls quelques États avaient voté leurs propres lois : au Texas, les auteurs risquent jusqu'à un an d'emprisonnement, et en Californie, ils peuvent se voir infliger des dommages et intérêts. Début 2024, après la circulation de fausses images sexuellement explicites de Taylor Swift dans les médias sociaux, des élus ont déposé un nouveau projet de loi fédérale, dit Disrupt Explicit Forged Images and Non-Consensual Edits Act of 2024 ou DEFIANCE Act of 2024, qui devrait permettre à des victimes de plus facilement poursuivre en justice (recours civil fédéral) les auteurs présumés de deepfakes à caractère explicitement sexuel ou pornographique, réalisés et publiés sans le consentement du sujet. Le projet (janvier 2024) de loi vise aussi les personnes en possession de faux contenu dans le but de le distribuer, de même que ceux qui ont reçu ou distribué ce type de deepfakes si elles « savaient ou ont ignoré par imprudence » que la victime n'a pas donné son consentement[52].
Au Canada, le projet de loi n° 730 de l’Assemblée interdit la distribution de faux médias audio ou visuels malveillants ciblant un candidat candidat à une fonction publique dans les 60 jours suivant son élection[53].
Développement de moyens de détection
Audio
Détecter de l'audio falsifié s'avère de plus en plus complexe, mais l'IA qui a permis de créer des fakes peut aussi, via l'apprentissage profond, détecter ces fakes. La préparation des caractéristiques et l'augmentation du masquage se sont avérées efficaces pour améliorer les performances[54].
Vidéo
Dans les années 2010, la recherche académique sur les deepfakes s'est surtout concentrée sur la détection des vidéos deepfakes[55].
Des logiciels, tels qu'InVid et Amnesty Youtube Dataviewer, un outil proposé, depuis 2014, par l'organisation non gouvernementale internationale Amnesty International, permettent aux journalistes de déterminer si une vidéo est truquée ou manipulée[41],[56].
Divers types d'algorithmes peuvent détecter des faux et de subtiles incohérences caractéristiques des vidéos deepfakes[55], par exemple concernant l'éclairage[57]. Ainsi, des chercheurs de l'université de Buffalo ont montré, en octobre 2020, que l'analyse des reflets de la lumière dans les yeux des personnes représentées permettaient de repérer la plupart des deepfakes sans même avoir besoin de l'assistance d'une IA, du moins à ce moment[58]. Cependant, la technique de production de deepfakes continue aussi à progresser, imposant une amélioration constante des algorithmes de détection[55].
Pour encourager et évaluer les algorithmes de détection de contenu manipulé et sélectionner les plus efficaces des systèmes de détection, une coalition d'entreprises technologiques a lancé un concours : le Deepfake Detection Challenge[59]. Le modèle gagnant du Deepfake Detection Challenge était précis à 65 % sur un ensemble de 4 000 vidéos[60]. Fin 2021, une équipe du MIT (Massachusetts Institute of Technology) a démontré que les humains ordinaires pouvaient, avec une précision de 69 à 72 %, identifier les fakes dans un échantillon aléatoire de 50 de ces vidéos[61].
Pour le cas d'individus bien « documentés » (ex. : personnalités politiques et du spectacle), des algorithmes ont été conçus pour distinguer les différences avec leur réelles manières faciales, gestuelles et vocales[62].
Wael AbdAlmageed et ses collègues du Laboratoire d'intelligence visuelle et d'analyse multimédia (VIMAL) de l'Institut des sciences de l'information de l'université de Californie du Sud ont développé deux générations[63],[64] de détecteurs de deepfake basés sur des réseaux neuronaux convolutifs. La première génération[64] utilisait des réseaux de neurones récurrents pour repérer les incohérences spatio-temporelles et identifier les artefacts visuels laissés par le processus de génération de deepfake. L'algorithme a atteint une précision de détection de 96 % (sur FaceForensics++, le seul benchmarkdeepfake à grande échelle disponible à l'époque). La seconde génération a utilisé des réseaux profonds de bout en bout pour différencier les artefacts et les informations faciales sémantiques de haut niveau à l'aide de réseaux à deux branches. La première branche propage les informations de couleur tandis que l'autre branche supprime le contenu facial et amplifie les fréquences de bas niveau à l'aide du laplacien de gaussien (LoG). De plus, ils ont inclus une nouvelle fonction de perte qui apprend une représentation compacte des visages authentiques tout en dispersant les représentations (c'est-à-dire les caractéristiques) des deepfakes. L'approche de VIMAL a montré des performances de pointe sur les benchmarks FaceForensics++ et Celeb-DF et, le 16 mars 2022 (le jour même de la sortie), a détecté le deepfake de Volodymyr Zelensky sans aucune connaissance de l'algorithme avec lequel le deepfake a été créé.
Facebook lance un concours « Deepfake Detection Challenge » (DDC), afin de créer des technologies et logiciels capables de déceler des vidéos utilisant la technique d'infox vidéo[65].
D'autres suggestions ont été évoquées :
utiliser la blockchain pour enregistrer chaque média émis par une source supposée fiable. Ensuite, l'origine d'une vidéo pourrait alors être vérifiée via le « grand livre » avant d'être diffusée sur des plates-formes de médias sociaux[66]. Mais outre que c'est une solution technologique qui serait très consommatrice d'énergie et de ressources informatiques, rien n'empêcherait un bon producteur de fausse vidéo de faire enregistrer son travail dans la blockchain ;
utiliser une signature numérique native, codée de difficilement falsifiable, dans toutes les vidéos et images faites par des appareils-photo, smartphones ou caméras vidéo. Ainsi, Solange Ghernaouti (spécialiste en cybersécurité et cyberdéfense) suggère que les images et vidéos numériques devraient être dotées de tatouages numériques identifiant l'origine du contenu. Cependant, non seulement cela n'empêcherait pas les fausses vidéos, mais une telle « signature » permettrait à des dictatures et à des États répressifs de retracer l'origine de chaque photographie ou vidéo en facilitant aussi la traque de détracteurs, photo-journalistes ou lanceurs d'alerte, prévenait Kalev Leetaru en 2018[67] ;
pour savoir si une personne à l'écran, lors d'un appel vidéo « en direct » et « en temps réel », est vraie ou s'il s'agit d'une image animée par une IA, un moyen simple est de demander à l'appelant de se tourner de côté. Au début des années 2020, les vidéos deepfakes ne sont généralement pas très efficaces pour générer des vues de profil[68].
(en) Deepfakes : la nouvelle donne [Production de télévision], Shuchen Tan (réalisation), Soraya Pol (recherche), sur Arte (, 50 min minutes), consulté le
Jennifer Mertens, Le deepfake audio, la nouvelle arnaque tendance développée par les hackers, Bibliothèque du Parlement, 2020, 20 Minutes, [lire en ligne].
↑Billy Joe Siekierski, Hypertrucage : que peut-on faire à propos du contenu audio et vidéo de synthèse, Bibliothèque du Parlement, 2019, 8 pages [lire en ligne].
↑(en-US) Janko Roettgers, « Porn Producers Offer to Help Hollywood Take Down deepfake Videos », Variety, (lire en ligne, consulté le ).
↑(en) « It took us less than 30 seconds to find banned 'deepfake' AI smut on the internet », The Register, (lire en ligne, consulté le ).
↑Arjun Kharpal, « Reddit, Pornhub ban videos that use A.I. to superimpose a person's face over an X-rated actor », CNBC, (lire en ligne, consulté le ).
↑(en) « PornHub, Twitter Ban 'deepfake' AI-Modified Porn », PCMAG, (lire en ligne, consulté le ).
↑Britta Bauchmüller, « "Fake-App": Mit diesem Programm kann jeder im Porno landen – ob er will oder nicht! », Berliner-Kurier.de, (lire en ligne).
↑Eike Kühl, « Künstliche Intelligenz: Auf Fake News folgt Fake Porn », Die Zeit, (ISSN0044-2070, lire en ligne).
↑heise online, « deepfakes: Neuronale Netzwerke erschaffen Fake-Porn und Hitler-Parodien », Heise Online, (lire en ligne).
↑(en) Peter Farquhar, « An AI program will soon be here to help your deepfake dancing - just don't call it deepfake », Business Insider Australia, (lire en ligne, consulté le ).
↑« deepfakes for dancing: you can now use AI to fake those dance moves you always wanted », The Verge, (lire en ligne, consulté le ).
↑(en-US) « What Are deepfakes & Why the Future of Porn is Terrifying », Highsnobiety, (lire en ligne, consulté le ).
↑« AI-Assisted Fake Porn Is Here and We’re All Fucked », Motherboard, (lire en ligne).
↑(en) Katerina Cizek, William Uricchio et Sarah Wolozin, « Part 6: Media co-creation with non-human systems », dans Collective Wisdom, PubPub, (lire en ligne).
↑« „deepfake“ - FakeApp kann Personen in Pornos austauschen – Welche Rechte haben Geschädigte? », Wilde Beuger Solmecke Rechtsanwälte, (lire en ligne).
↑(en) Ariel Cohen, Inbal Rimon, Eran Aflalo et Haim H. Permuter, « A study on data augmentation in voice anti-spoofing », Speech Communication, vol. 141, , p. 56–67 (DOI10.1016/j.specom.2022.04.005, lire en ligne, consulté le ).
↑(en) Shu Hu, Yuezun Li et Siwei Lyu, « Exposing GAN-generated Faces Using Inconsistent Corneal Specular Highlights », ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (conférence), (DOI10.48550/ARXIV.2009.11924, lire en ligne, consulté le ).
↑(en) Michiel Verburg et Vlado Menkovski, « Micro-expression detection in long videos using optical flow and recurrent neural networks », 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), IEEE, (DOI10.1109/fg.2019.8756588, lire en ligne, consulté le ).
↑ a et bSabir, Ekraam, et al. « Recurrent convolutional strategies for face manipulation detection in videos » Interfaces (GUI) 3.1 (2019), p. 80-87.