Quand de vraies personnes ont recours à des faux : utilisation des hypertrucages par la population

En traitement des signaux, en infographie et en vision informatique, il a toujours été essentiel de synthétiser des sons, des images et des vidéos réalistes. Avec des outils datant d’avant l’avènement de l’intelligence artificielle (IA), le processus est généralement long, coûteux et exigeant sur le plan technique pour le commun des mortels. Cependant, les progrès rapides de l’IA ces dernières années ont beaucoup abaissé le seuil des ressources, du temps et de l’expertise nécessaires pour créer des faux convaincants. Ces avancées ont frappé le public à la fin de l’année 2017, quand un compte Reddit appelé « DeepFake », un fourre-tout sur lequel étaient publiés des produits de l’apprentissage profond et des contenus falsifiés, a commencé à diffuser des vidéos pornographiques sur lesquelles avaient été transplantés les visages de célébrités à l’aide d’un algorithme faisant appel à un réseau de neurones profond (RNP). Depuis, des algorithmes plus élaborés synthétisant des sons, des images et des vidéos réalistes sont apparus, ainsi qu’une pléthore d’outils logiciels de source ouverte et de services commerciaux. Par ailleurs, le terme « hypertrucage » (« deepfake » en anglais) est aujourd’hui exploité plus largement pour désigner toute supercherie créée ou éditée au moyen d’algorithmes d’apprentissage profond. 

Les hypertrucages ne sont que la partie émergée de cette inquiétante tendance. Parce qu’ils donnent l’illusion de la présence et des activités d’une personne, ils peuvent causer des dommages bien réels quand ils sont utilisés à des fins offensives. Par exemple, une fausse vidéo mettant en scène une personnalité politique agissant de façon inappropriée pourrait suffire à faire pencher la balance en sa défaveur si elle était diffusée peu avant un scrutin. Un enregistrement audio d’une haute dirigeante d’entreprise commentant la situation financière de sa société pourrait faire chuter l’action de cette dernière. L’utilisation d’un visage humain de synthèse réaliste comme photo de profil d’un faux compte sur les médias sociaux peut renforcer considérablement le poids d’une tromperie. Un prédateur en ligne peut se faire passer pour un membre de la famille ou du cercle d’amis de sa victime au cours d’une conversation vidéo, afin de l’attirer. S’ils ne sont pas contrôlés, les hypertrucages peuvent amplifier la désinformation en ligne et le danger qui y est associé, donc fondamentalement ébranler la confiance d’une société dans les contenus numériques. 

Les dernières avancées de la production de contenus à l’aide de l’IA (ou « IA générative ») ont été considérablement favorisées par la disponibilité de modèles de création de textes et d’images à grande échelle, notamment ceux de la famille Generative Pre-trained Transformer (GPT) d’OpenAI, DALL-E et Midjourney. Ces progrès, qui ont stimulé l’imagination du public quant aux superpouvoirs de l’IA et qui ont ouvert la perspective de l’intelligence artificielle générale (IAG), apportent aussi de nouvelles occasions et de nouveaux défis pour la fabrication d’hypertrucages. Ils se concentrent sur trois grands axes : i) augmenter la puissance et les capacités des modèles; ii) rendre les modèles plus accessibles; iii) donner aux utilisateurs davantage de contrôle sur le style et le contenu des productions grâce à des commandes textuelles détaillées. 

L’un des progrès les plus importants de l’IA générative est la puissance et la capacité accrues des modèles. Parce que des volumes considérables de données sont disponibles pour leur entraînement, ces modèles peuvent apprendre des combinaisons compliquées et générer des produits de grande qualité. Ils peuvent produire des images, des vidéos et des sons réalistes et complexes, qu’il est presque impossible à distinguer de ceux qui sont créés par des personnes. Ils ont un large éventail d’applications, allant de la synthèse d’images réalistes pour les environnements virtuels à celle de voix réalistes pour les assistants virtuels. 

Un deuxième progrès important des modèles d’IA générative est leur accessibilité. De nombreux outils ont maintenant des interfaces Web nécessitant peu ou pas de codage ou d’effort à l’installation. Cela facilite leur utilisation par les non-initiés, qui peuvent en tirer parti.

Enfin, l’élaboration d’outils fonctionnant grâce à l’IA qui offrent davantage de contrôle sur le style et le contenu des produits au moyen d’invites textuelles détaillées est un dernier progrès important. Cela permet aux usagers de préciser le style et le contenu de la production qu’ils souhaitent par des commandes textuelles entrées dans le modèle d’IA. Cela peut être utile pour créer des contenus sur mesure destinés à des campagnes de marketing, des contenus personnalisés pour les médias sociaux ou des simulations réalistes aux fins de formation. 

Actuellement, la production d’hypertrucages peut prendre trois formes différentes : les images, les vidéos et les sons ou les voix. 

Images 

Les images ultraréalistes créées par les modèles faisant appel à des réseaux antagonistes génératifs (GAN) sont un exemple parlant d’hypertrucages. Ces modèles sont composés de deux RNP qui sont entraînés en tandem. L’un, le « générateur », synthétise des images et l’autre, le « discriminateur », différencie les images de synthèse des vraies. Au cours de cet entraînement, les deux RNP sont en concurrence : le générateur essaie de produire des images de plus en plus réalistes pour tromper le discriminateur, qui tente d’améliorer l’exactitude de son tri. Une fois que les deux réseaux atteignent l’équilibre, l’entraînement est terminé. Le générateur est ensuite utilisé pour créer des images réalistes à partir de bruit blanc à l’entrée.

De récents travaux, appelés StyleGAN, ont montré la supériorité des modèles faisant appel aux GAN pour ce qui est de la capacité à produire des visages humains réalistes en haute résolution. Ces modèles peuvent aussi servir à modifier ou à transférer les attributs et les expressions de visages. Un modèle encore plus récent de création d’images est le modèle de diffusion. Comme celui qui fait appel aux GAN, il crée des images réalistes à partir de bruit à l’entrée. Par contre, le mécanisme d’entraînement du modèle de diffusion est différent : il utilise un RNP pour simuler le processus physique de la diffusion, dans lequel un signal structuré est lentement dissous jusqu’à ce que l’équilibre thermodynamique soit atteint, au terme d’un processus de diffusion aléatoire (imaginez une goutte d’encre qui se dissout dans une tasse d’eau). Le RNP est ensuite utilisé pour, à l’inverse, transformer le bruit obtenu à partir de l’entrée en image structurée. Les modèles de diffusion ont permis de créer des visages humains à la pointe du réalisme et les systèmes logiciels comme Stable Diffusion sont largement utilisés.

Vidéos

Le terme « deepfake » (équivalent anglais de « hypertrucage ») provient de vidéos dans lesquelles des visages étaient remplacés par d’autres à l’aide d’un dispositif de transposition d’images. Plus précisément, les visages d’une cible sont remplacés ceux d’une source à l’aide d’un modèle de type « auto-encodeur ». Cet auto-encodeur est formé de deux RNP, soit un encodeur et un décodeur, entraînés à l’aide des visages de la cible et de la source. L’encodeur conserve les expressions du visage et le port de tête de la cible*c*, que le décodeur combine avec l’identité de la source*c*. Cette méthode d’échange de visages sur des vidéos est passée dans le grand public grâce à des applications logicielles de source ouverte sur GitHub (github.com).

Il existe aussi des techniques de création de vidéos qui reproduisent les mouvements du haut du corps et ceux de l’ensemble du corps. Des variantes de cette méthode permettent d’animer une seule image d’un visage à partir de la vidéo source d’une autre personne. Ces méthodes sont notamment appelées « Reenact GAN » (GAN de réinterprétation) et « First Order Motion » (mouvement de premier ordre). Elles font appel à des modèles fonctionnant grâce à des RNP pour transférer le mouvement d’un visage tiré de la vidéo source à l’image envoyée à l’entrée afin de créer une séquence vidéo du sujet figurant sur cette dernière image avec les mêmes mouvements faciaux que ceux de la personne figurant dans la vidéo source. Plusieurs jeunes pousses ont commercialisé des outils de production de vidéos avec remplacement de visage ou de réinterprétation d’une scène par une autre personne (p. ex. Synthesia et Canny AI).

Sons et voix 

Les modèles faisant appel aux RNP sont aussi employés pour générer des voix humaines synthétiques réalistes. Il existe deux types d’hypertrucages audio, qui diffèrent par les modalités d’entrée. Les modèles permettant de passer du texte à la voix (comme Parrotron et Spectron) transforment un texte écrit à l’entrée en texte dit avec la voix de la cible à la sortie, tandis que les modèles de conversion vocale utilisent la voix d’une personne source à l’entrée. Le système neuronal de synthèse de la parole avec adaptation au locuteur sur lequel reposent ces modèles comprend généralement : i) des composantes de modélisation acoustique, qui vont des simples spectrogrammes à la vectorisation neuronale des caractéristiques du locuteur et du style, plus complexe (comme Tacotron et ses variantes); ii) des vocodeurs, comme WaveNet ou WaveRNN, pour la génération de formes d’ondes vocales; iii) des algorithmes de conversion à base de modèles faisant appel à des auto-encodeurs ou à des GAN. Plusieurs entreprises, comme Lyrebird, Respeecher, Murf.ai, ElevenLabs et Dessa, offrent des services d’imitation vocale à la demande.

Génération multimodale

La synthèse d’images à partir d’invites textuelles s’est considérablement améliorée au cours des deux dernières années et des progrès récents ont été réalisés dans les modèles de diffusion avec transformateur faisant appel à un mécanisme d’attention. Plusieurs modèles de passage de la langue à l’image à grande échelle ont été élaborés, dont DALL-E, proposé par OpenAI en 2021, qui emploie un transformateur autorégressif pour générer des images de haute qualité à partir de l’ensemble de données MS-COCO sans étiquettes d’entraînement. D’autres modèles, comme CogView, Parti, Make-A-Scene et, dernièrement, MidJourney, utilisent aussi des modèles à transformateur autorégressif pour créer des images à partir de textes. En 2022, DALL-E2, une version mise à jour de DALL-E, a été publiée à l’aide d’un modèle de diffusion avec vectorisation d’images CLIP, ce qui lui permet de produire des échantillons plus variés, de qualité supérieure, de façon plus efficace. D’autres modèles, comme GLIDE, Stable-Diffusion et Imagen, font aussi appel à des modèles de diffusion pour améliorer la synthèse d’images à partir d’éléments de texte. 

Ces modèles puissants de synthèse d’images à partir d’invites textuelles ont inspiré plusieurs études axées sur l’élaboration des prochains modèles d’édition d’images dirigée par des invites textuelles, notamment DiffEdit, Prompt-to-prompt, Null-text Inversion, Imagic et Muse. Ces modèles effectuent l’édition locale d’une image à partir d’une entrée textuelle (on parle d’édition sémantique) : ils permettent d’y apporter la modification souhaitée et une disposition scénique facultative (grâce à une carte de segmentation). Cependant, leur optimisation permet souvent de garder au maximum les caractéristiques de l’image originale, tout en apportant des modifications significatives à des zones locales. Ce type de synthèse complète est facile à repérer dans les données d’entraînement.

Ces dernières années, l’utilisation de méthodes faisant appel à l’IA pour produire des doublages de n’importe quelle vidéo à partir d’autres voix est devenue de plus en plus populaire. Ces méthodes visent à créer des mouvements de bouche réalistes, synchronisés avec l’enregistrement sonore d’une personne qui parle, dans une vidéo donnée, ce qui permet de doubler la vidéo, ou d’en refaire la trame vocale dans une autre langue. Pour y parvenir, on emploie souvent des modèles basés sur l’apprentissage automatique capables d’apprendre les liens entre le son et les mouvements de la bouche. Ces modèles impliquent généralement un entraînement sur de vastes ensembles de données (paires audiovisuelles) visant à apprendre le mappage entre domaines visuel et sonore. D’autres approches consistent à utiliser des techniques de détection d’un repère facial pour prédire les mouvements des lèvres à partir de l’entrée audio. Les derniers progrès comprennent le recours à des techniques de traduction automatique neuronale pour générer des doublages dans différentes langues et l’intégration de techniques de traitement du langage naturel pour des doublages plus précis et mieux adaptés au contexte.

Conclusion

Bien qu’il soit difficile de prédire l’avenir des hypertrucages, une chose est sûre : la technologie continuera d’évoluer rapidement pour produire des contenus de plus en plus réalistes, de façon de plus en plus efficace et de plus en plus économique. Les différents intervenants devront agir pour contrôler l’éventuel détournement de ces outils à des fins de désinformation. La mesure la plus urgente consiste pour les fournisseurs de services et d’outils à réguler l’usage de ces derniers et à apposer des filigranes sur les produits ainsi créés, afin qu’il soit possible d’en retrouver l’origine et de les repérer une fois qu’ils circulent sur les réseaux sociaux. Les entreprises qui gèrent ces derniers doivent aussi filtrer et limiter la propagation virale de contenu artificiel et des campagnes de désinformation bien orchestrées qui y font appel. Pour aider les utilisateurs à dénoncer la désinformation, les médias grand public peuvent effectuer rapidement des vérifications des faits et de l’authenticité des contenus. La population doit également renforcer sa connaissance des productions synthétiques et sa sensibilité à ces dernières, et il faut l’encourager à éviter de relayer des informations non fiables. Enfin, les organismes gouvernementaux ont un rôle essentiel à jouer pour orienter les stratégies nationales de recherche, afin que davantage de ressources soient investies dans l’étude de mesures visant à lutter contre les hypertrucages, mais aussi pour axer les efforts législatifs sur le contrôle du problème.

Détails de la page

Date de modification :