Technologies de l'information - ABGi France

IA et SIC : Journalisme robotisé et lutte contre la désinformation

Par Alice Durand, Rédactrice scientifique

Présentation générale du secteur

L’intelligence artificielle (IA) désigne un ensemble de comportements intelligents, caractéristiques des humains, qui peuvent être reproduits de manière artificielle par des machines, des systèmes ou des réseaux. L’objectif de l’IA est de créer des machines capables d’agir de manière autonome et de simuler des comportements intelligents.

Certains chercheurs s’accordent sur le fait que l’IA fait partie des technologies les plus puissantes et les plus susceptibles de transformer notre société contemporaine. Force est de constater qu’elle exerce déjà une influence majeure dans différents aspects de notre vie quotidienne, notamment dans les domaines de l’information et la communication.

Le rôle central des Sciences de l’Information et de la Communication (SIC)

Effectivement, les Sciences de l’Information et de la Communication (SIC) sont au premier plan de ces transformations. Elles sont définies par E. Dacheux comme « les sciences qui ont pour objet de comprendre non pas « les » outils de communications, mais « la » communication. Il s’agit donc, pour les SIC, de restituer toutes les dimensions (symboliques, politiques, économiques) d’une communication humaine qui, au niveau des individus comme à celui de la société, est ontologiquement ambivalente. ». Cette définition est complétée par l’aspect interdisciplinaire et la volonté de penser ensemble « information et communication ».

Les SIC s’intéressent tout particulièrement à des objets fortement investis socialement. Cela concerne les médias, les institutions culturelles, ou encore les réseaux de télécommunication. Le rôle des SIC est ainsi d’accompagner notre société à travers les innovations techniques et les stratégies industrielles d’un secteur identifié comme décisif. Ces recherches étant liées à des valeurs centrales comme la démocratie, le droit à l’information, la communication et le partage des connaissances, elles apparaissent essentielles dans la construction d’un avenir démocratique et éclairé.

L’impact de l’IA sur l’information et la communication

Or, les systèmes d’IA nous obligent à repenser la nature de l’information ainsi que le processus de gestion et de co-création de connaissances. Il s’agit aussi de retravailler les approches méthodologiques et de modifier les pratiques info-communicationnelles. D’après K. S. Kouakou, l’IA agit comme « catalyseur d’un changement paradigmatique offrant ainsi de nouvelles perspectives pour comprendre et interpréter les dynamiques complexes en cours dans les SIC ».

Par exemple, dans le domaine du journalisme, les changements engendrés par l’IA sont d’une ampleur et d’une vitesse inédites. Les pratiques journalistiques s’en trouvent fortement impactées. Une question demeure : l’IA peut-elle garantir une information de qualité tout en luttant contre ses propres dérives ?

Journalisme robotisé : une révolution ?

Automatisation des processus journalistiques

À l’heure du Big Data et de l’évolution rapide de l’IA, les pratiques journalistiques sont fortement impactées par ces nouvelles mutations. En effet, le processus de production de l’information se voit profondément modifié grâce aux nouvelles perspectives offertes par l’IA. Cela inclut notamment l’automatisation des processus commerciaux, la veille informationnelle, l’écoute des réseaux sociaux, ou encore l’analyse prédictive de succès.

Les systèmes d’IA permettent le traitement, l’analyse et la classification d’une quantité importante de données (Big data). Ils rendent également possible la réalisation de modèles prédictifs pour des prises de décision, bien plus efficaces, rapides et fiables que les humains.

Des systèmes capables de créativité et d’automatisation avancée

Toutefois, les IA ne se limitent pas à accomplir des tâches répétitives et mécaniques. Elles sont également capables de mener à bien des tâches faisant appel à la cognition et à la créativité humaine. Cela concerne notamment la rédaction d’articles de presse, ainsi que la génération de textes et d’images.

Il existe ainsi des systèmes permettant d’automatiser la rédaction des articles journalistiques. Nous pouvons citer Quakebot, un programme informatique qui permet de rédiger un récit d’actualité à partir d’informations limitées, sans apport humain. De nombreuses entreprises proposent des solutions automatisées de rédaction – parmi lesquelles Automated Insights, Narrative Science, Yseop et Arria – et les commercialisent à un nombre croissant de médias.

Les algorithmes utilisés sont basés sur la technologie de génération de langage naturel (NLG). Ils sont capables de produire du contenu d’actualité sur divers sujets (sport, finance, politique, faits divers, etc.). De manière générale, ils suivent une méthode en six étapes : extraction des données, évaluation de leur pertinence pour l’actualité, détermination des données appropriées à prioriser, association des données pertinentes avec l’actualité, génération de l’article de presse, et publication automatique de l’article sur un site d’actualités.

Dès lors, ces articles de presse générés par des algorithmes basés sur des données, et sans intervention humaine, constituent une nouvelle forme de journalisme. Dans ce contexte, l’émergence du journalisme robotisé est le résultat de la convergence de la technologie NLG et des SIC.

Fact-checking automatisé

La vérification des faits (ou fact-checking) est une tâche essentielle du journalisme qui consiste à évaluer si les informations sont vraies. Jusqu’à présent, cette tâche était réalisée par des organisations dédiées telles que PolitiFact (vérification externe) puis par les médias (vérification interne) avant toute publication.

Ces dernières années, la vérification des faits est devenue de plus en plus importante en raison de la rapidité avec laquelle les informations circulent. L’augmentation du nombre de fake news constitue un autre défi dans l’écosystème médiatique.

Pour répondre à ces besoins, des chercheurs ont tenté d’automatiser cette étape à l’aide de techniques basées sur le traitement du langage naturel, l’apprentissage automatique et des bases de données, pour prédire automatiquement la véracité des informations. Nous pouvons citer par exemple TruthTeller, développé par le Washington Post pour vérifier automatiquement les faits des discours politiques en temps réel.

La vérification automatisée se fait en trois étapes : détection des allégations, recherche de preuves (pour trouver des sources soutenant ou réfutant l’affirmation), et réclamation de la vérification (qui consiste à évaluer la véracité de l’affirmation sur la base des données preuve).

Défis et limites des systèmes automatisés

Bien que prometteuses, ces solutions sont confrontées à des défis particuliers. Notamment, toutes les informations ne sont pas également fiables, et il arrive que les sources se contredisent. Pour remédier à la présence de preuves en désaccord ou non fiables, des méthodes doivent être développées. L’une des solutions avancées est d’intégrer l’évaluation de la crédibilité, ce qui pourrait permettre de prendre compte des concordances entre les sources de données probantes.

De plus, la fidélité constitue un défi important et non résolu dans la production de justification. Une justification fidèle explique comment et pourquoi le modèle arrive à une prédiction spécifique, sans introduire d’informations erronées ou trompeuses. Certaines justifications générées de manière abstraite peuvent sembler plausibles mais ne reflètent pas les mécanismes réels du modèle. Si la justification est infidèle, l’utilisateur pourrait être induit en erreur, ce qui est particulièrement préoccupant dans des applications sensibles.

Lutte contre la désinformation : défis et innovations

L’IA est devenue un catalyseur de transformations profondes dans le domaine des pratiques de communication et de l’accès à l’information. Grâce à ses capacités d’analyse poussées, elle constitue une alliée de choix dans la lutte contre la désinformation.

Détection de la désinformation grâce à l’IA

Avec l’augmentation du volume de désinformation, la vérification manuelle des faits est de plus en plus jugée inefficace et inefficiente. L’application dominante de la vérification automatisée des faits consiste à découvrir et à intervenir contre la diffusion de fausses informations : c’est ce que l’on appelle la démystification (ou debunk).

A partir d’articles signalés comme inexacts par les utilisateurs et les vérificateurs de faits dans le passé, l’IA peut être exploitée pour identifier de fausses histoires grâce à des techniques d’apprentissage automatique.

Si des efforts ont été déployés ces dernières années pour permettre une intervention rapide suite à la diffusion de fausses informations, certains chercheurs explorent comment rendre cette stratégie proactive. Notamment, l’une des possibilités est de diffuser des contre-messages avant que la désinformation ne se propage largement : c’est le pré-bunking. Il s’avère que les NLG pourraient à la fois jouer un rôle crucial dans la détection précoce et dans la création de contre-messages pertinents.

Limites des systèmes automatisés dans la lutte contre la désinformation

Dans le cadre des opérations d’information, les solutions d’IA sont particulièrement efficaces pour détecter et supprimer les contenus trompeurs. Elles sont aussi largement utilisées pour filtrer et identifier les faux comptes de bots.

Pour l’instant, les plateformes de médias sociaux continuent de s’appuyer sur une méthode hybride, reposant sur une combinaison d’IA et d’examen humain. En effet, les techniques automatisées pour détecter et contrer la désinformation se heurtent à plusieurs obstacles.

Tout d’abord, les modèles d’IA sont sujets à de faux négatifs/positifs, ce qui représente un risque de blocage excessif de contenus légaux et exacts. Cela s’explique par le fait que ces technologies comprennent mal les affirmations implicites ou intégrées dans des phrases complexes. Ensuite, certains algorithmes sont susceptibles de reproduire les biais humains et risquent de défavoriser certaines catégories de personnes. Enfin, les systèmes d’IA sont complexes et opaques. L’évolution du machine learning, basée sur l’auto-apprentissage, dépasse la compréhension des développeurs. Il est primordial d’expliquer le processus de prise de décision des algorithmes afin d’obtenir une meilleure vérifiabilité et une plus grande transparence.

Les deepfakes : un défi majeur

La manipulation et la falsification de données multimédias sont plus faciles que jamais grâce à l’IA. En effet, les faux contenus générés par IA (appelés deepfakes) constituent une menace émergente et soulèvent de nombreuses préoccupations. La génération de contenu falsifié de haute qualité se fait à l’aide de réseaux antagonistes génératifs (GAN).

La tâche de détection des Deepfake est devenue un enjeu sécuritaire majeur. Ces algorithmes de détection peuvent être divisés en trois catégories : les méthodes basées sur l’apprentissage profond, les méthodes basées sur la physique et les méthodes basées sur la physiologie. Si la plupart des images générées par GAN étaient faciles à détecter en raison de défauts communs qu’elles partageaient, ces derniers ont été progressivement réduits. Ainsi, les méthodes de détection GAN sont encore loin de montrer des performances fiables.

Techniques prometteuses pour détecter les deepfakes

De multiples expériences ont été menées pour tenter d’obtenir une méthode efficace de détection des Deepfakes. Par exemple, de bons résultats ont été obtenus avec la technique d’ensemble EfficientNet B7 utilisée à partir du jeu de données DFDC.

Dans les Deepfakes où les imperfections ne sont pas visibles à l’œil humain, l’image peut présenter des distorsions non visibles. Il s’agit d’une « empreinte » spécifique, caractérisée par l’architecture du réseau et ses paramètres. Ces empreintes peuvent être identifiées grâce à certaines techniques utilisant le domaine fréquentiel, comme les détecteurs basés sur le concept de Discrete Cosine Transform (DCT). Ils permettent de caractériser l’empreinte unique en appliquant le DCT à l’image ou en utilisant des fonctions extraites de blocs DCT comparables à la compression JPEG.

De même,  les traces convolutives sont détectées à l’aide de l’algorithme Expectation-Maximization, qui permet de distinguer les images Real des Deepfakes. Des chercheurs ont également démontré qu’il est possible de définir le modèle GAN spécifique utilisé pendant le processus de génération.

Si les résultats sont encourageants, les méthodes de détection des deepfakes ne sont pas encore suffisamment précises et matures. Des recherches sont ainsi encore nécessaires pour obtenir des résultats pleinement satisfaisants. En l’état, les meilleurs résultats dans ce domaine ont été obtenus grâce à des approches basées sur l’apprentissage profond.

Références bibliographiques


Lectures associées 

Point d’étape | Projet de Loi de finances 2025

Présenté le 10 octobre dernier en Conseil des Ministres, le Projet de Loi de Finances pour 2025 a déjà connu...

Clôture du LabEx CAMI : Bilan et célébration de 12 ans d’innovations en interventions médicales assistées par ordinateur

Le 14 novembre 2024, la communauté scientifique, médicale et industrielle s’est rassemblée au World Trade Center à Grenoble pour marquer...

La révolution verte de la sidérurgie : quelles innovations pour un avenir plus durable ?

La métallurgie, bien que cruciale pour de nombreux secteurs clés tels que l'automobile, la construction et l'aéronautique, est l'un des...