Actualités

SYNAPSES : comment l’IA peut-elle contribuer à un meilleur journalisme ?

7 avril 2025 • Big Data & IA - Médias du futur

À travers le laboratoire commun SYNAPSES, Ouest-France et l’IRISA – sous cotutelle d’IMT Atlantique, composante du Carnot TSN – souhaitent évaluer l’intérêt et l’impact de l’intelligence artificielle dans les médias. Une démarche qui nécessite d’explorer des problématiques d’analyse d’images, de compréhension de textes anciens, de visualisation d’informations complexes, mais également de sobriété énergétique.

L’Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA) est un grand laboratoire d’informatique français, comptant plus de 850 personnes réparties au sein d’une quarantaine d’équipes de recherche. Il est le fruit d’une collaboration entre neuf établissements tutelles, parmi lesquels IMT Atlantique, composante de l’institut Carnot TSN. Ses domaines d’expertise comprennent notamment les logiciels, la robotique, la cybersécurité, ou encore l’intelligence artificielle. Des compétences qui intéressent l’entreprise Ouest-France depuis de nombreuses années.

L’aboutissement d’une collaboration fructueuse

« Les débuts de notre collaboration remontent à environ trente ans et nous avons abordé divers sujets tels que les premières éditions électroniques du journal ou la distribution personnalisée du quotidien », retrace Laurent Amsaleg, directeur de recherche CNRS à l’IRISA. Au sein du laboratoire, le chercheur dirige l’équipe Linkmedia, qui travaille sur les fondements scientifiques permettant d’analyser automatiquement de grandes collections de documents multimédias. Plus précisément, celles-ci sont constituées d’archives de télévision, de radio, de presse, ou encore de contenus issus des réseaux sociaux. « Des documents faits par des humains et destinés à des humains, réunis dans d’immenses collections », résume-t-il.

Une telle expertise scientifique trouve nécessairement un écho auprès de Ouest-France, en particulier de son équipe en charge de sa banque de contenus. Et cette proximité naturelle a conduit à la création d’un laboratoire commun entre l’entreprise et l’IRISA, baptisé SYNAPSES et lancé en février 2024. « Il ne s’agit que de la formalisation du travail conjoint que nous menons depuis des années », estime Laurent Amsaleg, qui codirige le laboratoire commun avec Michel Le Nouy, responsable du domaine informatique « Banques de Contenus » de Ouest-France. « Avec le temps, nous avons largement appris à nous connaître et à comprendre les besoins de chacun. Nous souhaitions à présent donner un cadre à ce rapprochement et approfondir nos travaux. »

Améliorer l’information fournie par les médias grâce à l’IA ?

L’objectif général de SYNAPSES est d’évaluer l’impact potentiel de l’intelligence artificielle au sein de la presse. Les modèles d’IA figurent en effet au cœur de travaux de recherche de l’équipe Linkmedia, pour des applications telles que l’analyse d’images, de contenus audio ou le traitement de la langue. Le laboratoire commun, conclu pour une période de 54 mois, tentera ainsi de répondre à la question suivante : en quoi l’IA appliquée à l’analyse des archives et de la production quotidienne peut-elle contribuer à un meilleur journalisme ?

« La volonté de transfert de technologie et de connaissance constitue également un principe fondateur de SYNAPSES », ajoute Laurent Amsaleg. « À Linkmedia, nous sommes sensibles à l’impact sociétal de nos travaux de recherche. En l’occurrence, nous mettons notre expertise au service d’un problème concret et primordial : l’amélioration de l’information. » Il convient toutefois de noter que l’ambition du laboratoire commun n’est pas de développer des outils exploitables directement par Ouest-France. Il s’agit plutôt de faire avancer la connaissance scientifique et de mettre au point des prototypes démontrant le potentiel et les limites des technologies expérimentées. Charge ensuite à l’entreprise de retenir les solutions pertinentes pour son activité et d’assurer leur mise en œuvre opérationnelle.

Au-delà des pistes permettant de mieux exploiter les gigantesques bases de données de l’entreprise, SYNAPSES offre à Ouest-France une meilleure visibilité sur ce que la technologie peut actuellement réaliser ou non. D’ailleurs, lors des premiers mois, les chercheuses et chercheurs s’attachent à établir un état de l’art précis des capacités de l’IA. Avant de s’attaquer aux archives fournies par l’entreprise, vivier unique dont la souveraineté reste préservée dans le cadre de cette collaboration.

Automatiser l’exploration des archives photographiques

Le premier sujet étudié par l’équipe du laboratoire commun concerne l’analyse d’images. « Les archives de Ouest-France renferment près de 40 millions de photos », présente Laurent Amsaleg. « Nous allons déterminer comment un traitement automatique par intelligence artificielle peut aider les journalistes et documentalistes dans leur travail. » En effet, ces derniers sont habituellement contraints d’explorer manuellement cette énorme base de données, afin de trouver les images pertinentes pour illustrer leurs publications. Une tâche qui pourrait être simplifiée à l’aide d’une IA capable d’identifier les différents éléments d’une photo.

En plus d’aider à la recherche iconographique, la technologie pourrait permettre à Ouest-France de repérer les doublons dans ses archives photographiques et d’alléger ainsi sa base de données. « De même, l’intelligence artificielle peut être employée pour améliorer la détection des problèmes de copyright au sein d’une large collection d’images », complète le chercheur.

L’IA face aux défis de la sémantique et de l’explicabilité

Le deuxième axe de recherche de SYNAPSES porte sur le traitement automatique de contenus textuels à partir de grands modèles de langage (LLM). Une branche de l’intelligence artificielle désormais célèbre, car employée par des outils tels que ChatGPT ou Google Bard. Cependant, il s’agit ici de l’appliquer à un journal local. « Cela implique notamment de comprendre le contexte spécifique du territoire couvert par Ouest-France », cite Laurent Amsaleg. « Mais surtout, les archives du quotidien remontent jusqu’au début du XXe siècle. Et face à un tel contenu, un outil comme ChatGPT est totalement démuni. Il est en effet confronté à un autre registre de langue, à des personnalités qui lui sont inconnues, à un vocabulaire particulier. Nos modèles d’IA doivent ainsi s’adapter à ce contenu singulier et résoudre des problèmes de diachronie, c’est-à-dire relatifs à l’évolution du sens des mots dans le temps. »

Or, pour apprendre à déchiffrer ces textes vieux d’une centaine d’années, les algorithmes devront être alimentés avec des données leur permettant d’interpréter correctement le sens des mots employés. Mais quelles informations leur fournir ? Et comment les récupérer ? « À vrai dire, nous ne savons pas encore », convient Laurent Amsaleg. « Il s’agit précisément d’un des défis du laboratoire commun. Nous allons nous intéresser à cette problématique aujourd’hui peu traitée, car elle ne profite qu’à peu de personnes d’un point de vue professionnel. Ce qui est certain, c’est que nous devrons consacrer du temps à l’annotation de données. » Pour ce travail, l’équipe de recherche envisage de mobiliser des experts dans des domaines tels que l’histoire, la sociologie ou la linguistique.

Par ailleurs, le recours à des modèles de LLM dans un contexte professionnel induit un autre enjeu crucial, celui de l’explicabilité de l’IA. « Nous savons qu’un outil comme ChatGPT peut être victime d’ »hallucinations » et fournir des informations erronées », note le chercheur. « Mais pour une utilisation par un journaliste, un tel manque de fiabilité ne peut être acceptable. La déontologie même du métier implique de vérifier ses sources, il faut donc aussi être en mesure de contrôler celles utilisées par la machine. » Un véritable écueil, puisque cela revient à expliquer les réponses fournies par des modèles d’IA qui fonctionnent généralement comme des « boîtes noires ». Mais un travail indispensable pour que les journalistes puissent avoir confiance en la technologie.

Limiter l’empreinte énergétique de l’IA

Enfin, l’équipe de SYNAPSES entend améliorer la visualisation d’informations complexes dans le cadre de collections aussi riches que celles du journal. « Tous les contenus entretiennent de liens multiples entre eux, qui peuvent être explicites ou implicites », souligne Laurent Amsaleg. « Prenons l’exemple des « Panama Papers » : ces documents contiennent une multitude de noms de personnalités, de sociétés-écrans, de flux financiers, de paradis fiscaux… Si un journaliste souhaite mener une enquête sur une telle affaire, comment peut-il visualiser aisément cette montagne de données ? » Le laboratoire commun ambitionne d’apporter des éléments de réponse à cette question, avec une contrainte supplémentaire : offrir la possibilité de faire varier la granularité de l’information. Dans le cas des « Panama Papers », cela permettrait, par exemple, de se concentrer sur un individu ou sur un groupe de personnes.

À ces trois axes de recherche s’ajoute une problématique sociétale essentielle, qui concerne l’ensemble des travaux de SYNAPSES (et bien au-delà) : celle de l’empreinte écologique de l’IA. « Nous savons qu’un outil comme ChatGPT nécessite énormément d’énergie pour apprendre et fonctionner », déplore Laurent Amsaleg. « A contrario, il nous paraît essentiel d’optimiser nos modèles quant à leur consommation d’énergie. La sobriété énergétique représente ainsi un défi scientifique majeur, qui nous accompagnera tout au long de notre démarche. »

Dernières actualités

Scalinx : l’électronique d’un monde à l’autre

Issue des laboratoires de Télécom Paris, la startup Scalinx donne à l’Europe sa souveraineté dans les puces de conversion du signal.
, ,

Arago, plateforme technologique optique pour l’industrie

Basée sur le campus de Brest de IMT Atlantique, Arago est spécialisée en technologies optiques et matériaux intelligents pour l’industrie du futur.

La BnF allie sociologie et big data pour cerner ses gallicanautes

La BnF s’est alliée à Télécom Paris pour étudier son public en ligne. Les scientifiques s’appuient sur la plateforme TeraLab de l’IMT.

Besoin d’informations ?