De la rédaction d’articles à la recherche de données en passant par la personnalisation du contenu, comment le robojournalisme change le monde de l’information
Depuis Colin Porlezza, professeur à la Faculté de communication, culture et société
Grâce à des modèles de langage comme ChatGPT, une intelligence artificielle peut rédiger un article d’actualité en quelques secondes. Cependant, la popularité récente du système développé par OpenAI ne doit pas laisser croire que des scénarios similaires appartiennent à un avenir plus ou moins proche : l’intelligence artificielle et l’automatisation ont déjà changé le journalisme, et pas seulement en termes de création de contenu.
Journalisme automatisé
Pour décrire les applications de l’intelligence artificielle dans le journalisme, on parle souvent de « robojournalisme ». Cependant, c’est une expression problématique à plusieurs égards : Premièrement, elle évoque l’image d’un robot aux traits humains assis devant un ordinateur et écrivant des textes comme par magie. C’est le reflet d’une imagerie que l’on retrouve souvent dans les illustrations accompagnant les articles sur l’utilisation de l’intelligence artificielle dans le journalisme. De plus, la technologie est basée sur la soi-disant génération de langage naturel, il n’y a donc pas de robots. Enfin, le récit continu des robots joue souvent sur les craintes de licenciement des journalistes et empêche les salles de rédaction de devenir plus innovantes.
Le terme « journalisme automatisé » tend donc à décrire toutes les technologies qui génèrent du texte et du contenu sans intervention humaine, hormis le développement initial et la programmation.
Ce type de journalisme automatisé est déjà une réalité dans divers contextes et est particulièrement intéressant lorsqu’il s’agit de traiter de nombreuses données structurées et facilement accessibles. C’est le cas de certaines informations économiques : l’agence de presse Associated Press, par exemple, utilise le journalisme automatisé pour les informations sur les états financiers des entreprises. Le Los Angeles Times a développé un outil automatisé de signalement des tremblements de terre qui compose automatiquement un court texte à partir des données partagées par les instituts de recherche. Le même journal a ensuite mené une opération similaire en utilisant des dates de meurtre.
Le sport est également un domaine où il peut y avoir beaucoup de données statistiques à partir desquelles on peut s’appuyer. C’est le cas du baseball, un sport qui se divise en actions individuelles distinctes : le lanceur lance la balle, le frappeur la frappe, etc. La première grande application de la société américaine leader de l’intelligence artificielle dans les médias – StatsMonkey, littéralement « Monkey of Statistics » qui devint plus tard « Narrative Science » – concernait le baseball.
Une application un peu plus complexe qui n’est pas seulement utilisée dans le sport concerne le logiciel Heliograph du Washington Post de Jeff Bezos. Lors des Jeux olympiques de 2016 à Rio de Janeiro, le système a pu rédiger des articles de manière autonome et également décider de manière autonome où les publier, que ce soit sur le site Web ou simplement sur les réseaux sociaux. Cependant, dans le passé, Heliograph a également été utilisé pour informer l’équipe éditoriale en temps réel lorsque les résultats des élections prenaient une tournure inattendue. Votes et élections sont donc un autre champ d’application du journalisme automatisé. Ce sont des systèmes qui ont déjà été testés par Le Monde, la BBC, le Washington Post lui-même et, en Suisse, également par le groupe Tamedia et l’agence de presse ATS. Ces solutions permettent aux utilisateurs de personnaliser la couverture des élections avec des articles qui incluent les résultats dans chaque communauté, ce qui est difficile pour une salle de presse qui devrait écrire des centaines d’articles différents.
L’intelligence artificielle à la rédaction
Ce sont les meilleures solutions de journalisme automatisé. Mais l’IA a déjà imprégné tous les processus journalistiques, pas seulement la production d’articles. Pensons à la recherche d’informations : il existe des systèmes qui peuvent aider les journalistes à trouver des informations pertinentes dans des bases de données publiques, d’autres systèmes permettent plutôt d’identifier des informations spécifiques dans une grande quantité de données, comme c’est le cas avec les « Leaks ». Ce sont souvent des systèmes d’intelligence artificielle qui analysent les grandes quantités de documents confidentiels. Ensuite, il existe des systèmes qui aident les journalistes à rédiger l’article, avec des idées créatives ou en suggérant des approches possibles et en fournissant des informations. Ils ont déjà utilisé d’autres systèmes comme les traducteurs automatiques, par exemple Deepl. Un autre domaine où l’intelligence artificielle est largement utilisée concerne la distribution de contenus avec des algorithmes qui personnalisent l’offre en fonction des préférences et du comportement des utilisateurs.
Nous pouvons regrouper ces applications en trois groupes. Le premier concerne l’augmentation de la capacité de production d’articles et de contenus. Dans ce domaine, les systèmes sont capables d’analyser de grandes quantités de documents, d’identifier indépendamment les dernières nouvelles dans les médias sociaux ou d’extraire des données de sources publiques – comme cela a souvent été fait avec les données sur la pandémie.
Le deuxième groupe d’applications concerne l’efficacité des procédures : pensons aux procédés automatisés de transcription ou de traduction ou au catalogage automatique d’images et de vidéos, particulièrement utiles pour les services publics.
Le dernier groupe concerne un aspect plus commercial : l’optimisation des ventes. Un journal peut comporter des paywalls, où un algorithme reconnaît si un utilisateur a déjà consulté un certain nombre d’articles et propose donc un abonnement sur mesure. Ensuite, nous avons tous des systèmes de recommandation et de personnalisation de contenu. Nous parlons d’outils qui aident à optimiser les ventes et qui peuvent être très utiles en ce moment pour les entreprises de médias qui sont souvent sous pression économique.
Entre risques et opportunités
Ces solutions technologiques peuvent soulager les rédacteurs de tâches routinières et garantir aux entreprises des revenus plus élevés, mais elles recèlent également des risques spécifiques pour la fonction démocratique des médias qu’il ne faut pas sous-estimer. Alors, l’intelligence artificielle et les algorithmes sont-ils un risque ou une opportunité pour le journalisme et son rôle dans la démocratie ?
Chaque système a ses propres difficultés. Très souvent, les technologies de personnalisation ou de recommandation sont développées dans des buts purement commerciaux. La capacité d’offrir plus efficacement aux utilisateurs ce qu’ils aiment soulève de nombreuses inquiétudes quant à l’impact des systèmes de recommandation sur la démocratie. Qu’advient-il du public si chaque utilisateur ne reçoit que les informations qu’il préfère et que les citoyens sont moins exposés à des points de vue différents ? Qu’est-ce que cela signifie pour la politique lorsqu’il devient plus difficile de rencontrer des idées et des opinions différentes ? Bien sûr, les craintes de fragmentation et de polarisation dans le paysage médiatique sont tout sauf nouvelles. Cependant, ce qui distingue le paysage actuel des problèmes de fragmentation plus larges est le manque relatif de choix des utilisateurs, en particulier dans le cas de recommandations présélectionnées. Ce problème est moins explicite dans les médias traditionnels, qui proposent une offre éditoriale proposant souvent des idées et des opinions diverses.
Bien sûr, ces systèmes de personnalisation peuvent être gérés, comme c’est le cas avec les algorithmes de certaines plateformes de streaming, par exemple, pour insérer du contenu en dehors des préférences individuelles afin de découvrir de nouvelles choses. À tel point que de nombreux utilisateurs trouvent que les systèmes de recommandation sont un excellent moyen de naviguer dans la richesse croissante des informations. Ainsi, ce type de système permet aux médias de mieux répondre aux besoins d’information spécifiques des utilisateurs.
Cependant, deux autres domaines nécessitent une attention particulière. Le premier concerne la programmation d’outils qui génèrent automatiquement des textes, par exemple. Ces systèmes sont programmés par des personnes avec leurs préférences, leur logique et donc il peut y avoir des biais. Même avec l’apprentissage automatique, ces systèmes sont formés avec d’énormes quantités de données. La qualité du programme dépend de la qualité des données sources. Si les données sont erronées ou contiennent des préjugés sociaux, ces problèmes seront intégrés à l’algorithme. Les données correctes sont donc essentielles.
Nous voyons un problème similaire avec ChatGPT et les soi-disant hallucinations. Ce système est capable d’écrire de merveilleux articles, mais parfois les informations qu’il génère contiennent des données fabriquées ou des absurdités. Cela nous fait comprendre que dans le journalisme automatisé, la surveillance humaine est toujours nécessaire pour éviter que les articles créés avec l’intelligence artificielle ne contiennent des erreurs, qui peuvent cependant échapper à un examen superficiel avec de graves conséquences sur la réputation du journal.
problème de transparence
Quand on parle de l’utilisation des algorithmes dans le journalisme, la transparence devient un facteur clé. Il y a trois aspects à considérer.
Le premier concerne la possibilité de savoir si un article a été généré par un programme. Malheureusement, cela n’arrive pas toujours, peut-être par peur de saper son autorité journalistique. L’une des premières publications à publier ces informations a été l’édition australienne du Guardian, qui a également été parmi les premières à publier un article entièrement rédigé par un modèle linguistique.
Le deuxième aspect concerne la transparence des algorithmes qui personnalisent le contenu. Le lecteur a besoin de savoir pourquoi un certain contenu lui est recommandé et sur la base de quelles données il est collecté. Nous avons donc besoin de directives claires pour le traitement des données des utilisateurs, mais aussi de règles sur la manière dont les informations sont proposées. Le problème est de savoir comment le faire : il n’est certainement pas possible de partager le code du programme, à la fois parce qu’il serait difficile à comprendre et parce qu’il aurait pu être développé par des sociétés privées ayant des intérêts commerciaux. La BBC, par exemple, a formulé des règles à la fois pour la conception de ces systèmes, la manière dont les données doivent être utilisées et pour informer les utilisateurs en termes simples sur le fonctionnement de ces algorithmes.
Ce sont aussi de nouveaux défis qui n’existaient pas jusqu’à récemment. Il n’en reste pas moins que des technologies telles que l’intelligence artificielle et les algorithmes, lorsqu’elles sont utilisées dans les salles de rédaction, peuvent offrir à la fois de grandes opportunités et certains risques pour la fonction démocratique des médias.
Une chronique éditée par

« Fanático de la cultura pop. Introvertido. Devoto pionero de la comida. Friki del tocino. Evangelista del café de toda la vida ».
