Le CNRS
 
 

Accueil > Actualités recherche > Intelligence artificielle et humanités numériques : déchiffrement des écritures médiévales, analyse des écritures et étude des sources en SHS

 

Intelligence artificielle et humanités numériques : déchiffrement des écritures médiévales, analyse des écritures et étude des sources en SHS

Cet article est issu de la lettre de l’InSHS 54 - Juillet 2018


La recherche en plein texte dans les manuscrits médiévaux. Ici, recherche du mot « gratia », correctement identifié avec abréviation (« grã ») ou sans (« gratia ») dans le registre Paris, Archives Nationales, JJ 35. Interface du visualiseur Universal Viewer, appelant les images depuis la BVMM (IRHT) grâce au protocole IIIF © D. Stutzmann - IRHT-CNRS


Ces dernières années, la volonté de répliquer l’intelligence humaine dans des machines a trouvé de nombreuses applications qui s’intègrent, de plus en plus, et parfois sans que l’on s’en rende compte, à notre quotidien : sous-titrage en direct des chaînes d’information, reconnaissance faciale des appareils photos, smartphones et réseaux sociaux, filtres anti-spam, aide au diagnostic médical et à la conduite automobile, etc.

Une réussite de l’intelligence artificielle : le déchiffrement des écritures médiévales

Sous le pilotage de l’Institut de Recherche et d’Histoire des Textes (IRHT, UPR841, CNRS), des développements en intelligence artificielle ont permis, pour la première fois, de « lire » des manuscrits médiévaux, c’est-à-dire d’indexer correctement leur texte à partir des images numérisées [1]. La lecture par ordinateur du texte imprimé (OCR, optical character recognition) est aujourd’hui considérée comme un problème presque résolu pour les documents récents, mais celle des documents anciens, souvent abîmés, et de l’écriture manuscrite, plus variable, est encore difficile. Or, pour l’historien ou le linguiste, les sources éditées ne représentent, quelle que soit l’époque, qu’une infime fraction des documents écrits à la main. Avoir un accès direct aux sources manuscrites — une fois celles-ci numérisées — représente donc une avancée majeure. C’est précisément à cette fin que l’initiative de programmation conjointe (JPI) Cultural Heritage and Global Change « Cultural Heritage : a challenge for Europe » a financé le projet de recherche européen HIMANIS (HIstorical MANuscript Indexing for user-controlled Search) de novembre 2015 à avril 2018. Autour de l’IRHT, un consortium transdisciplinaire a été mis en place associant les sciences de l’ingénieur, avec la Rijksuniversiteit Groningen (Pays-Bas), l’Universitat Politècnica de València (Espagne) et l’entreprise innovante A2iA (France), ainsi que deux institutions patrimoniales majeures, la Bibliothèque nationale de France et les Archives nationales.

Ce consortium a permis une avancée capitale en ouvrant un verrou technologique majeur : 199 registres du Trésor des chartes et formulaires associés, soit 80 000 pages écrites à la chancellerie royale française aux xive et xve siècles, deviennent accessibles aux chercheurs pour une recherche par mot-clef, alors que l’écriture présente d’importantes difficultés de lecture (même pour des historiens formés aux écritures anciennes), notamment en raison de l’emploi de nombreuses abréviations en latin et en moyen français.

Or, la numérisation des sources médiévales est une opération plus rapide que l’édition des textes. Dans les grandes biblio thèques numériques telles que Gallica (Bibliothèque nationale de France), DVL DigiVatLib (Biblioteca Apostolica Vaticana), Manuscripta Mediaevalia, BVMM (IRHT-CNRS), on trouve déjà plus de 60 000 manuscrits complètement numérisés. Du côté des archives, Monasterium constitue de loin les plus grandes archives virtuelles du monde avec plus de 812 000 images pour 612 800 documents. Plus rien ne s’oppose désormais à une étude massive de l’immense richesse des bibliothèques de manuscrits et documents médiévaux. Il faut néanmoins insister sur deux faits cruciaux. Le premier est que la machine « apprend », de sorte que, même si un apprentissage « non supervisé » est possible [2], il faut « l’entraîner ». Cela se fait avec des données qui ne sont pas des données simples, mais annotées. L’intelligence artificielle ne se nourrit donc pas de données, mais d’intelligence. Pour continuer à apprendre à lire, la connaissance des fonds et l’apport des historiens, linguistes, philologues, archivistes et bibliothécaires est nécessaire.

Le deuxième point à souligner est qu’une éventuelle lecture automatique n’épuise pas les questions que les chercheurs posent aux documents. C’est un préalable à l’étude. Qu’il s’agisse de l’étude de l’écriture ou de l’étude des textes, de l’histoire du document lui-même ou des faits, des personnes et lieux qui y sont mentionnés, de l’histoire des idées et de leur diffusion et réception, tous ces domaines d’enquête peuvent être aidés, mais ne sont pas abolis. Au contraire, ce sont les chercheurs qui pourront identifier les erreurs de la machine et aller plus loin dans le travail d’interprétation et de compréhension de la réalité historique.

Intelligence artificielle et fouille de données

Dans cette étude, d’autres pans des recherches en intelligence artificielle pourront à leur tour être mis en oeuvre. Si le rapport de Cédric Villani sur l’intelligence artificielle propose bien « une politique économique articulée autour de la donnée » et suggère, en particulier, de « favoriser sans attendre les pratiques de fouille de texte et de données » [3], Rapport public, Premier ministre., dans les sources des sciences humaines et sociales, il faut élargir au maximum notre conception de la donnée, allant du texte à la vidéo, en passant par le manuscrit médiéval numérisé et le tweet. Tout peut être considéré comme « donnée », susceptible de nouvelles analyses. Les réalisations sont déjà trop nombreuses pour les lister toutes.

La fouille de texte est assurément l’un des champs les plus vivaces à l’heure actuelle. On peut distinguer plusieurs directions, telles que l’identification des reprises textuelles, la classification des textes par auteur, par domaine de savoir, par genre ou par sentiment exprimé. Si ces défis, avec la linguistique computationnelle, sont à l’origine même des humanités numériques, l’on peut largement y répondre sans intelligence artificielle, avec des statistiques descriptives. C’est par exemple le cas dans le repérage de suites de mots pour repérer des plagiats, des réseaux de citations, de textes journalistiques ou l’emploi de lieux communs [4], ou dans l’analyse des mots les plus fréquents largement utilisée dans l’attribution de textes anonymes à des auteurs [5]. Pourtant, dans ces tâches de classification, l’apprentissage automatique a été proposé dès les années 1960, puis développé dans les années 1990, et a montré son efficacité, par exemple avec les « Machines à vecteur de support » (ou SVM Support Vector Machine), dont l’idée clef est de trouver un espace de représentation où il est possible de maximiser la distance entre une frontière linéaire que l’on cherche à tracer entre deux ensembles et la position des échantillons de ces ensembles.

Aujourd’hui, l’intelligence artificielle est souvent mise en œuvre pour approfondir et enrichir la description et l’analyse de textes : une méthode désormais courante est d’utiliser les « plongements de mots » (word embeddings), c’est-à-dire une représentation abstraite, par une suite de nombres, du sens des mots selon leur contexte. Cette représentation permet de visualiser les proximités d’emploi entre des mots différents tout en tenant compte de leur fréquence d’apparition. Aussi est-elle adaptée tant pour la lemmatisation (identification de la racine des mots) [6] que pour la reconnaissance des entités nommées (identifier les mots qui désignent des personnes ou des lieux et qui ne sont pas toujours recensés dans les dictionnaires de langue) et pour les tâches de classification déjà mentionnées (reconnaissance d’auteur, de genre ou de sentiments). Ces dernières techniques, d’abord développées dans le domaine commercial pour l’analyse de la réputation sur internet, sont désormais utiles pour mettre en évidence des schémas narratifs récurrents dans les journaux ou la littérature romanesque [7].

Le même type d’analyses peut également s’appliquer aux images pour aider à comprendre la production d’un photographe, repérer des doublons dans des collections ou la reprise de motifs iconographiques en peinture [8]. Un champ d’étude ouvert assez récemment est l’analyse des images de presse, par exemple pour identifier le sujet (logo, visages, foule, bâtiments, paysage), la technique (dessin au trait, photographie) et la fonction (publicité, illustration, commentaire humoristique). De même, l’incroyable capacité de la machine à analyser les images permet de travailler sur les sources audiovisuelles et d’extraire d’un film des informations diverses, telles que la transcription de la parole, les scènes et leur durée, la qualité de l’éclairage et les couleurs dominantes, le nombre de personnages et le type de cadrage ou encore les objets présents dans le champ. On peut aussi aller plus loin : il est ainsi possible d’extraire des thématiques (scène romantique, d’intérieur, de combat, etc.), de reconnaître les sentiments exprimés par les acteurs (rire, joie, colère, tristesse) ou d’inférer des informations qui ne sont pas sur l’écran. Évidemment, il n’y a pas de sources audiovisuelles pour l’historien du Moyen Âge, mais l’analyse d’image par intelligence artificielle n’est pas à ignorer : recherche iconographique et compréhension des rapports texte-image peuvent bénéficier de l’intelligence artificielle, de même que l’analyse d’image appliquée aux écritures elles-mêmes. Dans des compétitions informatiques organisées par l’IRHT, des intelligences artificielles ont réussi à distinguer différentes classes d’écriture et à dater les manuscrits d’après leur seule écriture [9]. La machine peut également distinguer différents scribes [10]. Pour ces diverses tâches d’expertise des écritures, nous avons proposé le concept de « paléographie artificielle » [11].

Artificial Humanities : des « Humanités artificielles » ou des « Humanités de l’artificiel » ?

L’IRHT porte de nouveaux projets de recherche où l’intelligence artificielle constitue un élément clef pour l’étude des sources médiévales. Le premier est le projet européen HOME (History of Medieval Europe), financé, comme le projet HIMANIS, par la même JPI Cultural Heritage. Ce projet HOME est piloté par l’IRHT, en partenariat avec l’Universitat Politècnica de València (Espagne), les entreprises A2iA (France) et Teklia (France) et les Archives nationales de la République tchèque. Ici, la reconnaissance d’écriture manuscrite est associée aux technologies d’intelligence artificielle, non seulement pour la lecture automatisée d’immenses volumes de sources médiévales (plus de 2000 cartulaires), mais aussi pour la fouille de données textuelles : reconnaissance des personnes et des lieux, classement par genre et objet juridique, désambiguïsation et distinction des lieux et personnes homonymes, géolocalisation, etc.

Un second projet, HORAE (Hours, Recognition, Editions), réunira, avec l’IRHT, la société innovante Teklia (France) et le Laboratoire des Sciences du Numérique de Nantes (LS2N, UMR6004, CNRS / Université de Nantes / École Centrale de Nantes / Institut Mines Telecom Atlantique). Les partenaires utiliseront l’intelligence artificielle pour l’analyse combinée des images et des textes dans les livres d’heures manuscrits du Moyen Âge et de la Renaissance.

L’IRHT est également partenaire fondateur du projet européen Time Machine FET Flagship, en cours de formulation, d’une envergure inégalée : l’enjeu est de permettre la numérisation massive des sources historiques (manuscrits, imprimés, registres, cartes, etc.) et leur étude assistée par l’intelligence artificielle, tant dans la lecture que dans l’analyse. Si ce projet est financé, les machines contribueront activement à l’aide à la décision du futur, en permettant de comparer les données du passé et les données actuelles. Un grand défi reste à relever : l’intelligence artificielle apprend majoritairement à partir de données déjà annotées et produit un résultat qui est « intelligent », mais non foncièrement « original », et dont les mécanismes nous échappent très largement.

Elle est donc susceptible de reproduire tous les biais des sources, ce qui explique les articles de presse se faisant l’écho d’intelligences artificielles « psychopathes » ou « racistes », car entraînées à produire de telles assertions. Les chercheurs en sciences humaines et sociales doivent donc apprendre non tant la programmation que la pensée computationnelle, pour identifier où l’application de l’intelligence artificielle est pertinente, ce qu’elle peut nous dire et comment déconstruire ou utiliser ses résultats. À partir de là, il y a donc un double champ de recherche pour les SHS : d’une part, l’implémentation de l’intelligence artificielle pour l’ouverture de nouvelles questions dans les champs déjà constitués des SHS ; d’autre part, l’étude de la mise en œuvre de ces processus dans la société, et notamment dans la Communauté scientifique, couvrant les questions d’éthique et de décision « artificielle ».


Contact & Info

Dominique Stutzmann, IRHT : d.stutzmann@irht.cnrs.fr

Le CNRS Annuaires Mots-Clefs CNRS Autres sites Imprimer Contact Credits Plan du site