L’IA au service de la documentation des collections : quels objectifs, quels enjeux opérationnels ?
Jeudi 26 mars 2026 | 10:30 - Salle de conférences Delorme - Carrousel du Louvre
Le Louvre et TEKLIA proposent un temps d’échange autour des apports de l’intelligence artificielle dans le traitement et l’exploitation de la documentation sur les collections en s’appuyant sur un cas d’application concret. En 2025, la mise en œuvre d’un projet d’extraction de données de documents du département des Arts de l’Islam est l’occasion pour le Louvre d’expérimenter l’utilisation de l’intelligence artificielle sur ses corpus documentaires : au-delà des objectifs stricts du projet, c’est une démarche plus exploratoire qui est testée. Quelles sont les étapes d’un tel projet, quel est le rôle de l'expertise métier ? Quels sont les défis organisationnels et techniques ? Retours sur un projet et ouverture prospective avec les opportunités offertes par la création du pôle Innovation numérique au sein du musée.
Intervenants :
Eleonora Moiraghi, Cheffe du pôle Innovation numérique - Musée du Louvre
Sybille Clochet, Cheffe du service de l’Ingénierie Documentaire, des Images et de la Traduction - Musée du Louvre
Nicolas Texier, Chef du Service études et documentation, département des arts de l’Islam - Musée du Louvre
Christopher Kermorvant, Fondateur et président - TEKLIA
Modération : Clémence Fontaine, Responsable du développement - TEKLIA
Transcription de la vidéo
Introduction
Merci beaucoup de d'être venu à cet atelier consacré à l'application de l'intelligence artificielle à la documentation des collections au musée du Louvre. On va parler des objectifs concrets, des enjeux opérationnels et des premiers retours d'expérience sur l'IA appliqué à des corpus documentaire.
L'atelier est centré sur un projet mené entre août et novembre 2025 et qui continue dans le temps au musée du Louvre. Grâce à un mécénat dédié, le département des arts de l'Islam a mobilisé l'intelligence artificielle pour exploiter un ensemble documentaire de catalogue de vente aux enchères et en tirer une base de données exploitable.
Donc dans ces catalogues, chaque lot est décrit avec du texte, des images, des codes, souvent dans des formats très différents. Le défi était donc d'automatiser l'extraction de ces informations malgré ce corpus hétérogène rassemblant des publications sur 30 ans, issues de 13 maisons de vente différentes. En 4 mois, l'équipe de TEKLIA a extrait et traité de 22500 pages issues de 250 catalogues.
Et grâce au retour d'expérience de ce projet, nous pouvons évaluer les apports de l'IA, ses conditions de mise en œuvre et puis surtout les expertises qu'elle mobilise du côté des équipes de documentation. Donc nous proposerons aussi une ouverture sur les applications transversales de l'IA telles qu'elles sont imaginées aujourd'hui par le pôle d'innovation numérique du musée du Louvre, représenté par Éléonora Moiraghi.
Retour d’expérience
Je vais poser des questions en premier à Sybille Clochet et Nicolas Texier qui ont piloté le projet d'extraction d'information au département des arts de l'Islam. Alors, quels étaient les enjeux, les besoins identifiés, la nature des collections et vos attentes par rapport à ce projet ?
Nicolas Texier, Chef du service études et documentation
Alors, bonjour à toutes et tous.
Donc il s'agissait au départ d'utiliser une ressource documentaire qui est présente à peu près dans tous les départements de conservation : ces fameux catalogues de vente.
Il faut voir qu’il y a une proportion assez infime des œuvres que l'on peut voir dans les musées, et que l'essentiel tourne dans le marché de l'art, dans les collections privées. C'est même parfois utilisé comme des produits financiers.
Donc nous, dans les départements, ça fait très longtemps — nos plus anciens catalogues datent de la fin du XIXe siècle — qu'on se rend compte qu'il y a là tout un ensemble d'informations qu'il est utile de pouvoir utiliser dans le cadre de plusieurs applications.
Je pense en particulier à la recherche de provenance pour connaître le curriculum d'une œuvre avant qu'elle arrive, quand on la voit en vente.
Pour constituer des corpus de recherche aussi. Typiquement, si on veut étudier un type de matériel, d'objet, d'œuvre, sur une période donnée, cela permet de réunir tout un ensemble de corpus qui ne sont pas présents dans les collections publiques.
Et puis naturellement, il y a aussi le volet acquisition pour estimer le marché de l'art, ses tendances, la valeur d'une œuvre a priori si on souhaite acquérir quelque chose de similaire. Donc voilà, il y a un ensemble de choses utiles.
En l'occurrence, la collection du département des Arts de l'Islam est assez ciblée, essentiellement sur des arts d'art oriental. Dans toutes ses extensions : cela peut concerner la Mésopotamie, l'art moghol, parfois jusqu'à la Chine selon les catalogues.
Mais on a une collection qui n'est pas énorme : environ 1 800 catalogues, disons à peu près 2 000 aujourd'hui. Cela croît naturellement chaque année.
Si vous allez au département des Peintures, typiquement, ce sont des collections énormes et assez anciennes, parce qu’il y a un marché de l'art constitué dès le XVIIIe siècle, avec des publications décrivant des œuvres — avec plus ou moins de précision.
C'est pour cela que l’hétérogénéité des sources était importante.
Là, on a fait le choix de commencer par les périodes les plus récentes, de manière à ce que cela soit illustré, parce qu’évidemment une image est toujours très importante pour la documentation des œuvres, et que cela soit relativement complet quant à la description.
Plus vous remontez dans le temps, moins vous avez d'images et plus les informations sont lapidaires.
À partir des années 50-60 ou avant, parfois c'est juste décrit comme ça, sans photographie. Si vous dites "un vase moghol", il ne va pas se distinguer. Vous ne saurez pas de quel vase on parle. Éventuellement, vous avez juste les dimensions, mais cela reste limité. Quoi qu'il en soit, cela représente un stock d'informations important.
Jusqu'ici, la manière de les consulter et de les exploiter était à l’unité documentaire près, c'est-à-dire au catalogue : il fallait les feuilleter un par un. Il nous est arrivé de le faire de manière urgente, notamment dans la perspective de ventes. Et une fois sur deux, on rate l'information.Feuilleter 2 000 catalogues pour repérer quelques lignes, ce n'est pas très pratique.
Donc l'idée était de pouvoir utiliser toutes ces données et les mettre à disposition sur une base de données : sortir de l’unité documentaire que représente le catalogue pour permettre une recherche transversale sur l'ensemble des notices.
Pour cela, il fallait déterminer tout ce qui était nécessaire à recueillir comme information et ce qui était significatif pour notre discipline.
On parlait du mécénat tout à l'heure. C'est un mécénat dédié à la valorisation de l'art iranien en l'occurrence.
Naturellement, dans ces cas-là, je ne pouvais pas faire du "picking" dans les catalogues, même s'ils contiennent des œuvres japonaises ou chinoises. L'idée était d'exploiter l'ensemble et de le mettre à disposition de nos collègues, dans une application interne.
Et je terminerai en disant que nous avons pu mener cette opération parce qu’il y avait un mécénat, ce qui facilite les choses, et parce que c'était une expérimentation : voir si cela fonctionne, quels résultats cela présente, et si cela peut être reproduit dans d'autres départements voire à l'échelle du musée.
Merci beaucoup.
On va continuer avec le travail qui a été mené par les équipes en interne et les contraintes en temps humain.
Quelles expertises métiers ont été mobilisées ? Est-ce que vous pouvez nous en parler ?
Sybille Clochet, Cheffe du service de l'ingénierie documentaire
Donc ce que vous a expliqué Nicolas, on l’a ensuite découpé.
On a identifié un process. La partie scientifique est du côté du département de Nicolas.Nous, on est le service d’ingénierie documentaire, des images et de la traduction — mais là c’est plutôt l’ingénierie documentaire qui a été convoquée. On a découpé le projet en process.
Déjà, il nous fallait des données numériques : donc des catalogues dans un format numérique. Ensuite, il fallait automatiser l’extraction de données. C’était fondamental : on n’allait pas le faire manuellement.
Là il y a 250 catalogues pour l’expérimentation, mais comme vous l’a dit Nicolas, cela peut concerner tous les départements, donc des millions de pages. Il fallait donc automatiser cette extraction.
Ensuite, on avait besoin d’enrichir ces données. C’est-à-dire qu’on les extrait, mais on ne veut pas les extraire n’importe comment. On ne veut pas tout extraire. On veut aligner ces données, les enrichir et les trier. Il fallait aussi automatiser cette partie.
Ensuite, il nous fallait un outil de diffusion : une interface pour interroger ces données. Une fois que nous avons fait ce listing de process, on s’est dit : quels outils aligner en face ?
Pour la numérisation des catalogues, on a un marché de numérisation documentaire au musée. On opère dans le cadre d’un accord-cadre de numérisation documentaire.
Pour l’extraction des données, c’est là que l’intelligence artificielle est mobilisée. Tout de suite, on s’est dit : il nous faut un outil d’intelligence artificielle. Pourquoi ?
Parce qu’il y a une problématique particulière dans les catalogues de vente qui peut différer d’une simple technique d’OCR ou d’HTR.
Dans les catalogues, on a besoin de réconcilier des images et du texte. On a des images qui illustrent des lots d’objets, mais les notices sont séparées des images.Donc on a besoin de réconcilier les deux.
Pour l’enrichissement des données, on parle des vocabulaires ou référentiels qu’on utilise au musée du Louvre pour décrire nos objets. Il fallait donc aligner les informations récupérées avec ces référentiels.
Enfin, l’interface d’interrogation : Nous avons un portail d’accès aux données de la recherche qui s’appelle corpus.louvre.fr, qui fonctionne sur Omeka S. C’est un portail à usage externe pour les chercheurs, mais on peut rendre privé une partie des sites.
Comme ici il s’agit d’un outil à usage interne, c’est le choix que nous avons fait. C’est aussi pour cela que nous nous sommes servis de nos référentiels et des vocabulaires utilisés dans Omeka.
On a parlé de la complexité des documents sources, de la complexité du format de sortie. Christopher, est-ce que tu peux nous raconter comment ça s'est mis en place chez TEKLIA ?
Christopher Kermorvant, CEO de TEKLIA
Une des spécificités du projet, comme l’a dit Sybille, c’est qu’il combine à la fois de l’analyse visuelle, donc plutôt des modèles de vision par ordinateur, et de la compréhension de texte.
Avec les modèles actuels, on dispose d’une palette assez large de solutions possibles. On peut aller de modèles très spécifiques, entraînés sur mesure pour un projet donné, jusqu’à des modèles complètement généralistes, dans lesquels on envoie une page et on demande directement d’extraire des informations, par exemple pour les structurer dans un tableau.
Le problème avec les modèles très généralistes, c’est qu’on n’a pas vraiment de contrôle. On ne peut pas garantir que l’intégralité d’une page a été traitée, ni vérifier que chaque image a bien été mise en relation avec le texte correspondant. C’est la raison pour laquelle cette approche n’a pas été retenue.
L’approche choisie a consisté à découper le problème en plusieurs sous-problèmes successifs. Il y a d’abord la localisation des images, ensuite la reconnaissance du texte, puis la mise en relation entre le texte et les images, et enfin une étape de formatage et de normalisation des données.
Ce découpage permet d’introduire des contrôles qualité à chaque étape. On peut ainsi vérifier si les images ont été correctement détectées, s’il n’y a pas d’objets tronqués, ce qui arrive notamment avec des objets très allongés ou dans des domaines comme la numismatique, où les formes sont très spécifiques et posent des difficultés aux algorithmes d’extraction.
De la même manière, on peut contrôler la cohérence entre les images et les notices. On peut vérifier si chaque photographie est associée à une notice, et inversement, et identifier les cas où ce n’est pas le cas.
Sur la partie de normalisation, on obtient ensuite un format tabulaire qui peut être vérifié en masse. Cela prend la forme d’un fichier structuré, par exemple un fichier Excel, dans lequel on retrouve les différentes colonnes comme les prix, les tailles ou les provenances. Cela permet de vérifier rapidement si les données sont cohérentes, parfois même de façon automatique, par exemple lorsqu’une valeur textuelle apparaît dans un champ censé être numérique.
L’idée générale est qu’il faut trouver un bon compromis. Aujourd’hui, les outils d’intelligence artificielle sont très puissants et donnent parfois l’impression qu’on peut leur confier l’ensemble d’un traitement de manière totalement automatique. Ce n’est pas le cas dans les projets réels.
On reste dans des approches où le contrôle qualité, la structuration du traitement et la décomposition en étapes successives sont essentiels. Il s’agit de choisir les bons outils aux bons endroits afin de réduire les coûts et d’optimiser le traitement, tout en gardant une maîtrise sur la qualité des résultats.
Contraintes de mise en œuvre et conseils
On va passer au thème suivant et discuter des contraintes de mise en œuvre et des conseils aux institutions qui aimeraient se lancer.
Côté Louvre, quels ont été les points centraux de prise de décision par rapport à ce projet ? Par exemple, la modalité de mise en œuvre en termes d’état d’esprit des équipes, de méthodologie de travail et de validation côté direction. Si vous pouvez nous préciser ces aspects organisationnels.
Sybille Clochet
Sur l’aspect organisationnel, il y a plusieurs étapes dans ce projet. Il y a d’abord une étape côté département, portée par Nicolas, qui est l’étape administrative et juridique. Elle a été grandement portée par Nicolas, un peu par nous aussi, mais tout part de la demande de financement. C’est la condition sine qua non : nous n’aurions pas fait ce projet sans financement.
Dans cette étape, il y a l’étude du secteur économique, du marché fournisseur existant. Nous étions sur une petite prestation, un projet exploratoire avec un financement limité. Nous n’avons donc pas lancé un sourcing très large de solutions, mais nous avons tout de même étudié les possibilités pour évaluer la faisabilité du projet et estimer les coûts, car il n’y avait pas seulement des coûts de prestation technique à couvrir.
Ensuite, il y a eu la phase de passation de l’achat public et l’identification des ressources nécessaires, en interne et en externe. Cette phase administrative et juridique est initiée par la partie scientifique, puis nous intervenons en support, car les prestations sont généralement portées par la direction du soutien aux collections.
Puis vient la partie conception. Là encore, le projet implique les deux directions, scientifique et technique, ainsi que la direction du soutien opérationnel. Nous n’avons jamais séparé nos activités. Selon l’étape, l’un ou l’autre prend le pilotage.
Dans la phase de conception, cela démarre du côté scientifique, avec la sélection et la description du corpus. Il faut déterminer quelles données seront utiles et ce que l’on pourra en faire. Ensuite, il faut traduire le besoin en différents processus et les associer aux outils.
Puis il y a le pilotage de la prestation technique, porté conjointement par les deux parties. Cela comprend la préparation des livrables, les réunions de compréhension du besoin, la validation des choix méthodologiques. Nous avons testé des solutions, ajusté, procédé à des validations intermédiaires et finales.
Nous n’étions pas seuls avec Nicolas, puisque nous avons recruté un stagiaire pendant six mois. C’était aussi une condition du financement. Il nous a accompagnés en amont, pendant le pilotage de la prestation et en aval. Cela demande du temps, car il faut encadrer, former, participer à la soutenance. C’est un échange, mais cela suppose un investissement important.
Il y a ensuite toute la phase de communication interne. Le projet ayant une dimension exploratoire, il faut en tirer des conclusions. Se pose la question de l’extension à d’autres départements. Nous avons donc communiqué en interne et également été sollicités en externe pour des présentations comme celle-ci.
Il nous reste encore une étape essentielle : formaliser le retour d’expérience afin de permettre à la direction générale de prendre une décision claire. Continue-t-on ou non, et si oui, à quelles conditions ?
Nicolas, sur la partie scientifique ?
Nicolas Texier
Effectivement, nous avons fonctionné en binôme. Il est difficile d’avancer uniquement sur l’administratif ou uniquement sur le scientifique, les deux se combinent. L’enjeu interne était de convaincre de l’intérêt du projet pour les collègues, mais cela n’a pas été très difficile. L’intelligence artificielle est désormais un sujet largement partagé.
J’ai constaté que certains collègues utilisaient déjà l’IA de manière ponctuelle dans leurs activités scientifiques, notamment des outils génératifs. Pour l’extraction de données sur des corpus volumineux, l’intérêt est évident. Il peut y avoir des questions déontologiques sur d’autres usages, mais ici il s’agissait simplement de changer de support pour exploiter des données auparavant consultables uniquement sous forme papier.
Christopher, comment identifie-t-on un projet pertinent et comment calcule-t-on les coûts, le calendrier et les livrables ?
Christopher Kermorvant
C’est une question importante. Il y a un intérêt réel à utiliser l’automatisation lorsque le corpus est volumineux, car il existe des coûts fixes de mise en place et de gestion de projet. Plus le volume est important, plus la machine permet un gain de temps.
J’ai l’habitude de dire que la machine s’occupe du volume et l’humain de la complexité. Si vous avez un projet complexe avec peu de volume, ce n’est pas idéal. Si vous avez un projet simple avec beaucoup de volume, c’est pertinent. La plupart des projets sont intermédiaires.
Nous utilisons une métrique de complexité qui repose sur quatre facteurs. Le premier est le nombre d’institutions impliquées. Ici, il n’y en avait qu’une. Sur d’autres projets, comme le traitement des recensements français, nous avons travaillé avec plus de cent services d’archives, ce qui augmente fortement la complexité humaine.
Le deuxième facteur est le nombre de types de documents à traiter. Dans ce projet, il y en avait treize. Le troisième facteur est le nombre de traitements spécifiques à mettre en place. Ici, il y en avait quatre. Enfin, il y a le facteur contrôle qualité, qui peut aller d’une simple validation visuelle à des reprises manuelles d’erreurs.
Dans ce cas, la complexité était modérée. À titre de comparaison, le projet des recensements sur cent ans atteignait un coefficient beaucoup plus élevé.
Il existe un lien entre ce coefficient de complexité et le prix. La complexité correspond au temps humain. Multiplier par dix le nombre de documents ne multiplie pas nécessairement le prix par dix. Le traitement automatique devient relativement peu coûteux, mais le contrôle qualité et la gestion de projet restent incompressibles.
Lorsque les modèles génératifs sont apparus, nous pensions que nos projets iraient beaucoup plus vite. En réalité, la complexité organisationnelle demeure.
Opportunités transversales
Éléonora Moiraghi, responsable du pôle d’innovation numérique créé en 2025, peut témoigner de l’engagement du musée dans des projets expérimentaux. Pouvez-vous nous parler des opportunités d’intégration de l’IA au Louvre et des besoins identifiés de manière transverse ?
Éléonora Moiraghi, Cheffe du pôle Innovation numérique
Oui, bonjour à toutes et à tous.
Le pôle d’innovation numérique est très récent. Il a été créé en 2025 et j’ai pris mes fonctions en novembre 2025. Je vais prendre un peu de hauteur par rapport au projet présenté.
Le pôle a vocation à accompagner l’ensemble du musée dans l’innovation numérique. Les systèmes d’IA pourraient théoriquement s’appliquer à tous les métiers, mais nous ne le ferons pas de manière indiscriminée.
Dans le champ documentaire, trois axes principaux se dégagent. Le premier concerne le traitement et l’extraction de données textuelles à partir de documents multimodaux ou textuels. Ce sont des techniques déjà éprouvées dans certaines institutions, mais qu’il faut intégrer aux processus métier.
Le deuxième axe concerne l’analyse d’image et les corpus massifs d’images. Le Louvre, comme d’autres institutions patrimoniales, a intérêt à expérimenter la reconnaissance de formes et l’analyse iconographique. La vision par ordinateur peut aider à explorer et découvrir des motifs visuels.
Le troisième axe porte sur la détection et la mise en lien de données externes. Les catalogues de vente sont des données conservées au Louvre, mais il existe des informations disponibles à l’extérieur, notamment sur le web ou dans le marché de l’art, qui pourraient éclairer nos collections. Cela pose toutefois des questions juridiques et éthiques.
Du point de vue des enjeux, l’intégration de ces données dans le système d’information est un défi majeur. Une expérimentation peut fonctionner de manière isolée, mais il faut ensuite l’intégrer durablement dans les outils du musée. C’est un enjeu systémique.
Questions du public
Une question est posée sur le mécénat et les contreparties éventuelles liées aux données produites.
Il est précisé que, dans ce cas précis, la seule contrepartie contractuelle est la mention du soutien du mécène. Il n’y a pas de regard particulier sur les données ni de partage. Les mécènes recherchent surtout de la visibilité. Des enjeux de propriété intellectuelle et de déontologie scientifique seraient de toute façon examinés avec vigilance.
Une question porte sur la durée du projet et l’évolution rapide de l’IA.
Il est expliqué que le traitement technique a duré environ quatre mois, mais que le projet global est plus long, car il inclut la demande de financement, la préparation, l’intégration des données dans la plateforme et le retour d’expérience. Sur des projets courts, l’évolution technologique pose peu de risque. Sur des projets longs, il faut assurer une veille permanente et tester régulièrement les modèles.
Une question porte sur l’existence d’une doctrine interne d’usage de l’IA.
Il est répondu qu’il n’existe pas encore de stratégie formalisée, mais qu’une réflexion est en cours. Une expérimentation d’assistant conversationnel, développé par la direction interministérielle du numérique via le ministère de la Culture, est en cours auprès d’un nombre limité d’agents. Les questions de sécurité, d’impact environnemental et d’usage pertinent sont prises en compte.
Une question concerne l’intégration de données externes.
Il est précisé qu’il s’agirait principalement de détecter des informations disponibles en ligne susceptibles d’éclairer les collections, tout en restant attentif aux enjeux juridiques.
Une question porte sur le coût.
Il est indiqué que le projet se situait en dessous du seuil formalisé des marchés publics. Pour TEKLIA, un projet de ce type se situe généralement entre 10 000 et 30 000 euros, tandis que des projets massifs peuvent atteindre 200 000 euros. Le coût total inclut la prestation technique, la gratification des stagiaires et la numérisation.
Enfin, une question concerne l’extraction à partir de manuscrits.
Il est répondu que les modèles spécifiques entraînés sur des fonds homogènes donnent de bons résultats, avec des taux d’erreur variant généralement entre 3 % et 15 %, selon la complexité.
La séance se conclut par des remerciements et une invitation à poursuivre les échanges sur le stand de TEKLIA.