Conférence internationale de l'UNESCO : "le rôle de l'intelligence artificielle dans les musées"
Le projet HikarIA a bénéficié d'un rayonnement international lors du symposium organisé par l'UNESCO dans le cadre de sa 43e Conférence générale à Samarcande, en Ouzbékistan, le 1er novembre 2025.
Notre partenaire et porteur du projet au Musée Guimet, Edouard de Saint-Ours, a expliqué l'ambition de la plateforme dans le cadre d'une conférence diffusée en live.
Rediffusion de la conférence en français.
Transcription de la vidéo
Nous allons maintenant donner la parole à Monsieur Édouard de Saint-Ours.
Édouard, vous êtes spécialiste de la photographie asiatique du XIXᵉ siècle. Vous êtes conservateur des collections photographiques au musée Guimet depuis octobre 2023. Vous y dirigez des projets de conservation, d’acquisition, de recherche et d’exposition autour des vastes collections photographiques du musée, qui comptent environ 600 000 pièces.
Parmi ces projets figure HikarIA, lancé en 2023 en partenariat avec l’entreprise française Teklia, et qui vise à développer de nouveaux outils numériques et d’intelligence artificielle afin d’améliorer l’accessibilité des collections du musée.
Pouvez-vous nous présenter ce projet, s’il vous plaît ?
Intervention d’Édouard de Saint-Ours
Merci beaucoup, Benjamin, pour cette introduction.
Merci également à vous toutes et tous d’être présents aujourd’hui, et merci aux organisateurs pour l’accueil formidable que nous avons reçu ici, en Ouzbékistan, au nom du musée Guimet.
Je pilote en effet, pour le musée Guimet et en partenariat avec une société française spécialisée dans le développement d’applications de vision par ordinateur, un projet qui s’appelle HikarIA.
Pour lever un peu le voile sur l’origine de ce nom, HikarIA est un mot-valise formé à partir de hikari, qui signifie « lumière » en japonais, et de IA, l’abréviation française d’« intelligence artificielle ».
Très simplement, ce projet vise à assister, accélérer et améliorer la gestion des collections photographiques, leur accessibilité et leur étude historique, et en particulier celle de notre collection exceptionnelle de photographies anciennes du Japon.
Cette collection comprend environ 20 000 photographies, couvrant une période allant du milieu du XIXᵉ siècle aux années 1920.
Les objectifs du projet HikarIA sont principalement de préserver, étudier, diffuser et valoriser les collections photographiques du musée Guimet. Nous souhaitons également développer de nouveaux outils numériques au service de la recherche en histoire de la photographie grâce à l’intelligence artificielle, et en particulier à la vision par ordinateur.
Un troisième objectif, et non des moindres, est d’enrichir les connaissances actuelles sur les débuts de la photographie au Japon durant les périodes Bakumatsu, Meiji et Taishō, qui s’étendent approximativement de 1850 à 1930.
Le projet HikarIA, lancé en 2023, bénéficie d’un soutien financier partiel de l’État français dans le cadre du plan d’investissement France 2030.
Ce projet est né à partir d’une collection acquise par le musée Guimet entre 2007 et 2009, auprès d’un collectionneur privé, le docteur Joseph Dubois, passionné par le Japon du XIXᵉ siècle. Le docteur Dubois a eu la chance de réunir des pièces tout à fait exceptionnelles, parmi lesquelles figurent de véritables incunables de la photographie japonaise.
Je vais vous en donner quelques exemples afin de vous permettre de mieux visualiser ce corpus. Nous conservons notamment des photographies d’Apollinaire Le Bas, qui participa à la campagne de Shimonoseki en 1864 et documenta les environs de la région à cette époque.
Nous possédons également des images issues de missions diplomatiques, parmi lesquelles le portrait du dernier shogun, Tokugawa Yoshinobu, réalisé en 1867 par Frederick Sutton.
La collection comprend aussi des exemples majeurs des premiers studios photographiques établis au Japon, notamment ceux fondés à Yokohama par des Européens. On peut citer Felice Beato, photographe de guerre à l’origine, qui s’implanta à Yokohama pour y créer son propre studio, ainsi que Raimund von Stillfried-Ratenicz, souvent considéré comme son alter ego austro-hongrois.
On trouve bien sûr dans la collection des œuvres de grands photographes japonais des premières décennies, tels qu’Ichida Sōta, actif à Kobe, qui réalisa notamment un panorama remarquable du port de la ville au début des années 1870.
Un autre exemple est Shin’ichi Suzuki, connu pour le luxe de ses albums, dont les tirages, mais aussi les pages elles-mêmes, étaient enluminés à la main par des artistes.
La collection est extrêmement variée et comprend différents types d’objets photographiques, mais essentiellement des albums. Elle compte plus de 280 albums photographiques, parmi lesquels, depuis 2007, seuls 40 avaient été restaurés. Lorsque je dis « seulement », c’est bien entendu à relativiser, car restaurer 40 albums représente déjà un travail considérable, mais il en restait encore 240 à traiter.
Le projet HikarIA a donc débuté par une vaste campagne de restauration de l’intégralité de la collection, rendue possible grâce au financement de la Caisse des Dépôts. Cette restauration a été menée par Annabelle Simon, restauratrice spécialisée dans les albums anciens et la photographie japonaise.
Cette campagne, achevée au début de l’été, s’est poursuivie par une numérisation intégrale en haute définition, réalisée par la société Arkhénum, partenaire du musée Guimet sur ce projet. Cette étape était un préalable indispensable, car sans images numériques, il aurait été impossible de mobiliser l’intelligence artificielle.
La deuxième phase du projet, engagée dès les premiers mois, est une phase de développement technologique, menée par Teklia. Elle a consisté non pas à créer un nouveau modèle d’IA ou à entraîner un modèle existant, mais à identifier des modèles open source déjà disponibles et pertinents pour notre travail.
Il s’agissait d’une approche pragmatique, car nous ne disposons ni des ressources humaines ni des moyens financiers nécessaires pour repartir de zéro. D’autant plus que le développement de l’intelligence artificielle progresse aujourd’hui à une vitesse extrêmement rapide, offrant la possibilité de tester de nombreux modèles régulièrement mis à jour. L’existence d’une forte culture de l’open source dans le domaine de l’IA nous a permis de tirer pleinement parti de ces outils.
Après avoir identifié les modèles les plus adaptés à nos objectifs, nous avons commencé à les exploiter. Je vais maintenant vous présenter plus précisément les outils que nous utilisons.
La troisième et dernière phase du projet, actuellement en cours, est une phase de recherche. Nous développons des outils destinés à la recherche et à l’accessibilité des collections, sous la forme d’une plateforme en ligne et d’une base de données librement accessibles, donnant accès à l’ensemble du corpus et à toutes les données disponibles.
Il s’agit également d’un véritable projet de recherche. Le musée Guimet a la chance d’accueillir des spécialistes, notamment Saki Toriumi, historienne de la photographie japonaise, enseignante à l’université Nihon de Tokyo. Elle nous aide à affiner nos outils et à les utiliser de manière critique afin d’identifier empiriquement les biais des modèles, leurs apports réels, ainsi que leurs limites. Une fois l’enthousiasme initial passé, il est essentiel de rester pragmatique.
Je n’ai malheureusement pas beaucoup de temps. Voilà pour une présentation générale du projet HikarIA. Je souhaiterais maintenant évoquer les défis techniques auxquels nous sommes confrontés. Il existe également des défis méthodologiques, que nous pourrons aborder lors des questions si vous le souhaitez.
Sur le plan technique, il existe différentes manières d’utiliser l’intelligence artificielle pour l’étude des photographies historiques. Nous avons identifié environ sept grands axes. Deux d’entre eux ont été rapidement mis de côté, car ils relevaient d’autres phases du projet, notamment la restauration et la valorisation, qui constituent le travail du musée Guimet au-delà du projet lui-même.
Nous nous sommes donc concentrés sur la matérialité des objets, le contenu des images et la relation entre le tirage photographique et l’album.
Un premier outil permet de corriger automatiquement l’orientation d’une image lorsqu’elle a été numérisée à l’envers. C’est un outil très simple, mais sur un corpus de 20 000 images, il s’avère particulièrement précieux.
Le deuxième aspect, absolument central dans le projet, concerne le contenu des images, c’est-à-dire l’iconographie. Nous utilisons un modèle capable de reconnaître la présence de personnes ou d’objets dans une photographie et de les segmenter afin de les identifier visuellement.
Nous utilisons également la géolocalisation, car une grande partie du corpus comporte des indications de lieux dans les légendes manuscrites. Teklia étant à l’origine spécialisée dans la reconnaissance de texte, notamment manuscrit, ses modèles ont été appliqués pour identifier automatiquement les lieux mentionnés dans les légendes et les reporter sur une carte.
La carte que vous voyez ici correspond à la carte réelle du projet HikarIA, montrant la concentration des images sur le territoire de l’archipel japonais. On observe très clairement que les régions du Kantō et du Kansai sont les plus représentées dans le corpus.
Passons maintenant au catalogage. Cela peut sembler assez basique, mais nous avons développé un ensemble d’outils permettant de restituer l’ensemble des informations disponibles. Pour l’indexation, nous avons notamment expérimenté l’usage du vocabulaire du Getty afin d’attribuer des descripteurs aux images.
Nous ne savons pas encore précisément comment ces données seront utilisées, d’autant plus que des tags ont déjà été créés par des chercheurs. Cela nous permet néanmoins de tester la pertinence des modèles.
Nous disposons également d’un outil de recherche de similarité par image, qui calcule une probabilité de ressemblance entre les photographies. Dans certains cas, il s’agit d’images strictement identiques, simplement colorisées différemment. Pour chaque photographie, le système propose également une liste d’images à la composition proche, ce qui est extrêmement intéressant pour l’étude iconographique et l’évolution des styles.
Nous avons aussi récemment mis en place un index thématique. Nous avons choisi de ne pas recourir à un thésaurus classique, car les thésaurus sont souvent très spécialisés et difficilement applicables à la diversité du réel photographié. Il est quasiment impossible de trouver un thésaurus exhaustif pour ce type de corpus.
Nous avons donc adopté une structure pyramidale élaborée par Corinne Jorgensen, chercheuse dans les années 2000, qui propose un système de classification des termes particulièrement robuste. Vous pouvez en voir un aperçu à l’écran, et je vous invite à consulter la plateforme pour vous en faire une meilleure idée.
En ce qui concerne la recherche historique, voici un exemple parmi d’autres de visualisation des données quantitatives. Nous avons croisé le nombre de personnes représentées dans les images avec des typologies d’images : architecture religieuse, architecture civile, paysages naturels et paysages urbains.
Ces catégories ont été définies par des chercheurs humains, tandis que le nombre de personnes présentes dans chaque photographie a été généré automatiquement par un modèle d’intelligence artificielle.
Enfin, l’accessibilité constitue un axe fondamental du projet. Nous souhaitons que l’ensemble des données soit librement accessible et réutilisable. Nous utilisons le protocole IIIF afin de permettre à d’autres institutions et projets de recherche d’exploiter les données disponibles sur notre plateforme.
Nous avons également expérimenté l’utilisation de ChatGPT pour produire des descriptions automatiques d’images. Nous n’avons pas encore arrêté précisément les modalités de son usage, mais cela pourrait s’avérer particulièrement utile pour les publics non voyants ou malvoyants, en leur offrant un accès descriptif aux photographies.
L’accessibilité linguistique est également essentielle. La plateforme est disponible en français, en anglais et en japonais. Pour traduire l’ensemble du site et les tags, nous avons utilisé le modèle SIGLIP, qui permet à la fois la recherche sémantique et la traduction. Les résultats ont été testés et corrigés en collaboration avec nos partenaires.
La plateforme est encore en version bêta, mais si vous souhaitez la tester et nous faire part de vos retours, vous êtes bien entendu les bienvenus.
Je vous remercie vivement pour votre attention.
Conclusion
Merci beaucoup, Édouard.
Lorsqu’on affirme que l’intelligence artificielle est magique et qu’il suffit d’appuyer sur un bouton pour tout résoudre, cette présentation montre très concrètement la complexité, la sophistication des outils mobilisés, ainsi que l’expertise nécessaire pour piloter de tels projets.
Merci beaucoup.
Replay of the conference in English.
Video transcription
We will now give the floor to Édouard de Saint-Ours.
Édouard, you are a curator of photography. You are a specialist in nineteenth-century Asian photography, and you have been working at the Guimet Museum as a curator since October 2023. You direct projects of conservation, acquisition, research, and exhibition related to the museum’s extensive photographic collections, which comprise around 600,000 items.
These include the HikarIA project, led in partnership with the French company Teklia, which aims to develop new digital and artificial intelligence tools to improve access to the museum’s collections.
Could you present this project to us? Thank you.
Édouard de Saint-Ours
Thank you very much, Benjamin, for that introduction, and thank you to all of you who are here with us today. I would also like to thank the organizers for the wonderful welcome extended to the Guimet Museum here in Uzbekistan.
In partnership with a French company specializing in computer vision technologies, I have been working on a project called HikarIA.
To explain the origin of the name: HikarIA is a portmanteau combining hikari, the Japanese word for “light,” and IA, the French acronym for artificial intelligence. The project aims to improve the management of photographic collections, ensure their accessibility, and facilitate deeper historical study—particularly given our exceptional collection of early Japanese photographs.
We have approximately 20,000 photographs, dating from the nineteenth century to the 1920s. The goal of the HikarIA project is to conserve, study, and disseminate knowledge about the Guimet Museum’s photographic collections. We aim to develop new digital tools that can support research into the history of photography.
The project makes use of artificial intelligence and computer vision. Another equally important objective is to research the beginnings of photography in Japan during the Bakumatsu, Meiji, and Taishō periods, which span roughly from the mid-nineteenth century to the early twentieth century. The HikarIA project has been partially funded by the French government through the France 2030 investment plan.
The project originated from a collection acquired by the museum between 2007 and 2009, originally assembled by Joseph Dubois, who was fascinated by Japan and spent more than thirty years collecting Japanese photographs from this period. Dubois was able to access truly exceptional material, and I have shown you a few examples so that you can better visualize what I am referring to.
We have, for instance, photographs by Apollinaire Le Bas, who took part in the Shimonoseki campaign in the 1860s and documented the surrounding environment at that time. We also have photographs by Frederick Sutton, who was on a diplomatic mission and had the rare opportunity to produce a portrait of the last shogun in 1867.
The collection also includes early photographic studios in Japan, notably those founded in Yokohama by Felice Beato, a former war photographer who established his own studio there. We also have works by Raimund von Stillfried-Ratenicz, often described as Beato’s Austro-Hungarian alter ego.
In addition, the collection features major Japanese photographers such as Ichida Sōta, who was based in Kobe. You can see here an extraordinary panorama of Kobe harbor. Another example is Shin’ichi Suzuki, who is well known for his luxurious albums, hand-colored by artists.
The collection is extremely diverse. It includes more than 200 photographic albums, of which only 40 have been restored so far. Restoring 40 albums required a tremendous amount of work, but we still have much to do, as the total collection includes around 200 albums. The restoration work was financed by the Caisse des Dépôts in France.
We worked with a specialist in the restoration of albums and Japanese photography. The restoration phase concluded in the summer, and we subsequently continued the project with a full digitization campaign. Another foundation has supported this digitization effort, which is essential, because without digitized images, it would be impossible to deploy artificial intelligence tools.
From the very beginning of the project, we aimed to include a technological development component. We did not want to create or train a new AI model. Instead, we sought to identify existing open-source models that could be useful for our work. This was a pragmatic approach, as we do not have the human or financial resources to start from scratch.
AI development is currently advancing at an extraordinary pace, and we were able to test a wide range of recently created models. The strong open-source culture in the field of AI gave us access to tools that we could fully take advantage of. We identified the models that were most relevant to our objectives, which I will describe in more detail shortly.
The third phase of the project, which is still ongoing, is the research phase. We have been developing tools to make the collection accessible. We have created an online platform and database that are freely accessible to everyone, allowing users to consult the entire corpus and all available data.
This is also a research project. We have been working with Saki Toriumi, a specialist in Japanese photography from a university in Japan, who has begun collaborating with us. Her work helps us empirically identify which datasets are most useful, as well as the advantages and limitations of these technologies. Above all, we must remain pragmatic.
I do not have much time, so that is a brief overview of the HikarIA project. I would now like to address the technical challenges we face. There are also methodological challenges, which we can discuss later if you wish.
Regarding technical challenges, there are several ways in which AI can be applied to historical photographs. We identified seven main challenges. Some of these were addressed in other phases of the project, particularly the restoration phase and the accessibility phase.
One basic but very useful tool automatically corrects images that have been digitized in the wrong orientation.
Another key aspect concerns image content and iconography. We use a tool that recognizes people and objects within a photograph and segments them so they can be visually identified. We also use geolocation. A large portion of the corpus includes location information, which has been identified by manuscript specialists based on handwritten captions.
This allows us to visualize where images originate across the Japanese archipelago. As you can see, the Kantō and Kansai regions contain the highest concentration of photographs.
Moving on to cataloguing: this may seem basic, but we have implemented a set of tools that allow us to aggregate and restitute all available information. We experimented with Getty terminology for indexing, although we are not yet certain how we will ultimately use it. This process has nevertheless allowed us to test the relevance of the models.
We also have an image similarity search tool that provides a probability score of similarity between images. In some cases, these are identical images that differ only in coloration. For each photograph, the system generates a list of visually similar images, which is particularly valuable for research into iconography and stylistic evolution.
We have also created a thematic index. We deliberately chose not to use a traditional thesaurus, as it is nearly impossible to find an exhaustive dataset applicable to such a diverse corpus. Instead, we used a hierarchical structure developed by Corinne Jorgensen in the 2000s, which provides a highly resilient system for term classification.
You will get a clearer sense of this by exploring the platform itself.
With regard to historical research, this is just one example of how quantitative data can be visualized. We cross-referenced the number of people depicted in images with different image typologies, such as religious architecture, civil architecture, natural landscapes, and urban landscapes.
These categories were defined by humans, but the data concerning the number of people per image was generated by an AI model.
Finally, accessibility is a core concern. We aim to ensure that all data is freely accessible and reusable. We use the IIIF protocol to facilitate interoperability with other institutions and research projects.
We also experimented with ChatGPT to generate automatic image descriptions. We have not yet decided exactly how this tool will be used, but it could be particularly useful for visually impaired audiences, allowing them to access photographic content through textual description.
Linguistic accessibility is also essential. The platform is available in French, English, and Japanese. To translate both the website and the metadata tags, we used the SIGLIP model, which performs semantic search as well as translation. All translations were reviewed and corrected with our partners.
The platform is currently in beta. If you would like to test it and provide feedback, you are very welcome to do so.
Thank you very much.
Closing
Thank you very much, Édouard. When people say that AI is magical and that everything can be solved by clicking a button, this presentation offers a concrete example of the complexity and sophistication of the tools involved, as well as the expertise required to manage such projects.
Thank you very much.