Musée du Louvre
Département des arts de l'Islam
France ✧ 2025
Description du projet
Indexation des catalogues de ventes aux enchères de la bibliothèque de documentation pour améliorer le référencement des œuvres de la collection.
Corpus
Catalogues de ventes aux enchères en anglais et en français (Sotheby’s, Bonhams, Christie’s…)
150 000 pages
Chaîne de traîtement
- Reconnaissance de texte imprimé (OCR)
- Segmentation des éléments sur la page et mise en correspondance légende-image
- Création de métadonnées par reconnaissance automatique de type clé/valeur : extraction des éléments dans les légendes (titre, date, média…) vers un tableur
- Extraction des numéros d’inventaire et association avec l’image correspondante pour l’indexation des objets
