Extraction automatique d'informations pour le catalogage
La Bibliothèque Sainte-Geneviève (BSG) est l'une des plus importantes bibliothèques universitaires françaises et l'héritière de la bibliothèque de l'abbaye Sainte-Geneviève. La BSG a demandé à Teklia de mener à bien un projet visant à extraire automatiquement des informations à partir d'un fichier papier et d'un catalogue imprimé, tous deux disponibles sous forme d'images. L'objectif était de compléter le catalogue numérique de la bibliothèque avec les informations d'indexation contenues dans ces deux références. Ce projet de conversion inverse s'inscrit dans le cadre d'un projet plus large visant à cataloguer par sujet la collection de la bibliothèque, qui compte plus de deux millions de documents.
Traitement des fiches
TEKLIA a traité 550 000 fiches, déjà numérisées et donc disponibles sous forme d'images. Ces fiches permettent un accès thématique aux ouvrages grâce aux informations suivantes : titre, nom de l'auteur, sujet, référence bibliographique, description et cote.
Entraînement et extraction
Reprise sur erreurs
Résultat
Au final, plus de 85 % des 550 000 notices ont pu être traitées de manière entièrement automatique. Sur les 15 % restants, certaines notices ont été délibérément exclues (pages de titre, notices en double, documents écrasés), d'autres n'ont pas pu être traitées en raison du format des données (séries de plus de 5 volumes, notices comportant plusieurs cotes, notices manuscrites parfois illisibles, etc.

Traitement du catalogue Poirée-Lamouroux
Le Catalogue abrégé de la Bibliothèque Sainte-Geneviève, compilé par Elie Poirée et Georges Lamouroux à la fin du XIXe siècle, répertorie la plupart des ouvrages détenus par la bibliothèque à cette époque. Les trois volumes de l'ouvrage sont divisés en sections délimitées par des titres et des sous-sections indiquées par des numéros. Un tableau de correspondances permet d'associer chaque numéro de sous-section à un sous-sujet.
Entraînement et extraction
Intégration dans la base de données
Résultat
Une réduction significative des coûts
Les modèles TEKLIA ont permis d'automatiser le traitement du fichier matériel et du catalogue à plus de 90 %. Si une validation manuelle reste nécessaire, l'effort humain est considérablement réduit, ce qui a un impact majeur sur le coût de la conversion inverse.
"L'utilisation de l'IA nous a permis de traiter une quantité considérable de données (550 000 notices dans le fichier des matières et près de 6 000 pages dans le catalogue imprimé). Il nous aurait été impossible de nous appuyer sur un traitement manuel et nous recherchions un prestataire capable de nous aider dans ce projet de rétroconversion, qui avait un double objectif : enrichir les notices de notre catalogue en ligne avec des données d'indexation très précieuses, mais jusqu'alors difficiles à exploiter car uniquement consultables sous forme imprimée ; et nous accompagner dans notre projet d'évaluation et de cartographie de nos collections, en automatisant partiellement les opérations de comptage.
De notre point de vue, les objectifs initiaux ont été pleinement atteints. Malgré un format de données très hétérogène, des difficultés liées à la complexité de notre système de cotation et d'indexation et l'expression parfois tardive de nouveaux besoins au fur et à mesure de l'avancement de nos tests, TEKLIA s'est toujours montrée très disponible et encline à faire évoluer la méthode de travail, en fonction des difficultés et des problèmes rencontrés. À cet égard, nous sommes pleinement satisfaits de notre collaboration avec les équipes de TEKLIA."
Timothée RONY, Service de la politique documentaire, Bibliothèque Sainte-Geneviève
