Se rendre au contenu

Bibliothèque Sainte Geneviève

France ✧ 2022

Description du projet


Extraction automatique d'informations à partir du fichiers matière et du catalogue imprimé afin de compléter le catalogue numérique de la bibliothèque.


Corpus


550 000 fiches  

2500 pages du Catalogue abrégé de la Bibliothèque Sainte-Geneviève 
Sainte Genevieve - TEKLIA
Sainte Genevieve
Sainte Genevieve - TEKLIA

Chaîne de traitement


  • Extraction d’informations dans le fichier matière numérisé (fiches carton) et un catalogue imprimé du XIXème siècle, enrichissement du catalogue informatisé.

  • Entrainement de modèles d’extraction d’information (côtes et matières) dans des fiches d’index numérisées et dans un catalogue imprimé du XIXème siècle

  • Traitement de 550 000 fiches et 2500 pages

  • Rapprochement et enrichissement du catalogue informatisé (format MARCXML de l’ABES)

Extraction automatique d'informations pour le catalogage


La Bibliothèque Sainte-Geneviève (BSG) est l'une des plus importantes bibliothèques universitaires françaises et l'héritière de la bibliothèque de l'abbaye Sainte-Geneviève. La BSG a demandé à Teklia de mener à bien un projet visant à extraire automatiquement des informations à partir d'un fichier papier et d'un catalogue imprimé, tous deux disponibles sous forme d'images. L'objectif était de compléter le catalogue numérique de la bibliothèque avec les informations d'indexation contenues dans ces deux références. Ce projet de conversion inverse s'inscrit dans le cadre d'un projet plus large visant à cataloguer par sujet la collection de la bibliothèque, qui compte plus de deux millions de documents.

Traitement des fiches


TEKLIA a traité 550 000 fiches, déjà numérisées et donc disponibles sous forme d'images. Ces fiches permettent un accès thématique aux ouvrages grâce aux informations suivantes : titre, nom de l'auteur, sujet, référence bibliographique, description et cote.


Entraînement et extraction

Le traitement des fiches a commencé par une première étape de reconnaissance automatique de texte (ATR), qui a permis la transcription des textes dactylographiés et manuscrits.

Dans un deuxième temps, notre outil collaboratif Callico a été utilisé pour créer des annotations afin de fournir un corpus d'apprentissage à un système d'extraction d'entités nommées permettant d'identifier les sujets et les cotes.

Une fois le système entraîné, les 550 000 fiches ont été traitées afin d'en extraire le numéro de téléphone et le sujet associé.


Reprise sur erreurs

Bien que l'intelligence artificielle, grâce à l'ATR et à un modèle de reconnaissance d'entités nommées (NER), permette le traitement massif de documents, il existe encore des erreurs et des cas particuliers qui doivent être traités manuellement.

Dans le cas du traitement des fiches, même si le taux d'erreur de la transcription automatique était faible, certains caractères, nécessaires à l'identification des documents, tels que les lettres grecques ou les lettres en exposant, étaient mal reconnus.

TEKLIA a donc mis en place, en collaboration avec les bibliothécaires, des règles permettant de récupérer un certain nombre de numéros d'identification mal reconnus pour lesquels aucune équivalence n'a été trouvée dans la base de données. Le cas des ouvrages en plusieurs volumes ou retirés de la collection a également dû être traité.


Résultat

Au final, plus de 85 % des 550 000 notices ont pu être traitées de manière entièrement automatique. Sur les 15 % restants, certaines notices ont été délibérément exclues (pages de titre, notices en double, documents écrasés), d'autres n'ont pas pu être traitées en raison du format des données (séries de plus de 5 volumes, notices comportant plusieurs cotes, notices manuscrites parfois illisibles, etc.

Sainte Genevieve - TEKLIA

Traitement du catalogue Poirée-Lamouroux


Le Catalogue abrégé de la Bibliothèque Sainte-Geneviève, compilé par Elie Poirée et Georges Lamouroux à la fin du XIXe siècle, répertorie la plupart des ouvrages détenus par la bibliothèque à cette époque. Les trois volumes de l'ouvrage sont divisés en sections délimitées par des titres et des sous-sections indiquées par des numéros. Un tableau de correspondances permet d'associer chaque numéro de sous-section à un sous-sujet.


Entraînement et extraction

TEKLIA a développé un système d'analyse de la structure des sections et sous-sections afin d'associer chaque citation détectée à la sous-section thématique correspondante. 

La première étape du traitement est la reconnaissance de texte. Nous avons détecté la position des lignes et les transcrire à l'aide d'un algorithme ATR. 

Le catalogue est divisé en sections, qui regroupent les notices ayant un thème commun. Cette information est nécessaire aux experts, il a donc fallu regrouper les lignes trouvées en sections. Une section peut s'étendre sur plusieurs pages successives d'un même volume. Le texte de chaque section a été reconstitué en concaténant le texte des lignes qui le composent. Une fois ces sections annotées sur Arkindex, les experts ont pu leur attribuer manuellement des numéros à l'aide d'un identifiant interne.

Après avoir annoté les citations sur un petit échantillon de pages dans Callico, nous avons entraîné un modèle à détecter ces références. Ce modèle a été appliqué à toutes les sections des volumes.


Intégration dans la base de données

La dernière étape consistait à faire correspondre les cotes détectées avec celles de la base de données de la bibliothèque.

À cette fin, nous avons utilisé les informations supplémentaires présentes dans l'ouvrage référencé. En effet, l'auteur, le titre de l'ouvrage et la date de publication améliorent considérablement la précision de la correspondance lorsqu'ils sont présents.

En revanche, les abréviations et les formulations utilisées peuvent différer entre la base de données et l'ouvrage.


Résultat

Au final, sur les 5 869 pages du catalogue, 29 497 cotes ont été automatiquement extraites et identifiées dans le catalogue numérique.


Une réduction significative des coûts

Les modèles TEKLIA ont permis d'automatiser le traitement du fichier matériel et du catalogue à plus de 90 %. Si une validation manuelle reste nécessaire, l'effort humain est considérablement réduit, ce qui a un impact majeur sur le coût de la conversion inverse.

Sainte Genevieve - TEKLIA

"L'utilisation de l'IA nous a permis de traiter une quantité considérable de données (550 000 notices dans le fichier des matières et près de 6 000 pages dans le catalogue imprimé). Il nous aurait été impossible de nous appuyer sur un traitement manuel et nous recherchions un prestataire capable de nous aider dans ce projet de rétroconversion, qui avait un double objectif : enrichir les notices de notre catalogue en ligne avec des données d'indexation très précieuses, mais jusqu'alors difficiles à exploiter car uniquement consultables sous forme imprimée ; et nous accompagner dans notre projet d'évaluation et de cartographie de nos collections, en automatisant partiellement les opérations de comptage.

 De notre point de vue, les objectifs initiaux ont été pleinement atteints. Malgré un format de données très hétérogène, des difficultés liées à la complexité de notre système de cotation et d'indexation et l'expression parfois tardive de nouveaux besoins au fur et à mesure de l'avancement de nos tests, TEKLIA s'est toujours montrée très disponible et encline à faire évoluer la méthode de travail, en fonction des difficultés et des problèmes rencontrés. À cet égard, nous sommes pleinement satisfaits de notre collaboration avec les équipes de TEKLIA."

Timothée RONY, Service de la politique documentaire, Bibliothèque Sainte-Geneviève