Se rendre au contenu

Bibliothèque du Congrès

Avec LC Labs et Digirati

Etats-Unis ✧ 2023-2024

Description du projet


Prototypage et évaluation de méthodes d’extraction assistée par l’intelligence artificielle pour la structuration des registres historiques de copyright. 


Corpus


11 000 registres comprenant approximativement

500 000 formulaires de copyright

TEKLIA Library of Congress
TEKLIA Library of Congress

Chaîne de traitement 


  • Test de trois workflows intégrant le machine learning et l’intervention humaine (HITL) pour l’extraction d’informations textuelles à partir des éléments textuels et/ou visuels de registres numérisés

  • Extraction automatique des champs suivants : titulaire du droit (claimant), type d’œuvre, auteur(s), titre de l’œuvre, dates de réception (copie, demande, déclaration sur l’honneur, frais), classe et numéro d’enregistrement, date de première publication, imprimeur, volume, numéro et date de publication

  • Évaluation des méthodes sur les livres d’enregistrement disponibles en ligne, avec sélection de la méthode la plus performante pour produire un jeu de données structuré couvrant l’ensemble des registres historiques

TEKLIA Library of Congress