Bibliothèque du Congrès

Avec LC Labs et Digirati

Etats-Unis ✧ 2023-2024

Description du projet

Prototypage et évaluation de méthodes d’extraction assistée par l’intelligence artificielle pour la structuration des registres historiques de copyright.

Corpus

11 000 registres comprenant approximativement

500 000 formulaires de copyright

Traitement

-> Reconnaissance automatique de texte

-> Extraction de données

Chaîne de traitement

Test de trois workflows intégrant le machine learning et l’intervention humaine (HITL) pour l’extraction d’informations textuelles à partir des éléments textuels et/ou visuels de registres numérisés
Extraction automatique des champs suivants : titulaire du droit (claimant), type d’œuvre, auteur(s), titre de l’œuvre, dates de réception (copie, demande, déclaration sur l’honneur, frais), classe et numéro d’enregistrement, date de première publication, imprimeur, volume, numéro et date de publication
Évaluation des méthodes sur les livres d’enregistrement disponibles en ligne, avec sélection de la méthode la plus performante pour produire un jeu de données structuré couvrant l’ensemble des registres historiques