Bibliothèque du Congrès
Avec LC Labs et Digirati
Etats-Unis ✧ 2023-2024
Description du projet
Prototypage et évaluation de méthodes d’extraction assistée par l’intelligence artificielle pour la structuration des registres historiques de copyright.
Corpus
11 000 registres comprenant approximativement
500 000 formulaires de copyright
Chaîne de traitement
- Test de trois workflows intégrant le machine learning et l’intervention humaine (HITL) pour l’extraction d’informations textuelles à partir des éléments textuels et/ou visuels de registres numérisés
- Extraction automatique des champs suivants : titulaire du droit (claimant), type d’œuvre, auteur(s), titre de l’œuvre, dates de réception (copie, demande, déclaration sur l’honneur, frais), classe et numéro d’enregistrement, date de première publication, imprimeur, volume, numéro et date de publication
- Évaluation des méthodes sur les livres d’enregistrement disponibles en ligne, avec sélection de la méthode la plus performante pour produire un jeu de données structuré couvrant l’ensemble des registres historiques
