Service Historique de la Défense
Projet ArchivIA
France ✧ 2022-2027
Corpus
Inscription maritime de Brest, Cherbourg, Toulon
Archives du Bagne de Toulon
Archives du Bagne de Toulon
Lots 1 à 7 : 890 467 images (double pages)
Technologies d’intelligence artificielle utilisées
Objectifs du projet
Contrat cadre du traitement des archives du Service Historique de la Défense (Ministère des Armées)
Extraction d'informations nominatives dans les registres de l'inscription maritime et les registres du bagne.
Chaîne de traitement
Traitement par lot :
- Analyse des documents et définition des sous lots à traiter en automatique ou en manuel (qui passe par un clustering depuis le lot 4)
- Pour les lots 1 à 3 : segmentation de la zone avec des informations à extraire
- Entraînement des modèles d'extraction d'informations : un par type de structure (sous-lot).
- Matching de certains champs avec des référentiels (commune, département, pays, profession, grade)
- Évaluation des modèles et envoi en transcription manuelle, les prédictions considérées comme en dessous du seuil de qualité
- Export : fichiers XML EAD (un par registre) et un fichier CSV global par lots avec les individus
