Se rendre au contenu

Service Historique de la Défense

Projet ArchivIA

France ✧ 2022-2027

Corpus


Inscription maritime de Brest, Cherbourg, Toulon 
Archives du Bagne de Toulon

Lots 1 à 7 : 890 467 images (double pages)

Objectifs du projet 


Contrat cadre du traitement des archives du Service Historique de la Défense (Ministère des Armées)

Extraction d'informations nominatives dans les registres de l'inscription maritime et les registres du bagne.




Chaîne de traitement


Traitement par lot :

  • Analyse des documents et définition des sous lots à traiter en automatique ou en manuel (qui passe par un clustering depuis le lot 4)
  • Pour les lots 1 à 3 : segmentation de la zone avec des informations à extraire
  • Entraînement des modèles d'extraction d'informations : un par type de structure (sous-lot). 
  • Matching de certains champs avec des référentiels (commune, département, pays, profession, grade)
  • Évaluation des modèles et envoi en transcription manuelle, les prédictions considérées comme en dessous du seuil de qualité
  • Export : fichiers XML EAD (un par registre) et un fichier CSV global par lots avec les individus