Université du Québec à Chicoutimi
Projet BALSAC
Canada ✧ 2019-2021
Description du projet
Extraction d'informations généalogiques pour la base de données de registres d'état civil du Québec.
Corpus
2,8 millions de pages de registres paroissiaux (1850-1920) provenant des actes de l’état civil du Québec, principalement des actes de naissance, de baptême et de décès
Traitement
-> Reconnaissance automatique de texte
-> Segmentation
Développement d'une plateforme de traitement de documents
Chaîne de traitement
- Détéction des lignes de texte
- Reconnaissance des lignes de texte avec un modèle entrainé spécifiquement pour le corpus
- Regroupement des lignes en actes
- Reconnaissance d'entités nommées (les noms de personnes, les dates, les lieux et les professions)
- Détection d'anomalies basé sur les lignes de texte détectées
