Se rendre au contenu

Université du Québec à Chicoutimi

Projet BALSAC

Canada ✧ 2019-2021

Description du projet


Extraction d'informations généalogiques pour la base de données de registres d'état civil du Québec. 


Corpus


2,8 millions de pages de registres paroissiaux (1850-1920) provenant des actes de l’état civil du Québec, principalement des actes de naissance, de baptême et de décès

Traitement 

-> Reconnaissance automatique de texte

-> Segmentation 

-> Extraction de données

Développement d'une plateforme de traitement de documents


Chaîne de traitement 


  • Détéction des lignes de texte

  • Reconnaissance des lignes de texte avec un modèle entrainé spécifiquement pour le corpus

  • Regroupement des lignes en actes

  • Reconnaissance d'entités nommées (les noms de personnes, les dates, les lieux et les professions)

  • Détection d'anomalies basé sur les lignes de texte détectées