Se rendre au contenu

Université du Québec à Chicoutimi

Projet BALSAC

Canada ✧ 2019-2021

Description du projet


Extraction d'informations généalogiques pour la base de données de registres d'état civil du Québec. 


Corpus


2,8 millions de pages de registres paroissiaux (1850-1920) provenant des actes de l’état civil du Québec, principalement des actes de naissance, de baptême et de décès

Traitement 

-> Reconnaissance automatique de texte

-> Segmentation 

-> Extraction de données

Développement d'une plateforme de traitement de documents


Chaîne de traitement 


  • Détéction des lignes de texte

  • Reconnaissance des lignes de texte avec un modèle entrainé spécifiquement pour le corpus

  • Regroupement des lignes en actes

  • Reconnaissance d'entités nommées (les noms de personnes, les dates, les lieux et les professions)

  • Détection d'anomalies basé sur les lignes de texte détectées

À propos du projet BALSAC 


 Le projet BALSAC gère et met à jour une base de données de registres d'état civil numérisés (actes de naissance, de décès et de mariage) de tout le Québec, depuis les premiers établissements européens au XVIIe siècle jusqu'à nos jours. Ces registres sont interconnectés grâce à une méthode de liaison basée sur l'information nominative, permettant la reconstitution automatique des liens généalogiques et des structures de parenté au sein de la population québécoise. TEKLIA assurera la transcription automatisée, la reconnaissance des entités nommées et l'extraction des données de plus de 6 millions d'entrées de registres paroissiaux numérisées (principalement des actes de naissance/baptême et de décès), datant de 1850 à 1920.


Gestion de projet au Québec

La base de données BALSAC est la propriété et la responsabilité conjointe de l'Université du Québec à Chicoutimi, de l'Université Laval, de l'Université McGill et de l'Université de Montréal. Le projet est géré par l'Université du Québec à Chicoutimi; Hélène Vézina, professeure au Département des sciences humaines et sociales de l'UQAC, est actuellement responsable du projet.