Se rendre au contenu

SocFace

Base numérique regroupant un siècle de recensements français

-> SocFace

Description du projet


Création d’une base numérique pour ouvrir un accès pour les chercheurs et pour le grand public aux données démographiques de tous les individus ayant vécu en France entre 1836 et 1936.


Corpus


400 millions d’enregistrements, l’ensemble des listes nominatives du recensement de 1836 à 1936


Traitement 


-> Reconnaissance automatique de texte

-> Extraction de données

Développement d'une base numérique

SocFace TEKLIA

Objectifs du projet SocFace

 Le XIXème siècle a vu la France se transformer en profondeur, pour évoluer vers une organisation qui influence encore la société actuelle. Si ces changements sont bien documentés au macro-économique, leurs impacts sur les parcours individuels sont peu connus. Les recensements nous offrent une photographie complète de la population française tous les 5 ans sur la période 1836-1936. Etudier les parcours de vie des individus nécessite non seulement de transcrire complètement et automatiquement les listes de recensement manuscrites de cette période, mais aussi d'identifier les individus et de lier leurs occurrences dans les différents recensements.

Socface est un projet de recherche collaboratif mené par l'Institut national d'études démographiques (INED), l'École d'économie de Paris, le Service interministériel des archives françaises (SIAF) et TEKLIA, avec le soutien financier de l'Agence nationale de la Recherche.

Le projet Socface vise à extraire des données démographiques et économiques individuelles sur l'ensemble du territoire français à partir de listes de recensement nominales numérisées par les services d'archives de toute la France, couvrant la période de 1836 à 1936. 




Collecter, traiter, transcrire, organiser et analyser toutes les listes nominales des recensements de 1836 à 1936 (20 recensements).

Produire une base de données exhaustive des individus ayant vécu en France entre 1836 et 1936 et la rendre accessible en ligne.

Mettre à disposition des outils pour la recherche en histoire et en démographie pour analyser les changements sociaux à long terme.

Les données de SocFace 

Au début du XIXe siècle, la France était un pays essentiellement rural. La révolution industrielle a entraîné des transformations économiques et sociales sans précédent. L'industrialisation et l'urbanisation du pays ont entraîné des changements majeurs dans les microstructures de la société. 

Grâce aux données extraites par SocFace, il sera désormais possible de produire des analyses statistiques à grande échelle, ou bien d'étudier des parcours individuels avec précision, pour étoffer notre connaissance de ces évolutions historiques. 

En savoir plus

SocFace TEKLIA


SocFace TEKLIA
Un exemple de livre de recensements français (Paris, fin du XIXe siècle)

Reconstituer l’histoire de la France «par le bas»: un siècle de recensements de population décryptés par le projet Socface


 Cet article a été publié initialement dans le numéro 144 de la revue Culture et Recherche consacré à la Science Ouverte

Auteurs :

  • Lionel Kesztenbaum est Directeur de recherche à l’Institut national d’études démographiques (INED)
  • Manonmani Restif est Cheffe de projet du portail FranceArchives au Service interministériel des Archives de France (SIAF)
  • Christopher Kermorvant est Président de la société Teklia

Introduction

Socface est un projet de recherche, soutenu par l’Agence nationale de la recherche (ANR), sur les recensements de la population française de 1836 à 1936. Il mobilise des chercheurs en sciences humaines et sociales, des ingénieurs et des archivistes, et illustre de nombreux aspects de la science ouverte ainsi que les apports et défis de la reconnaissance automatique d’écriture manuscrite (HTR, Handwritten Text Recognition).

Objectif du projet

Le projet Socface a pour ambition de transcrire automatiquement l’ensemble des listes nominatives des recensements de 1836 à 1936 (soit vingt recensements) pour produire, étudier et diffuser une base de données des individus ayant vécu en France durant cette période. Soutenu par l’Agence nationale de la recherche (ANR), ce projet illustre de nombreux aspects de la science ouverte ainsi que les apports et défis de la reconnaissance automatique d’écriture manuscrite.

Importance des données nominatives

Il met aussi en évidence l’appétit sans cesse croissant des différents utilisateurs des archives pour les données nominatives : aujourd’hui, l’écrasante majorité des recherches faites dans les services d’archives porte sur ce type de sources. Chaque personne a vocation à être représentée aux archives, dès lors que sa vie a connu quelques événements, heureux ou, le plus souvent, malheureux.

Socface mérite une place à part en raison de son ampleur : il porte en effet sur un corpus très vaste – une même typologie, traitée sur 100 ans, conservée dans près de 100 structures de métropole et d’outre-mer.

Aux origines du projet

L’intérêt croissant pour les données individuelles, en particulier nominatives, est alimenté par les développements techniques (facilité de numérisation, diffusion des images sur le Web, améliorations des techniques de reconnaissance automatique d’écritures, etc.) tout autant qu’il les nourrit : la demande des usagers (chercheurs, généalogistes ou amateurs éclairés) motive les campagnes de numérisation tout comme l’appétence de la recherche quantitative en sciences sociales pour des données « micro » stimule le développement de la reconnaissance automatique d’écriture manuscrite.

Cercle vertueux de la numérisation

Socface illustre parfaitement ce cercle vertueux autour d’une source unique (les recensements) qui fait partie des rares typologies de documents à avoir été presque intégralement numérisées par les services d’archives, créant un corpus qui devrait dépasser à terme les 10 millions d’images malgré les destructions, volontaires ou accidentelles. Cette numérisation quasi exhaustive était une condition préalable pour qu’un tel projet de recherche puisse être réalisé.

Extraction de texte

Cette condition remplie, la gourmandise des historiens pour cette masse de données ne suffisait pas ; encore fallait-il imaginer un système efficace pour extraire le texte contenu dans ces millions d’images. Les progrès considérables de la reconnaissance automatique de l’écriture manuscrite ces dernières années, grâce aux avancées des technologies de l’intelligence artificielle, permettent d’envisager cette extraction. Les documents historiques manuscrits, du Moyen Âge à nos jours, sont désormais à la portée d’une transcription automatique permettant une exploitation directe. Cette reconnaissance automatique prend tout son sens pour des traitements à très large échelle pour lesquels une transcription manuelle, même collaborative, n’est pas envisageable.

Le rôle du collaboratif dans la reconnaissance d’écriture

Pour autant, la reconnaissance d’écriture n’est pas un vase clos, entièrement autonome. En effet, le développement d’un système de reconnaissance d’écriture performant nécessite une phase d’entraînement des modèles sur des données annotées, par des techniques d’apprentissage automatique supervisé. Les modèles les plus récents, fondés sur des technologies de Deep Learning, peuvent être entraînés avec un protocole beaucoup plus simple que leurs prédécesseurs. Aujourd’hui, il n’est plus nécessaire de transcrire précisément les documents, en indiquant la position et le contenu des lignes de texte. Il est possible d’entraîner les modèles à partir de données saisies dans un formulaire, comme on le ferait pour un dépouillement d’archives. Ce protocole, beaucoup plus rapide et naturel, permet de faire appel à des volontaires pour réaliser les annotations.

Le projet Socface a ainsi ouvert une dizaine de campagnes d’annotations collaboratives pour créer des données d’entraînement en utilisant la plateforme Callico de Teklia.

Utilisation des annotations existantes

Par ailleurs, les annotations déjà existantes, réalisées par les cercles généalogiques ou dans les services d’archives départementales, peuvent aussi être utilisées pour entraîner la machine. De fait, la qualité de la reconnaissance est améliorée par tout un ensemble d’informations extérieures : de la liste des noms de famille (et de leur fréquence) jusqu’au nom des lieux-dits de chaque commune, en passant par une estimation grossière des distributions par âge au cours du temps, tout ce qui peut donner à la machine une idée, même vague, de « l’univers des possibles » est précieux.

En ce sens, Socface est très directement un produit de la science ouverte.

Traiter, analyser et diffuser des millions d’images

Le siècle d’histoire française auquel s’intéresse Socface est marqué par des changements spectaculaires souvent résumés par quelques concepts généraux esquissés à grands traits : urbanisation, industrialisation, transition démographique. Pourtant, on connaît encore relativement mal la variation spatiale de ces phénomènes sur le territoire métropolitain, leurs mécanismes et leurs conséquences. L’apport de Socface, en particulier en appariant les individus entre les recensements pour reconstituer leurs trajectoires (migratoires, professionnelles, familiales), est de permettre d’étudier cette hétérogénéité, de saisir comment ces trajectoires rencontrent, ou pas, la « Grande Histoire », comment elles sont influencées par elle et l’influencent en retour.

Diffusion des données

Un second produit direct du projet sera de diffuser librement ces données pour permettre à tout un chacun d’y accéder. Pour les archives, cette mise à disposition d’un grand volume de données, tant dans la base de noms de FranceArchives que sur les sites Web des services d’archives, représente une formidable opportunité de développer de nouveaux services pour leurs publics attachés à la micro-histoire individuelle. Elle ouvre aussi des perspectives de mutualisation du réseau des archives pour augmenter le stock des métadonnées archivistiques interopérables.

Impact futur de Socface

À terme, Socface représentera un prodigieux effet levier. D’un côté, il poussera, inévitablement, à la numérisation des recensements manquants, voire à leur identification. De l’autre, il pourra constituer un socle sur lequel mettre en œuvre d’autres dépouillements de sources à grande échelle. Plus largement, il devrait favoriser la concertation entre les archivistes et le monde de la recherche, les premiers pouvant réinterroger leurs politiques de numérisation, par exemple en développant une dimension nationale autour de typologies d’envergure, tandis que le second devra être plus attentif à reverser aux services d’archives les données qu’il produit.

Point d'étape - juin 2022


A l'occasion des journées Mnesys chez Naoned, Christopher Kermorvant présente un point d'étape du projet, 6 mois après son début.


-> Voir sur Vimeo

Des nouvelles de Socface - juin 2023


Collecte des images

Le premier défi du projet Socface est la collecte de l'intégralité des images de recensements auprès des services d'archives. La progression de cette collecte est disponible sur le site  Socface  . La participation des différents services d'archive est en général très enthousiaste. Une fois reçues les images et les méta-données associées, il faut intégrer et organiser toutes ces données dans la plateforme Arkindex, grâce à un important travail de normalisation.


Transcriptions collaboratives

Au cœur de tous les projets d'intelligence artificielle se trouvent les données nécessaires pour entraîner les machines. Ces données doivent être à la fois produites en grande quantité et de qualité. Elles sont donc toujours produites par des humains. Le projet Socface n'échappe pas à la règle et 11 campagnes de transcription collaborative ont été lancées fin février sur la plateforme  Callico  .

Pour chaque campagne, 100 pages ont été sélectionnées aléatoirement dans toutes les images du service d'archive concerné. Les lignes correspondant à chaque individu ont ensuite été automatiquement détectées et ces lignes sont présentées pour la saisie dans Callico. Ce sont donc entre 2500 et 3000 lignes par campagne qu'il faut transcrire, en suivant  des instructions très précises et spécifiques. 

Progression des campagnes

Une quarantaine de volontaires contribue aux différentes campagnes, avec une petite dizaine d'actifs réguliers. La progression des campagnes est variée, en fonction du nombre et de l'activité des volontaires :


SocFace TEKLIA

Certaines campagnes sont en double annotation, ce qui explique un nombre d'annotations supérieur à 3000.

Durée d'annotation

Le temps médian d'annotation est de 36 secondes. Cependant, cette durée est très variable en fonction des images et des annotateurs. Souvent, pour bien faire, il est nécessaire de faire des recherches pour vérifier un nom ou un lieu.

SocFace TEKLIA


Données saisies

Un analyse des valeurs saisies les plus fréquentes permet de confirmer la qualité des données : les prénoms les plus fréquents sont ceux attendus:


SocFace TEKLIA

Pour les noms, la mention "idem" est très fréquente, comme attendu, car les instructions indiquent qu'il faut saisir cette mention et ne pas remplacer par la valeur en référence.

SocFace TEKLIA


Pour les professions, les cultivateurs sont les plus fréquents, sous différentes formes, qu'il faudra normaliser pour réaliser des analyses statistiques.


SocFace TEKLIA

Entraînement du modèle IA

Le modèle d'Intelligence Artificielle permettant la transcription automatique des listes a été mis au point. Une première version a été entraînée sur les données de Paris fournies par le  projet POPP  ainsi que sur les transcriptions collaboratives réalisées sur le site  des archives du Loiret  . Les transcriptions issues des campagnes Callico seront bientôt ajoutées à l'ensemble d'entraînement.


SocFace TEKLIA


Les premières données de transcription automatique à l'échelle de départements entiers seront livrées aux chercheurs cet été.

Merci !

Merci à tous les participants du projet Socface !