Se rendre au contenu

Institut Français d'Archéologie Orientale

Egypte ✧ 2022

Description du projet


Transcription, le classement et l'indexation de quatre carnets de fouille contenant des notes manuscrites et des dessins du célèbre archéologue Bernard Bruyère. 


Corpus


Quatre carnets de fouille (1922-1952) comprenant du texte manuscrit, des schémas, des illustrations et des notes en marge. 

891 pages
TEKLIA IFAO
TEKLIA IFAO

Chaîne de traitement


  • Annotation des carnets par les membres de l'IFAO

  • Entraînement de modèles spécifiques pour détecter les lignes et les illustrations sur les pages numérisées

  • Transcription des lignes de texte 

  • Reconnaissance des illustrations et création de métadonnées pour la recherche 
TEKLIA Arkindex
TEKLIA IFAO
TEKLIA IFAO
TEKLIA IFAO
TEKLIA Arkindex

Quand le traitement automatique des documents rencontre l'histoire égyptienne


 TEKLIA met la reconnaissance d'écriture au service de l'égyptologie pour l'Institut Français d'Archéologie Orientale.


Exploration des vestiges d'un village de l'Egypte ancienne

Il y a cent ans, de 1922 à 1952, une campagne cruciale de recherches archéologiques a été menée à Deir el-Medina (Égypte), un village dont les habitants étaient tous impliqués dans la construction et la décoration des tombes et des temples funéraires des pharaons du Nouvel Empire. Le chef des fouilles, l'archéologue français Bernard Bruyère, a minutieusement consigné les découvertes faites, concernant la vie quotidienne de cette communauté d'un point de vue social, professionnel et religieux. 

Consultation des carnets de fouille 

Quatre carnets manuscrits ont été remplis à la fin de la campagne. Ils ont tous été numérisés et sont désormais consultables sur le site de l'Institut Français d'Archéologie Orientale (IFAO) basé au Caire. Teklia a été sélectionné par l'IFAO pour réaliser une transcription intégrale des carnets et fournir une plateforme où ces documents pourront être indexés et consultés.

Entraînement de modèles Deep Learning pour la reconnaissance de texte manuscrit avec Arkindex


La plateforme de traitement de documents de Teklia, Arkindex, a été le principal outil utilisé sur ce projet. Les mille pages de notes minutieusement prises par Bernard Bruyère devaient être traitées efficacement et transcrites avec un haut niveau de qualité.

 

Annotations et entrainements

Ce projet a nécessité l'entraînement de modèles spécifiques pour détecter les lignes sur les pages numérisées, et pour reconnaître le type d'élément qui était écrit ou dessiné sur les carnets. Afin de générer la vérité terrain permettant l'entraînement des modèles, les membres de l'IFAO ont annoté des documents directement sur la plateforme Arkindex. Ensuite, un modèle a été entraîné à transcrire les textes, pour créer une base de données numérique que les membres de l'IFAO peuvent librement consulter sur la plateforme.
 

Faire face à la diversité des éléments à détecter et à reconnaître

Tout au long de cette importante campagne archéologique, M. Bruyère s'est attaché à fournir aux futures générations d'égyptologues un maximum d'informations. Les séries de notes, complètes et minutieusement organisées, constituent un véritable témoignage de l'histoire des campagnes. Elles comprennent des textes, des croquis et d'autres illustrations de la main de l'archéologue principal, qui ne peuvent être séparés du reste des notes. Par conséquent, le processus de reconnaissance automatique de texte manuscrit devait être complété par les connaissances des membres de l'IFAO, lorsqu'il s'est agit d'annoter les illustrations.

Combinaison de l'HTR avec les annotations d'illustrations

Une fois les modèles entraînés, le processus de reconnaissance d'écriture proprement dit a été très rapide et a produit une transcription avec un taux d'erreur caractère d'environ 4.5%. Arkindex est en effet spécialisé dans l'entraînement de modèles de Deep Learning pour la reconnaissance de texte manuscrit, livrant des résultats précis de transcription à partir d'une page numérisée en quelques secondes. Cependant, le projet nécessitait plus qu'un traitement automatique du document, notamment en ce qui concerne la reconnaissance d'illustrations, au milieu des lignes de texte. Ainsi, les archéologues de l'IFAO ont eu accès à la base de données organisée sur Arkindex pour ce projet, afin d'annoter manuellement toutes les illustrations avec des méta-données. Cette combinaison gagnante d'intelligence artificielle et de connaissances humaines permet à Teklia de proposer une indexation encore plus précise des carnets.

Suite du projet


 A ce jour, la reconnaissance de texte manuscrit a été exécutée sur l'ensemble de la collection de pages et doit être complétée par les futures annotations des différents croquis. La prochaine étape de ce projet pour Teklia est de construire un site web et de l'alimenter avec toutes les données recueillies sur Arkindex pour ce projet, afin de créer une forme d'exposition virtuelle présentant la campagne de M. Bruyère, à l'occasion de son centenaire.