Quand le traitement automatique des documents rencontre l'histoire égyptienne
TEKLIA met la reconnaissance d'écriture au service de l'égyptologie pour l'Institut Français d'Archéologie Orientale.
Exploration des vestiges d'un village de l'Egypte ancienne
Il y a cent ans, de
1922 à 1952, une campagne cruciale de recherches archéologiques a été menée à
Deir el-Medina (Égypte), un village dont les habitants étaient tous impliqués
dans la construction et la décoration des tombes et des temples funéraires des
pharaons du Nouvel Empire. Le chef des fouilles, l'archéologue français Bernard
Bruyère, a minutieusement consigné les découvertes faites, concernant la vie
quotidienne de cette communauté d'un point de vue social, professionnel et
religieux.
Consultation des carnets de fouille
Quatre carnets manuscrits ont été remplis à la fin de la campagne. Ils ont tous été numérisés et sont désormais consultables sur le site de l'Institut Français d'Archéologie Orientale (IFAO) basé au Caire. Teklia a été sélectionné par l'IFAO pour réaliser une transcription intégrale des carnets et fournir une plateforme où ces documents pourront être indexés et consultés.
Entraînement de modèles Deep Learning pour la reconnaissance de texte manuscrit avec Arkindex
La plateforme de traitement de documents de Teklia, Arkindex, a été le principal outil utilisé sur ce projet. Les mille pages de notes minutieusement prises par Bernard Bruyère devaient être traitées efficacement et transcrites avec un haut niveau de qualité.
Annotations et entrainements
Ce projet a nécessité
l'entraînement de modèles spécifiques pour détecter les lignes sur les pages
numérisées, et pour reconnaître le type d'élément qui était écrit ou dessiné
sur les carnets. Afin de générer la vérité terrain permettant l'entraînement des
modèles, les membres de l'IFAO ont annoté des documents directement sur la
plateforme Arkindex. Ensuite, un modèle a été entraîné à transcrire les textes,
pour créer une base de données numérique que les membres de l'IFAO peuvent
librement consulter sur la plateforme.
Faire face à la diversité des éléments à détecter et à reconnaître
Tout au long de cette
importante campagne archéologique, M. Bruyère s'est attaché à fournir aux
futures générations d'égyptologues un maximum d'informations. Les séries de
notes, complètes et minutieusement organisées, constituent un véritable
témoignage de l'histoire des campagnes. Elles comprennent des textes, des
croquis et d'autres illustrations de la main de l'archéologue principal, qui ne
peuvent être séparés du reste des notes. Par conséquent, le processus de
reconnaissance automatique de texte manuscrit devait être complété par les
connaissances des membres de l'IFAO, lorsqu'il s'est agit d'annoter les
illustrations.
Combinaison de l'HTR avec les annotations d'illustrations
Une fois les modèles entraînés, le processus de reconnaissance d'écriture proprement dit a été très rapide et a produit une transcription avec un taux d'erreur caractère d'environ 4.5%. Arkindex est en effet spécialisé dans l'entraînement de modèles de Deep Learning pour la reconnaissance de texte manuscrit, livrant des résultats précis de transcription à partir d'une page numérisée en quelques secondes. Cependant, le projet nécessitait plus qu'un traitement automatique du document, notamment en ce qui concerne la reconnaissance d'illustrations, au milieu des lignes de texte. Ainsi, les archéologues de l'IFAO ont eu accès à la base de données organisée sur Arkindex pour ce projet, afin d'annoter manuellement toutes les illustrations avec des méta-données. Cette combinaison gagnante d'intelligence artificielle et de connaissances humaines permet à Teklia de proposer une indexation encore plus précise des carnets.
Suite du projet
A ce jour, la reconnaissance de texte manuscrit a été exécutée sur l'ensemble de la collection de pages et doit être complétée par les futures annotations des différents croquis. La prochaine étape de ce projet pour Teklia est de construire un site web et de l'alimenter avec toutes les données recueillies sur Arkindex pour ce projet, afin de créer une forme d'exposition virtuelle présentant la campagne de M. Bruyère, à l'occasion de son centenaire.