Automatic Text Recognition

Qu'est-ce que la reconnaissance automatique de texte ?

La reconnaissance automatique de texte (ATR - Automatic Text Recognition) transforme vos piles de documents papier en un format numérique modifiable et exploitable par des ordinateurs.

Qu'est-ce que la reconnaissance optique de caractères (OCR) ?

L'OCR (reconnaissance optique de caractères) est la méthode traditionnelle de reconnaissance de texte imprimé : elle analyse la forme de chaque caractère et la compare à des polices d'écriture enregistrées. Elle fonctionne bien lorsque les caractères sont clairement séparés, que les polices sont standard et que la qualité de l'image est bonne. Dans le cas contraire, la précision diminue rapidement.

OCR/HTR Automatic Text Recognition TEKLIA

Qu'est-ce que la reconnaissance de texte manuscrit (HTR) ?

La HTR (reconnaissance de texte manuscrit) est conçue pour reconnaître le texte manuscrit. Contrairement à l'OCR, la HTR utilise des modèles qui prennent en compte des mots ou des lignes de texte entiers, combinant des informations optiques et le contexte linguistique pour produire des transcriptions plus cohérentes.

OCR/HTR Automatic Text Recognition TEKLIA

Qu'en est-il de la reconnaissance automatique de texte (ATR) ?

L'ATR est la convergence des technologies OCR et HTR. Au cours de la dernière décennie, avec le développement des algorithmes d'apprentissage profond, les frontières entre l'OCR pour les documents imprimés et l'HTR pour les documents manuscrits s'estompent. Les modèles d'ATR reconnaissent à la fois le texte imprimé et manuscrit et traitent des lignes ou des paragraphes.

OCR/HTR Automatic Text Recognition TEKLIA

Nos capacités de traitement ATR

Transcription multiligne

Texte mixte manuscrit et imprimé

Tous types d'écriture (latine, arabe, cyrillique...)

Écriture manuscrite historique et contemporaine

Langues anciennes

Enrichissement avec des métadonnées

La méthodologie ATR unique de TEKLIA

Nos services de reconnaissance automatique de texte (ATR) s'appuient sur les dernières avancées en matière de technologies d'apprentissage profond. Nous formons des modèles entièrement personnalisés, conçus pour comprendre et transcrire avec précision les langues rares et les écritures manuscrites complexes. TEKLIA a développé deux approches différentes pour le traitement ATR des documents historiques :

Méthode ATR séquentielle

Une approche séquentielle standard qui comprend l'analyse de la mise en page, la détection des lignes de texte et la reconnaissance de l'écriture manuscrite à l'aide de modèles d'apprentissage profond distincts. Cette approche est particulièrement efficace dans les cas simples où le texte suit une structure conventionnelle et où l'objectif est de fournir une transcription complète des documents pour la recherche en texte intégral.

Méthode ATR intégrée

Dans des scénarios plus complexes où la mise en page ne correspond pas à une structure standard, il peut être impossible de déterminer un ordre de lecture évident pour l'ensemble de la page. Dans de tels cas, TEKLIA propose une approche intégrée de bout en bout utilisant un seul modèle d'apprentissage profond. L'apprentissage du modèle est basé sur les modèles et les structures présents dans les données d'entraînement, ce qui lui permet de déterminer avec précision l'ordre de lecture des zones de texte, même dans des mises en page complexes et variées.

Questions-réponses : Spécificités du document

Quelles solutions avez-vous pour reconnaitre correctement des lignes de texte qui sont tournées à 90, 180 ou 270 degrés ?

Détection des lignes de texte dans n'importe quelle orientation :

Nos modèles de reconnaissance de lignes de texte (Doc-UFCN , YOLO V8) sont capables de détecter les lignes de texte dans n'importe quelle orientation (0 à 360°). Ces modèles sont conçus pour détecter avec précision les lignes de texte, quelle que soit leur position de rotation.

Est-ce que cette technologie permet de transcrire le texte écrit au crayon ?

Nos modèles sont parfaitement capables de reconnaître le texte écrit au crayon. Cette capacité dépend de l'entraînement des modèles sur des échantillons incluant ce type d'écriture. Nos ensembles de données d'entraînement englobent divers instruments d'écriture, y compris le crayon, afin de garantir que les modèles puissent reconnaître et transcrire avec précision le texte, quel que soit le support d'écriture utilisé.

Dans certains cas, des techniques de traitement d'image, telles que l'amélioration du contraste, peuvent être utilisées pour améliorer la visibilité et la clarté du texte écrit au crayon. Cependant, ces techniques ne sont généralement pas nécessaires.

Est-ce possible de traiter des documents multilingues ?

Nos modèles peuvent être entraînés à reconnaître des documents multilingues. Le processus d'entraînement consiste à exposer les modèles à la diversité des langues présentes dans le corpus cible, afin de garantir qu'ils puissent transcrire avec précision le texte dans chacune de ces langues. Nous avons déjà entraîné des modèles à traiter des corpus contenant des documents dans différentes langues (par exemple, le latin, l'allemand et le tchèque) ainsi que des documents contenant différentes langues (par exemple, un mélange de latin et de français).

Dans les cas où des modèles linguistiques sont utilisés pour améliorer la précision de la reconnaissance, nous intégrons la détection statistique de la langue comme étape préliminaire. Cela implique d'identifier la langue du texte avant d'appliquer le modèle linguistique approprié.

De plus, les modèles intégrés tels que le Document Attention Network (DAN) ont la capacité de prédire la langue en même temps que la transcription du texte, ce qui améliore l'efficacité et la précision du traitement des documents multilingues. Nous expérimentons actuellement le DAN pour reconnaître des documents contenant des langues écrites dans des directions différentes (français et arabe).

Questions-réponses : Contrôle de qualité

Comment évaluez-vous l'efficacité d'un modèle sur un jeu de donnée avec une quantité limitée d'annotations ?

Nous effectuons des évaluations qualitatives et quantitatives pour évaluer la qualité d'un modèle. Ces évaluations sont réalisées sur des échantillons représentatifs du corpus cible et, surtout, sur des échantillons qui n'ont pas été utilisés pendant la phase d'entraînement du modèle. Cette approche garantit la fiabilité de notre évaluation et reflète les performances réelles du modèle.

Pour l'aspect quantitatif, nous utilisons des mesures telles que le taux d'erreur de caractère (CER) et le taux d'erreur de mot (WER), qui sont calculés sur un échantillon de test annoté. Cela fournit une indication numérique claire des performances du modèle. En outre, nous examinons des exemples des meilleurs et des pires résultats de reconnaissance selon le CER. Cet examen permet d'identifier les domaines spécifiques dans lesquels le modèle fonctionne bien et ceux dans lesquels des amélioraaations sont nécessaires, fournissant ainsi des informations ciblées pour l'affinement du modèle.

Pour l'évaluation qualitative, nous analysons les échantillons de l'ensemble de test qui ont les scores de confiance les plus élevés et les plus bas. Ce type d'évaluation ne nécessite pas de transcription manuelle des échantillons de test. Cette approche se concentre plutôt sur la compréhension des performances du modèle en termes de confiance dans ses propres résultats. Cette analyse permet de comprendre les nuances des performances du modèle et d'identifier les modèles ou les caractéristiques spécifiques de l'ensemble de données qui peuvent affecter l'efficacité du modèle.

Comment calculez-vous la probabilité qu'une transcription automatique soit correcte ?

Tous nos modèles, y compris ceux de détection de lignes de texte et de reconnaissance de texte, sont conçus pour produire un score de confiance en plus de leurs prédictions. Ce score de confiance est un élément essentiel, car il fournit une estimation de la fiabilité de la transcription.

Pour calculer le score de confiance des modèles de reconnaissance de texte, nous avons intégré diverses méthodes à nos modèles. Celles-ci vont de techniques plus simples, telles que la mise à l'échelle de la température, à des approches plus complexes, telles que le test time dropout. Nous avons également exploré le développement de modèles de notation spécifiques formés à cette fin. Cette diversité de méthodes nous permet de prendre en charge différents types de textes et niveaux de complexité au sein du corpus cible. La mise à l'échelle de la température est implémentée par défaut dans tous nos modèles HTR. Nous avons également publié un article de recherche spécifiquement consacré à ce sujet pour la détection de lignes de texte (Boillet et al., Confidence Estimation for Object Detection in Document Images, 2023).

Est-ce possible de comparer visuellement la transcription automatique et le document source au même endroit ?

Arkindex for Exploration : Arkindex est notre premier outil conçu pour visualiser les résultats de la transcription automatique et les comparer avec les images correspondantes. Il permet aux utilisateurs de visualiser les transcriptions à différents niveaux : mot, ligne, paragraphe ou page. Dans cette interface, l'élément pertinent de l'image est mis en évidence et la transcription est affichée dans un panneau détaillé. Ce panneau comprend le score de confiance, la source de la transcription (algorithme, modèle) et un lien vers le processus d'exécution qui a produit cette transcription. Arkindex est particulièrement bien adapté à l'exploration des résultats de la transcription, offrant une interface intuitive et informative permettant aux utilisateurs d'approfondir les détails du processus de transcription et ses résultats.

Callico pour l'évaluation et la validation : Callico est conçu pour les campagnes d'évaluation ou de validation dans lesquelles une équipe d'annotateurs évalue ou corrige les résultats d'une transcription automatique. Cet outil fournit un système complet de gestion des flux de travail pour traiter les campagnes de validation impliquant un grand nombre de documents et d'annotateurs. En plus de faciliter le processus de validation, Callico fournit également une évaluation du taux d'erreur de caractères (CER). Il permet également d'exporter toutes les transcriptions au format CSV ou XLSX pour une analyse statistique plus approfondie. Cela fait de Callico un outil précieux pour les équipes qui entreprennent une évaluation ou une correction systématique et à grande échelle des transcriptions automatisées.