Arkindex
Arkindex est la plateforme de TEKLIA pour la gestion et le traitement de grandes collections de documents numérisés. Nous développons activement Arkindex depuis 2019 et l’utilisons intensivement dans tous nos projets.
- Code source d’Arkindex sur GitLab ->
- Documentation d’Arkindex ->
- Contribuer au code d’Arkindex ->
- Auto-héberger Arkindex ->
- Tutoriels Arkindex sur YouTube ->
Callico
Callico est la plateforme d’annotation et de validation de documents numérisés développée par TEKLIA. Nous l’utilisons dans tous nos projets pour générer des données d’entraînement destinées à nos modèles d’apprentissage profond. Elle est disponible en open source.
Boîte à outils de deep learning
Nous publions et maintenons notre code en open source sur GitLab.
- Doc-UFCN, une bibliothèque permettant de détecter des objets dans des documents numérisés. Découvrez-la sur PyPi et notre GitLab
- PyLaia, une bibliothèque de reconnaissance d'écriture manuscrite. Découvrez-la sur PyPi et notre Gitlab
- Nerval, une bibliothèque d'évaluation de l'extraction d'entités nommées. Découvrez-la sur GitLab
- DISS, une bibliothèque de notation de la segmentation d'images de documents. Découvrez-la sur GitLab
Modèles de deep learning
Nous publions nos modèles en accès libre sur HuggingFace :
- Modèles de reconnaissance d’écriture manuscrite pour PyLaia ->
- Modèles d’analyse de mise en page de documents pour Doc-UFCN ->
- Modèles de reconnaissance d’entités nommées pour spaCy ->
Outils pour les données
- Client Transkribus et parseur PAGE XML ->
- Clavier virtuel en extension web pour eScriptorium ->
Outils pour Arkindex
Outils open source compatibles avec Arkindex, la plateforme de traitement de documents.
- Client en ligne de commande Arkindex : une interface en ligne de commande pour une instance Arkindex. Voir sur PyPi et GitLab. Voir la documentation ->
- Client API Arkindex : une bibliothèque Python pour communiquer avec l’API Arkindex. Voir sur PyPi et GitLab. Voir la documentation ->
- Arkindex Export : une bibliothèque pour explorer et utiliser les exportations Arkindex au format sqlite. Voir sur PyPi et GitLab.
- Arkindex base worker: une classe de base pour intégrer des algorithmes de traitement dans Arkindex. Voir sur PyPi et GitLab.
Bases de données publiques issues des projets TEKLIA
Nous publions des ensembles de données prêts à l'emploi sur HugginFace :
- La base de données RIMES : documents manuscrits en français
- NorHand : un ensemble de données pour la reconnaissance de texte manuscrit en norvégien. Voir notre article.
- SIMARA : un ensemble de données de fiches manuscrites.