Se rendre au contenu

Arkindex

Notre plateforme de traitement de documents


Demo 

Arkindex est une plateforme web conçue pour traiter de grandes collections de documents numérisés.


ORGANISEZ, 

ANNOTEZ, 

ACCÉDEZ À VOS DONNÉES

dans une seule interface personnalisable. 

À propos d'Arkindex


Depuis 2019, TEKLIA développe Arkindex, une plateforme open source pour le traitement de documents numérisés à grande échelle. 

Arkindex est conçu selon nos valeurs d'ouverture et de flexibilité. Voici les avantages principaux de notre approche : 

Intégration d'un large éventail d'algorithmes et de modèles

Grâce à l'utilisation de Docker et d'un système de gestion d'algorithmes et de modèles hautement générique, de nouveaux algorithmes ou modèles peuvent être facilement intégrés à Arkindex. Cette flexibilité unique dans le domaine du traitement de documents vous garantit l'adoption du modèle le plus performant au moment de votre projet. 

Flexibilité dans la structure du corpus et des éléments

Arkindex offre une flexibilité totale dans la structuration des documents. Vous pouvez créer n'importe quel type de hiérarchie au sein d'Arkindex pour afficher et analyser la structure de votre corpus et les éléments contenus dans vos documents. Cette flexibilité est essentielle pour s'adapter à la nature diverse et souvent complexe des archives et des collections patrimoniales. 

Accès et contrôle complets grâce à une API 

Toutes les interactions avec Arkindex sont facilitées par une API documentée et testée. Cette API est la colonne vertébrale de notre système et vous offre un contrôle complet sur vos méthodologie et vos données. 

Fonctionnalités d'Arkindex

Arkindex est facile à utiliser et personnalisable en fonction de vos besoins.

Flexibilité d'intégration de l'IA 

(Docker et Python)

Arkindex permet l'intégration de modèles d'IA personnalisés via Docker et Python, offrant ainsi aux utilisateurs la flexibilité nécessaire pour intégrer n'importe quelle bibliothèque ou modèle de traitement de documents.

Accès complet à l'API

L'accès complet à l'API dans toutes les éditions permet aux développeurs de créer et d'intégrer des applications personnalisées qui étendent les fonctionnalités de la plateforme Arkindex.


Accès via  ligne de commande

La disponibilité de plusieurs clients logiciels, allant d'une interface web à une interface de ligne de commande (CLI) open source, vous permet d'adapter votre utilisation d'Arkindex à vos besoins. 


Volume illimité de données et de métadonnées

Il n'y a aucune limite quant à la quantité de données et de métadonnées pouvant être traitées dans toutes les éditions, ce qui garantit aux utilisateurs une gestion en toute confiance des ensembles de données volumineux et complexes.


Nombre illimité d'utilisateurs

Toutes les éditions prennent en charge un nombre illimité d'utilisateurs, garantissant ainsi une flexibilité de collaboration pour les équipes de toutes tailles.


Formats d'exportation de données

Les options d'exportation comprennent des formats tels que PDF, CSV, PAGE XML, ALTO, Microsoft Word (Docx) et SQLite. Il est possible d'intégrer des formats d'export sur-mesure. 

Les algorithmes et modèles suivants sont actuellement intégrés dans Arkindex :

Segmentation sémantique : Doc-UFCN, MaskRCNN, YOLO V8, Kraken, Grounding DINO, TableTransformer, LayoutParser
Reconnaissance de texte : Tesseract, PyLaia, Kraken, DAN, Google Vision.
Reconnaissance d'entités nommées : Spacy, Flair, Stanza.
Classification d'images : Resnet, Yolo V8.
Description d'images : Llava.
Traduction automatique : MarianMT.
Grand modèle linguistique (Large Language Model, LLM): QWEN, Open AI, Claude, Gemini.

Éditions d'Arkindex

Arkindex propose trois plans distincts (Community, Academia et Enterprise) afin de répondre aux besoins des organisations disposant de différents niveaux de ressources, d'expertise technique et d'infrastructure.

Arkindex Community (Open Source)

L'édition Community offre aux petites équipes ou aux groupes de recherche un contrôle total sur le déploiement, en auto-hébergement et sans frais de licence. Elle est idéale lorsque vous disposez de compétences informatiques en internes. 

Arkindex Academia

L'édition Academia est une offre de licence à prix réduit destinée exclusivement aux projets de recherche universitaire en France et à l'international. L'édition propose une liste de contrôle d'accès pour travailler en équipe. La quantité de documents à traiter est limitée à 250 000 images. 

Arkindex Enterprise

L'édition Entreprise ajoute des fonctionnalités et une assistance avancées, telles qu'un contrôle d'accès et l'intégration avec des clusters de calcul haute performance, tout en continuant à prendre en charge l'auto-hébergement. Ce plan peut être associé à une option de service d'assistance de TEKLIA. Il convient aux organisations dont les projets nécessitent un traitement de masse. 


Tarifs

Arkindex Community (Open Source)
Gratuit


  •  Auto-hébergé
  •  Quantité illimitée de documents
  •  Projets soit publics soit privés pour l'utilisateur
  •  Calcul haute performance (HPC) non inclus
  •  Installation et maintenance en libre-service

Arkindex Academia 
1 500€ / mois

  •   Auto-hébergé ou hébergé par TEKLIA
  •  Quantité de documents limitée à 250 000
  •  Liste de contrôle d'accès avancée (ACL)
  •  Calcul haute performance (HPC) intégré 
  •   Installation et maintenance en libre-service 
  •  Option de service d'assistance TEKLIA 

Arkindex Enterprise 
4 000€ / mois

  •   Auto-hébergé ou hébergé par TEKLIA
  •  Quantité illimitée de documents 
  •  Liste de contrôle d'accès avancée (ACL)
  •  Calcul haute performance (HPC) intégré 
  •   Installation et maintenance en libre-service 
  •  Option de service d'assistance TEKLIA 

Spécification d'Arkindex

Importation de documents


Arkindex vous permet de créer facilement des dossiers à partir de vos images dans une structure personnalisable. Vous pouvez ainsi importer vos images depuis votre ordinateur ou depuis un serveur IIIF.

Importez et organisez des images de documents à partir de fichiers (jpeg, tiff, png), PDF, manifestes IIIF .

Documentation sur l'import ->

Documentation sur l'organisation ->

Annotation



Arkindex vous permet de produire les annotation nécessaires au traitement de vos documents. Il est nécessaire d'enregistrer manuellement en amont du projet quelques exemples du traitement attendu pour mieux cibler l’analyse automatique.

Annotez vos images avec :

  •     des zones d'éléments sur l'image, avec leur type et leur position
  •     des transcriptions de texte à n'importe quel niveau (page, paragraphe, ligne, mot)
  •     des classifications
  •     des métadonnées

TEKLIA peut également mettre à votre disposition sur demande l'interface Callico, qui s'intègre à Arkindex pour des campagnes d'annotation collaborative avancées.


Documentation sur l'annotation ->

Traitement


Arkindex est une plateforme permettant d'exécuter tout algorithme de traitement de documents : OCR, HTR, extraction de caractéristiques, sous-titrage, traduction, etc. Son architecture a été conçue pour être générique, ce qui lui permet de stocker tout type de résultat grâce à des éléments configurables.

Les types de traitement suivants sont possibles avec Arkindex :

Type de traitement 

Description

Classification d'images

Associer une catégorie à une image ou à une partie d'une image.

Détection d'objets

Détecter un objet dans une image à l'aide d'un cadre de sélection et identifier son type.

Segmentation d'objets 

Détecter le contour précis d'un objet dans une image et identifier son type.

Légende d'images

Générer une légende ou des balises pour une image.

Transcription

 Transcrire du texte imprimé ou manuscrit à partir d'une image.

Classification de texte

Associer une catégorie à un texte.

Extraction de valeurs clés

Extraire des informations d'une image ou d'un texte sous la forme d'une association clé-valeur.

Reconnaissance de tableaux

Détecter et transcrire les informations présentées sous forme de tableau tout en préservant sa structure.

Reconnaissance d'entités nommées

Détecter et saisir les entités nommées dans un texte.

Liaison d'entités

Lier une entité nommée à un système de référence existant.

Traduction

Traduire un texte d'une langue source vers une langue cible

Géolocalisation

Associer des coordonnées GPS à une image ou à un texte

Regroupement d'objets

Regrouper des éléments dans une même structure


Voir nos tutoriels vidéo

Méthodologie


Arkindex offre une flexibilité inégalée pour s'adapter à vos méthodologies de travail : 

  1. Gestion de projet personnalisable : Arkindex vous offre la liberté de définir des flux de travail complexes adaptés à vos besoins de traitement. De l'analyse de la mise en page et la classification à la reconnaissance de texte (OCR/HTR), en passant par la reconnaissance d'entités nommées et la génération de métadonnées, vous pouvez organiser chaque étape pour obtenir le résultat souhaité.

  2. Contrôle en temps réel : avec Arkindex, vous pouvez surveiller en temps réel la progression de chaque tâche au sein de votre flux de travail. Cette fonctionnalité puissante vous fournit une estimation du temps nécessaire pour chaque étape et le détail des tâches exécutées à chaque instant. 

  3. Analyse des erreurs et relance :  tous les processus ne se déroulent pas toujours parfaitement. Arkindex fournit des outils pour repérer et analyser les erreurs qui peuvent survenir dans votre traitement. Une fois identifiées, vous pouvez facilement relancer les processus pour des éléments spécifiques. 

  4. Nœuds de traitement flexibles:  pour s'adapter à différentes exigences en matière d'infrastructure, Arkindex offre la possibilité de répartir vos tâches de traitement sur plusieurs nœuds. Que ce soit sur site, dans un environnement cloud ou même sur des clusters haute performance utilisant SLURM, nous avons ce qu'il vous faut.

  5. Intégration de composants personnalisés et open source : Arkindex ne se limite pas à ses fonctionnalités intégrées. Vous pouvez facilement définir vos étapes de traitement à l'aide de votre propre code ou tirer parti de la multitude de composants open source disponibles. L'intégration Docker facilite l'intégration de ces composants.




Code et versions d'Arkindex


Chez TEKLIA, notre objectif est de produire des logiciels open source de haute qualité :


Consultez les détails de nos dernières versions.

Une question sur Arkindex ? 

Contactez notre équipe pour en savoir plus !
Vous pouvez également vous rendre sur notre forum