Projet ArchiveSearch : plateforme de recherche documentaire patrimoniale
Le Cabinet d'Expertise Marcilhac, référence en expertise d'art nouveau et art déco du XXe siècle, nous a sollicité pour la mise en place d'une méthode de numérisation et la création d'une solution d'indexation de son fonds d'archives : 136 000 feuillets de catalogues de ventes aux enchères couvrant la période 1968 à aujourd'hui.
La partie numérisation est réalisée avec un scanner de livres professionnel CZUR, avec enregistrement des documents en PDF avec couche OCR (reconnaissance des caractères).
Fonctionnalités de la plateforme
- Module de dépôt de documents avec extraction automatique du texte (OCR)
- Normalisation des noms de fichiers et du contenu textuel OCRisé
- Stockage organisé avec classement automatique par année
- Moteur de recherche textuelle par mots-clés (recherche par nom d'artiste, technique, etc.)
- Visionneuse PDF intégrée (PDF.js) avec surlignage automatique des termes recherchés (permutations possibles des mots recherchés, utile pour la recherche de noms d'artistes)
- Accès sécurisé avec gestion des utilisateurs
Solution technique
La plateforme repose sur notre solution Xooloop CMS.
Le connecteur IA de Xooloop CMS est prévu pour des évolutions futures : amélioration automatique des textes OCRisés, analyse sémantique et recherche avancée.