Chez Apidae Factory, nous explorons en permanence de nouvelles façons d’améliorer la collecte et l’exploitation des données touristiques. Dans ce cadre, nous avons réalisé un POC visant à utiliser un modèle de langage (LLM) pour extraire des informations structurées à partir de flyers et générer une requête exploitable par nos APIs. Ainsi, à partir d’un simple flyer, l’IA pourrait pré-remplir bon nombre de champs d’une fiche Apidae, et proposer un brouillon pertinent. Ce projet s’inscrit dans une démarche plus large d’automatisation et d’optimisation de la collecte de données et de la création des POI.

Objectifs du POC

Comme lors de l’itération précédente, nous nous sommes fixé un double objectif technologique et fonctionnel lors de ce POC. Techniquement, nous voulions tester différents LLM sur la reconnaissance optique de caractère (OCR) et tester également les déploiements sur une nouvelle infrastructure dédiée à l’IA. Fonctionnellement, le but était d’évaluer la capacité d’un LLM à identifier les informations clés d’un flyer (dates, lieux, types d’événements, contacts, tarifs, descriptifs, photos…) et à les structurer automatiquement pour une intégration fluide dans nos services.

Les enjeux étaient les suivants :

  1. Réduire la saisie manuelle et le risque d’erreurs associées.
  2. Accélérer le traitement et l’exploitation des informations collectées.
  3. Récupérer des données plus complètes et homogènes pour améliorer la qualité des POI.

Choix technologiques

Pour cette expérimentation, nous avons sélectionné Pixtral (développé par Mistral AI) comme moteur LLM multimodal, reconnu pour ses performances en extraction d’informations à partir de textes non structurés. D’autres possibilités comme Llama 3.2 et Qwen2-VL ont été testées, mais Pixtral offrait la meilleure qualité de traitement.

llama

Autre nouveauté technique, l’hébergement a été assuré par Groq. Cette solution offre puissance et scalabilité, ce qui est particulièrement adapté à ce type de traitement.

Pourquoi avoir choisi Groq ?

Groq est une plateforme optimisée pour exécuter des LLM et modèles multimodaux comme Pixtral avec une latence ultra-faible et un coût d’inférence réduit, grâce à ses Language Processing Units (LPU) ultra-rapides.

Extraction de données à partir d’un flyer

Une fois la technologie sélectionnée, nous avons concentré nos efforts sur la fonctionnalité visée, en structurant le projet en quatre phases :

  1. Sélection et préparation des données : Nous avons constitué un corpus de flyers présentant divers formats et typologies d’informations (PDF, images, texte brut).
  2. Traitement par le LLM : Pixtral a été paramétré pour extraire les éléments pertinents et les organiser de manière structurée.
  3. Génération de la requête : Une fois les données extraites, elles ont été transformées en format JSON prêtes à être intégrées à nos APIs.
  4. Évaluation des résultats : Nous avons mesuré la précision et la fiabilité des extractions en les comparant à une saisie manuelle.

En partant d’un PDF d’annonce de Rock en Seine 2023, l’IA a par exemple pu déterminer le type d’objet à créer, les dates d’ouvertures, certaines informations d’adresse ainsi que des informations sur la programmation. Cette extraction a ensuite été formatée pour rentrer dans le format Apidae et aurait pu être envoyée dans nos APIs d’écriture.

Image de base pour les tests de l’extraction de données
Image de base pour les tests de l’extraction de données
Données extraites et retraitées au format Apidae
Données extraites et retraitées au format Apidae

Résultats et enseignements

Les premiers tests ont montré une bonne capacité du LLM à extraire les informations essentielles, notamment les dates, lieux et descriptions d’événements, mais aussi les tarifs et les photos lorsque celles-ci étaient accessibles. Cependant, certaines mises en page complexes ont nécessité des ajustements pour améliorer la reconnaissance des données et la gestion des ambiguïtés. Le modèle Pixtral, développé par les français de Mistral AI, s’est donc avéré être un choix pertinent pour ce besoin.

-

L’hébergement sur Groq s’est avéré performant, garantissant une exécution rapide et efficace du modèle tout en offrant des possibilités d’optimisation pour le futur.

L’IA s’est révélée très pertinente dans sa compréhension des images et du modèle Apidae, ce qui est dans la lignée des précédents travaux de la Factory. La compréhension automatique des flyers est donc une nouvelle option sérieuse pour proposer à nos utilisateurs une saisie toujours plus fluide et rapide.

Cette nouvelle itération est donc une réussite, tant sur le plan fonctionnel que technologique : nous avons confirmé l’utilité de l’IA dans l’extraction des données d’un flyer, tout en validant Groq comme étant un hébergeur possible pour nos LLM, dont Pixtral a été le plus performant pour ce POC.

Prochaines étapes

Sur la base des enseignements tirés de ce POC, plusieurs axes d’amélioration sont envisagés :

  • Optimiser les modèles pour gérer une plus grande variété de formats de flyers.
  • Mettre en place une validation humaine pour affiner la qualité des extractions lorsque des doutes subsistent.
  • Étendre cette approche à d’autres usages où l’IA peut faciliter la collecte et la structuration des données.

Cette expérimentation confirme le potentiel des LLM pour automatiser et fiabiliser le traitement documentaire, ouvrant ainsi la voie à des applications plus avancées au sein d’Apidae.

Article écrit par :

Tom Rouxel