Étude de cas / Cas d'usage

« Operation Document Generator » — Transformer les vidéos et captures d'écran en manuels opérationnels pas à pas

1) Résumé opérationnel

De nombreuses organisations gèrent des opérations critiques basées sur des connaissances tacites : les procédures résident dans l'esprit des collaborateurs, des vidéos informelles, des captures d'écran, des messages de chat ou des notes ad hoc. Il en résulte une intégration lente, une exécution incohérente et un risque opérationnel élevé.

Operation Document Generator résout ce problème en convertissant les vidéos et les images en documentation opérationnelle structurée — avec OCR, traitement de scènes/images, déduplication, affinement basé sur LLM, et modèles de règles/manuels. Il ajoute également une couche de connaissances interrogeable via des embeddings afin que les équipes puissent retrouver rapidement les étapes pertinentes et les meilleures pratiques.

2) Le problème résolu (Vision métier)

Points de friction courants rencontrés par les organisations :
  • Les connaissances opérationnelles sont piégées dans des enregistrements vidéo (captures d'écran, démos de formation, tutoriels) et sont difficiles à réutiliser comme documentation formelle.
  • La création manuelle de SOP/runbooks est lente, coûteuse et devient souvent rapidement obsolète.
  • Problèmes de qualité et de cohérence : les équipes rédigent les procédures différemment, des étapes sont omises et la documentation devient peu fiable.
  • Les étapes et captures d'écran en double ou quasi-identiques alourdissent les documents et déroutent les utilisateurs. Votre système traite spécifiquement ce point par la fusion et la déduplication.
  • Manque de gouvernance et de répétabilité : sans contrôle basé sur des règles, la génération de documentation devient incohérente entre les équipes.
Qui est le plus concerné ?
  • Équipes d'exploitation et de support IT créant des runbooks et des procédures d'incident
  • Centres de services partagés, BPO et helpdesks documentant des flux de travail répétitifs
  • Opérations industrielles ou de terrain capturant des procédures par étapes
  • Toute organisation ayant des procédures soumises à la conformité nécessitant standardisation et traçabilité

3) La solution

Operation Document Generator est une application modulaire qui :

  • Accepte les vidéos et images opérationnelles via une interface web
  • Analyse la qualité vidéo et extrait les métadonnées avant le traitement
  • Divise la vidéo en images, fusionne les images liées en scènes, puis supprime les doublons
  • Exécute l'OCR sur les images sélectionnées et stocke les résultats dans PostgreSQL
  • Affine les étapes en un manuel structuré (modèles de manuels + structure basée sur des règles + affinement par LLM)
  • Fournit une UI Rule Manager pour régir la gestion des doublons/chevauchements et analyser l'utilisation des règles
  • Ajoute une couche de chatbot / recherche de connaissances utilisant des embeddings + recherche de similarité vectorielle pour des FAQ rapides

4) Fonctionnement (Flux de travail de bout en bout)

Étape 1 — Téléchargement et validation
Les utilisateurs téléchargent une vidéo via l'interface web ; le système extrait les métadonnées et peut exécuter un analyseur de qualité pour confirmer que la vidéo est adaptée au traitement.

Étape 2 — Extraction d'images et fusion de scènes
Le processeur vidéo extrait les images à intervalles réguliers (extracteur d'images), puis fusionne les images liées en groupes/scènes logiques pour réduire la redondance et faciliter l'analyse.

Étape 3 — Déduplication
Un composant de déduplication dédié supprime les images identiques ou quasi-identiques (hachage/similarité d'image), garantissant que seul le contenu unique pertinent est utilisé pour la documentation.

Étape 4 — OCR + stockage
L'OCR est exécuté sur les images sélectionnées via des outils comme Tesseract, EasyOCR ou des API Vision. Les résultats sont stockés via une logique de référentiel dans PostgreSQL pour consultation et audit ultérieurs.

Étape 5 — Conversion des observations brutes en étapes structurées
Un pipeline « Chain of Thought » convertit le contenu brut extrait en un flux d'actions clair, étape par étape : il extrait les étapes candidates, les valide, regroupe et fusionne les chevauchements, supprime les doublons et standardise le résultat au format d'un modèle de manuel.

Étape 6 — Gouvernance des règles et de la structure du manuel
Deux approches peuvent être appliquées : structure manuelle (basée sur des modèles) ou structure basée sur des règles (régie via l'intégration de règles + UI de règles).

Étape 7 — Diffusion, recherche et surveillance
Les sorties et artefacts générés peuvent être stockés dans un stockage objet (MinIO), tandis que le comportement du système est consigné dans des fichiers journaux séparés et un suivi en base de données pour faciliter la surveillance et le dépannage.

5) Principales fonctionnalités implémentées

A) Moteur de traitement vidéo

  • Gestion du téléchargement vidéo + capture de métadonnées
  • Analyseur de qualité vidéo pour filtrer les entrées de faible qualité
  • Service d'extraction d'images
  • Fusion de scènes/images pour réduire le bruit et améliorer le regroupement des étapes
  • Déduplication d'images (basée sur le hachage/similarité) pour ne conserver que les images pertinentes

B) OCR et extraction de contenu

  • Couche de service OCR avec persistance en référentiel (résultats auditables)
  • Concept de gestionnaire unifié pouvant acheminer l'entrée vers l'OCR, le prompting ou le post-traitement

C) Structuration des étapes « Chain-of-Thought » (différenciateur clé)

  • Convertit le contenu vidéo brut désordonné en étapes opérationnelles claires et ordonnées
  • Regroupement, résolution des chevauchements, fusion, nettoyage et sortie sur modèle

D) Intégration des règles + UI Rule Manager (gouvernance et contrôle)

  • Une UI web pour la gestion CRUD des règles de déduplication/chevauchement
  • Vue d'analyse des règles : fréquence d'utilisation des règles + règles actives inutilisées
  • Page de révision des chevauchements de documents pour inspecter les règles appliquées par rapport aux résultats du document
  • Comportement de versionnage pour les sorties Excel de règles (incrémentation automatique des versions)

E) Recherche de connaissances (Embeddings + Recherche vectorielle)

  • Le composant d'embeddings prend en charge plusieurs fournisseurs (modèles locaux/Ollama/OpenAI/AWS Bedrock)
  • PostgreSQL + pgVector utilisés pour la recherche de similarité vectorielle
  • Le référentiel du chatbot stocke les messages + embeddings et récupère les messages similaires via la similarité vectorielle
  • Script pour ajouter des « guides de meilleures pratiques » dans les embeddings afin d'améliorer l'orientation du chatbot

F) Opérations prêtes pour l'entreprise

  • Scripts d'initialisation + réinitialisation de la base de données PostgreSQL ; objets structurés et séquences pour des ID cohérents
  • Intégration du stockage objet via MinIO (compatible S3) pour les images/artefacts/journaux de sortie
  • Journaux dédiés (log d'application, log docgen, logs de surveillance) pour isoler rapidement les problèmes
  • Conteneurisation avec Dockerfile et modèles de déploiement Kubernetes/OpenShift

G) UX et utilisabilité

  • Support UI multilingue (traductions anglais/japonais)
  • Scripts UI de téléchargement vidéo (glisser-déposer, progression, gestion des erreurs)
  • Modèles de tableau de bord d'administration pour surveiller l'état des téléchargements vidéo et les activités des utilisateurs

6) Architecture

  • Couche Web : routage, modèles, sessions, sélection de la langue, protection de la connexion
  • Couche de service : service de téléchargement vidéo, service d'intégration des règles, service de structure de manuel, services d'images
  • Couche de données (PostgreSQL + pgVector) : stocke les métadonnées vidéo, les sorties OCR, les embeddings, les journaux de session, les résultats de traitement
  • Stockage objet (MinIO) : stocke le contenu binaire volumineux comme les images extraites et les artefacts
  • Observabilité : rotation des logs + scripts de monitoring pour redémarrer et maintenir la disponibilité
  • Déploiement : application Dockerized + configurations de déploiement Kubernetes/OpenShift

7) Exemple concret de résultat

Notre pipeline démontre l'impact concret de la déduplication et de l'affinage : en partant de 6 enregistrements uniques, nous dédupliquons jusqu'à 4, puis poursuivons le clustering, la fusion et l'affinage pour produire un document final — réalisant ainsi une réduction d'environ 33 % à la fin du pipeline. Cela signifie moins de bruit, moins d'étapes répétées, des manuels plus clairs et des délais de révision raccourcis.

8) Cas d'usage principaux

Cas d'usage 1 — Runbooks d'opérations IT à partir d'enregistrements d'écran
Situation : Les équipes IT enregistrent les résolutions d'incidents et les étapes de maintenance sous forme de vidéos.
Problématique : La conversion en runbooks prend des heures et omet souvent des étapes.
Notre solution : Téléchargement de la vidéo → extraction des images → OCR du texte de l'interface → construction de la séquence d'étapes → application des règles de déduplication → publication du runbook.

Cas d'usage 2 — Standard Operating Procedures (SOP) pour les équipes de processus métier
Situation : Les équipes opérationnelles forment le personnel à l'aide de vidéos/captures d'écran.
Problématique : L'onboarding est lent ; les procédures manquent de cohérence.
Notre solution : Génération de manuels standardisés avec modèles + gouvernance des règles + interface multilingue.

Cas d'usage 3 — Base de connaissances du support client à partir de solutions récurrentes
Situation : Les agents de support résolvent les mêmes problèmes de manière répétée.
Problématique : La connaissance est dispersée entre les chats et les enregistrements.
Notre solution : Stockage d'embeddings + recherche vectorielle pour retrouver des cas similaires et des guides de bonnes pratiques.

Cas d'usage 4 — Procédures axées sur la conformité et l'auditabilité
Situation : Les organisations réglementées exigent des procédures traçables et cohérentes.
Problématique : Difficulté à prouver que les étapes ont été capturées de manière cohérente et mises à jour.
Notre solution : Gestionnaire de règles + persistance DB + logs pour créer une gouvernance et une traçabilité de la génération de documentation.

9) Différenciateurs (Pourquoi ce n'est pas « juste de l'OCR »)

  • Pipeline vidéo-vers-manuel avec logique de scène et déduplication
  • Interface de gouvernance des règles pour contrôler les chevauchements/doublons et mesurer l'efficacité des règles
  • Affinage optimisé par LLM via la gestion des prompts et l'amélioration de la qualité des étapes
  • Prêt pour l'infrastructure d'entreprise : Postgres + pgVector, stockage MinIO, modèles Docker/Kubernetes/OpenShift, logs/scripts de monitoring
  • Interface multilingue (anglais/japonais) pour un déploiement mondial