Caso de estudio / Caso de uso

“Operation Document Generator”: Transformación de videos y pantallas en manuales operativos paso a paso

1) Resumen ejecutivo

Muchas organizaciones ejecutan operaciones críticas basándose en el conocimiento no documentado: los procedimientos residen en la mente del personal, videos informales, capturas de pantalla, mensajes de chat o notas ad-hoc. El resultado es un onboarding lento, una ejecución inconsistente y un alto riesgo operativo.

Operation Document Generator resuelve esto convirtiendo videos e imágenes en documentación operativa estructurada, mediante OCR, procesamiento de escenas/fotogramas, deduplicación, refinamiento basado en LLM y plantillas manuales o de reglas. También añade una capa de conocimiento con capacidad de búsqueda mediante embeddings de vectores para que los equipos recuperen rápidamente los pasos relevantes y las mejores prácticas.

2) El problema que resolvemos (Perspectiva empresarial)

Puntos de dolor comunes que enfrentan las organizaciones:
  • El conocimiento operativo queda atrapado en grabaciones de video (grabaciones de pantalla, demostraciones de capacitación, grabaciones de procedimientos) y es difícil de reutilizar como documentación formal.
  • La creación manual de SOP/runbooks es lenta, costosa y, a menudo, queda obsoleta rápidamente.
  • Problemas de calidad y consistencia: diferentes equipos redactan los procedimientos de manera distinta, se omiten pasos y la documentación pierde confiabilidad.
  • Los pasos y capturas de pantalla duplicados o casi idénticos saturan los documentos y confunden a los usuarios. Su sistema aborda esto específicamente mediante la fusión y la deduplicación.
  • Falta de gobernanza y repetibilidad: sin un control basado en reglas, la generación de documentación se vuelve inconsistente entre los equipos.
¿Quiénes experimentan esto con mayor frecuencia?
  • Equipos de operaciones de IT y soporte que crean runbooks y procedimientos de incidentes.
  • Centros de servicios compartidos, BPO y helpdesks que documentan flujos de trabajo repetitivos.
  • Operaciones de manufactura o de campo que capturan procedimientos basados en pasos.
  • Cualquier organización con procedimientos impulsados por el cumplimiento que requieran estandarización y trazabilidad.

3) La solución

Operation Document Generator es una aplicación modular que:

  • Acepta videos e imágenes operativos a través de una interfaz web.
  • Analiza la calidad del video y extrae metadatos antes del procesamiento.
  • Divide el video en fotogramas, fusiona fotogramas relacionados en escenas y luego elimina duplicados.
  • Ejecuta OCR en fotogramas/imágenes seleccionados y almacena los resultados en PostgreSQL.
  • Refina los pasos en un manual estructurado (plantillas de manuales + estructura basada en reglas + refinamiento por LLM).
  • Proporciona una interfaz de usuario de Rule Manager para gobernar la gestión de deduplicación/superposición y analizar el uso de reglas.
  • Añade una capa de chatbot / recuperación de conocimiento mediante embeddings + búsqueda de similitud de vectores para sesiones rápidas de preguntas y respuestas.

4) Cómo funciona (Flujo de trabajo integral)

Paso 1 — Carga y validación
Los usuarios cargan un video a través de la interfaz de usuario web; el sistema extrae los metadatos y puede ejecutar un analizador de calidad para confirmar que el video es apto para el procesamiento.

Paso 2 — Extracción de fotogramas y fusión de escenas
El procesador de video extrae fotogramas a intervalos (extractor de fotogramas) y luego fusiona los fotogramas relacionados en grupos lógicos o escenas para reducir la redundancia y facilitar el análisis.

Paso 3 — Deduplicación
Un componente de deduplicación dedicado elimina fotogramas duplicados o casi idénticos (similitud de hash/imagen), asegurando que solo el contenido único y significativo avance hacia la documentación.

Paso 4 — OCR + almacenamiento
Se ejecuta el OCR en fotogramas/imágenes seleccionados utilizando herramientas como Tesseract, EasyOCR o Vision APIs. Los resultados se almacenan mediante lógica de repositorio en PostgreSQL para su posterior recuperación y auditoría.

Paso 5 — Conversión de observaciones brutas en pasos estructurados
Un pipeline de “Chain of Thought” convierte el contenido bruto extraído en un flujo de acción limpio y paso a paso: extrae pasos candidatos, los valida, agrupa y fusiona superposiciones, elimina duplicados y estandariza la salida en un formato de plantilla de manual.

Paso 6 — Gobernanza de reglas y estructura de manuales
Se pueden aplicar dos enfoques: estructura manual (basada en plantillas) o estructura basada en reglas (gobernada mediante la integración de reglas + interfaz de usuario de reglas).

Paso 7 — Entrega, búsqueda y monitoreo
Las salidas y artefactos generados pueden almacenarse en un almacenamiento de objetos (MinIO), mientras que el comportamiento del sistema se registra en archivos de registro separados y seguimiento en base de datos para dar soporte al monitoreo y la resolución de problemas.

5) Características clave implementadas

A) Motor de procesamiento de video

  • Gestión de carga de video + captura de metadatos.
  • Analizador de calidad de video para filtrar entradas de baja calidad.
  • Servicio de extracción de fotogramas.
  • Fusión de escenas/fotogramas para reducir el ruido y mejorar la agrupación de pasos.
  • Deduplicación de imágenes/fotogramas (basada en hash/similitud) para conservar solo fotogramas significativos.

B) OCR y extracción de contenido

  • Capa de servicio OCR con persistencia en repositorio (resultados auditables).
  • Concepto de manejador unificado que puede enrutar la entrada a OCR, prompting o post-procesamiento.

C) Estructuración de pasos mediante “Chain-of-Thought” (diferenciador principal)

  • Convierte contenido de video bruto y desordenado en pasos operativos limpios y ordenados.
  • Agrupación, resolución de superposiciones, fusión, limpieza y salida de plantillas.

D) Integración de reglas + interfaz de usuario de Rule Manager (gobernanza y control)

  • Interfaz web para la gestión CRUD de reglas de deduplicación/superposición.
  • Vista de análisis de reglas: frecuencia de uso de reglas + reglas activas no utilizadas.
  • Página de revisión de superposición de documentos para inspeccionar las reglas aplicadas frente a los resultados del documento.
  • Comportamiento de versionado para salidas de reglas en Excel (autoincremento de versiones).

E) Recuperación de conocimiento (Embeddings + búsqueda de vectores)

  • El componente de embeddings soporta múltiples proveedores (modelos locales/Ollama/OpenAI/AWS Bedrock).
  • Uso de PostgreSQL + pgVector para la búsqueda de similitud de vectores.
  • El repositorio del chatbot almacena mensajes + embeddings y recupera mensajes similares mediante similitud de vectores.
  • Script para añadir “guías de mejores prácticas” en los embeddings para mejorar la orientación del chatbot.

F) Operaciones de nivel empresarial

  • Scripts de inicialización y reinicio de la base de datos PostgreSQL; objetos estructurados y secuencias para IDs consistentes.
  • Integración de almacenamiento de objetos a través de MinIO (compatible con S3) para fotogramas/artefactos/salidas de registros.
  • Registros dedicados (log de la aplicación, log de docgen, logs de monitoreo) para aislar problemas rápidamente.
  • Contenerización con Dockerfile y patrones de despliegue en Kubernetes/OpenShift.

G) UX y usabilidad

  • Soporte de interfaz de usuario multi-idioma (traducciones al inglés/japonés).
  • Scripts de interfaz de usuario para carga de video (arrastrar/soltar, progreso, gestión de errores).
  • Plantillas de tablero de administración para monitorear el estado de carga de videos y las actividades de los usuarios.

6) Arquitectura

  • Capa web: enrutamiento, plantillas, sesiones, selección de idioma, protección de inicio de sesión.
  • Capa de servicios: servicio de carga de video, servicio de integración de reglas, servicio de estructura manual, servicios de fotogramas.
  • Capa de datos (PostgreSQL + pgVector): almacena metadatos de video, salidas de OCR, embeddings, registros de sesión, resultados de procesamiento.
  • Almacenamiento de objetos (MinIO): almacena contenido binario de gran tamaño, como fotogramas extraídos y artefactos.
  • Observabilidad: logs rotativos + scripts de monitoreo para reiniciar y mantener el tiempo de actividad
  • Despliegue: aplicación Dockerizada + configuraciones de despliegue en Kubernetes/OpenShift

7) Un ejemplo concreto de resultados

Nuestro pipeline muestra el impacto práctico de la deduplicación y el refinamiento: partiendo de 6 registros únicos, deduplicamos hasta llegar a 4, luego continuamos con el agrupamiento, la fusión y el refinamiento para producir un documento final, logrando una reducción de ~33% al final del pipeline. Esto se traduce en menos ruido, menos pasos repetidos, manuales más limpios y tiempos de revisión más rápidos.

8) Casos de uso principales

Caso de uso 1 — Runbooks de operaciones de IT a partir de grabaciones de pantalla
Situación: Los equipos de IT graban correcciones de incidentes y pasos de mantenimiento en video.
Problema: Convertirlos en runbooks toma horas y a menudo se omiten pasos.
Cómo ayudamos: Carga de video → extracción de fotogramas → OCR de texto de la interfaz de usuario → construcción de secuencia de pasos → aplicación de reglas de deduplicación → publicación del runbook.

Caso de uso 2 — Procedimientos Operativos Estándar (SOP) para equipos de procesos de negocio
Situación: Los equipos de operaciones capacitan al personal mediante videos o capturas de pantalla.
Problema: El onboarding es lento; los procedimientos son inconsistentes.
Cómo ayudamos: Generación de manuales estandarizados con plantillas + gobernanza de reglas + interfaz de usuario multilingüe.

Caso de uso 3 — Base de conocimientos de soporte al cliente a partir de soluciones recurrentes
Situación: Los agentes de soporte resuelven problemas similares repetidamente.
Problema: El conocimiento está disperso en chats y grabaciones.
Cómo ayudamos: Almacenamiento de embeddings + búsqueda vectorial para recuperar casos similares y guías de mejores prácticas.

Caso de uso 4 — Procedimientos impulsados por el cumplimiento y la auditabilidad
Situación: Las organizaciones reguladas requieren procedimientos trazables y consistentes.
Problema: Es difícil demostrar que los pasos se capturaron de manera consistente y se actualizaron.
Cómo ayudamos: Gestor de reglas + persistencia en base de datos + logs para crear gobernanza y trazabilidad en la generación de documentación.

9) Diferenciadores (Por qué esto no es "solo OCR")

  • Pipeline de video a manual con lógica de escenas y deduplicación
  • Interfaz de gobernanza de reglas para controlar duplicados/solapamientos y medir la efectividad de las reglas
  • Refinamiento potenciado por LLM mediante gestión de prompts y mejoras en la calidad de los pasos
  • Preparado para stack empresarial: Postgres + pgVector, almacenamiento MinIO, patrones de Docker/Kubernetes/OpenShift, logs/scripts de monitoreo
  • Interfaz de usuario multilingüe (inglés/japonés) para entrega global