Caso de estudio / Caso de uso

“Operation Document Generator”: Transformación de videos y pantallas en manuales operativos paso a paso

1) Resumen ejecutivo

Muchas organizaciones ejecutan operaciones críticas basándose en el conocimiento no documentado: los procedimientos residen en la mente del personal, videos informales, capturas de pantalla, mensajes de chat o notas ad-hoc. El resultado es un onboarding lento, una ejecución inconsistente y un alto riesgo operativo.

Operation Document Generator resuelve esto convirtiendo videos e imágenes en documentación operativa estructurada, mediante OCR, procesamiento de escenas/fotogramas, deduplicación, refinamiento basado en LLM y plantillas manuales o de reglas. También añade una capa de conocimiento con capacidad de búsqueda mediante embeddings de vectores para que los equipos recuperen rápidamente los pasos relevantes y las mejores prácticas.

2) El problema que resolvemos (Perspectiva empresarial)

Puntos de dolor comunes que enfrentan las organizaciones:

El conocimiento operativo queda atrapado en grabaciones de video (grabaciones de pantalla, demostraciones de capacitación, grabaciones de procedimientos) y es difícil de reutilizar como documentación formal.
La creación manual de SOP/runbooks es lenta, costosa y, a menudo, queda obsoleta rápidamente.
Problemas de calidad y consistencia: diferentes equipos redactan los procedimientos de manera distinta, se omiten pasos y la documentación pierde confiabilidad.
Los pasos y capturas de pantalla duplicados o casi idénticos saturan los documentos y confunden a los usuarios. Su sistema aborda esto específicamente mediante la fusión y la deduplicación.
Falta de gobernanza y repetibilidad: sin un control basado en reglas, la generación de documentación se vuelve inconsistente entre los equipos.

¿Quiénes experimentan esto con mayor frecuencia?

Equipos de operaciones de IT y soporte que crean runbooks y procedimientos de incidentes.
Centros de servicios compartidos, BPO y helpdesks que documentan flujos de trabajo repetitivos.
Operaciones de manufactura o de campo que capturan procedimientos basados en pasos.
Cualquier organización con procedimientos impulsados por el cumplimiento que requieran estandarización y trazabilidad.

3) La solución

Operation Document Generator es una aplicación modular que:

Acepta videos e imágenes operativos a través de una interfaz web.
Analiza la calidad del video y extrae metadatos antes del procesamiento.
Divide el video en fotogramas, fusiona fotogramas relacionados en escenas y luego elimina duplicados.
Ejecuta OCR en fotogramas/imágenes seleccionados y almacena los resultados en PostgreSQL.
Refina los pasos en un manual estructurado (plantillas de manuales + estructura basada en reglas + refinamiento por LLM).
Proporciona una interfaz de usuario de Rule Manager para gobernar la gestión de deduplicación/superposición y analizar el uso de reglas.
Añade una capa de chatbot / recuperación de conocimiento mediante embeddings + búsqueda de similitud de vectores para sesiones rápidas de preguntas y respuestas.

4) Cómo funciona (Flujo de trabajo integral)

Paso 1 — Carga y validación
Los usuarios cargan un video a través de la interfaz de usuario web; el sistema extrae los metadatos y puede ejecutar un analizador de calidad para confirmar que el video es apto para el procesamiento.

Paso 2 — Extracción de fotogramas y fusión de escenas
El procesador de video extrae fotogramas a intervalos (extractor de fotogramas) y luego fusiona los fotogramas relacionados en grupos lógicos o escenas para reducir la redundancia y facilitar el análisis.

Paso 3 — Deduplicación
Un componente de deduplicación dedicado elimina fotogramas duplicados o casi idénticos (similitud de hash/imagen), asegurando que solo el contenido único y significativo avance hacia la documentación.

Paso 4 — OCR + almacenamiento
Se ejecuta el OCR en fotogramas/imágenes seleccionados utilizando herramientas como Tesseract, EasyOCR o Vision APIs. Los resultados se almacenan mediante lógica de repositorio en PostgreSQL para su posterior recuperación y auditoría.

Paso 5 — Conversión de observaciones brutas en pasos estructurados
Un pipeline de “Chain of Thought” convierte el contenido bruto extraído en un flujo de acción limpio y paso a paso: extrae pasos candidatos, los valida, agrupa y fusiona superposiciones, elimina duplicados y estandariza la salida en un formato de plantilla de manual.

Paso 6 — Gobernanza de reglas y estructura de manuales
Se pueden aplicar dos enfoques: estructura manual (basada en plantillas) o estructura basada en reglas (gobernada mediante la integración de reglas + interfaz de usuario de reglas).

Paso 7 — Entrega, búsqueda y monitoreo
Las salidas y artefactos generados pueden almacenarse en un almacenamiento de objetos (MinIO), mientras que el comportamiento del sistema se registra en archivos de registro separados y seguimiento en base de datos para dar soporte al monitoreo y la resolución de problemas.

5) Características clave implementadas

A) Motor de procesamiento de video

Gestión de carga de video + captura de metadatos.
Analizador de calidad de video para filtrar entradas de baja calidad.
Servicio de extracción de fotogramas.
Fusión de escenas/fotogramas para reducir el ruido y mejorar la agrupación de pasos.
Deduplicación de imágenes/fotogramas (basada en hash/similitud) para conservar solo fotogramas significativos.

B) OCR y extracción de contenido

Capa de servicio OCR con persistencia en repositorio (resultados auditables).
Concepto de manejador unificado que puede enrutar la entrada a OCR, prompting o post-procesamiento.

C) Estructuración de pasos mediante “Chain-of-Thought” (diferenciador principal)

Convierte contenido de video bruto y desordenado en pasos operativos limpios y ordenados.
Agrupación, resolución de superposiciones, fusión, limpieza y salida de plantillas.

D) Integración de reglas + interfaz de usuario de Rule Manager (gobernanza y control)

Interfaz web para la gestión CRUD de reglas de deduplicación/superposición.
Vista de análisis de reglas: frecuencia de uso de reglas + reglas activas no utilizadas.
Página de revisión de superposición de documentos para inspeccionar las reglas aplicadas frente a los resultados del documento.
Comportamiento de versionado para salidas de reglas en Excel (autoincremento de versiones).

E) Recuperación de conocimiento (Embeddings + búsqueda de vectores)

El componente de embeddings soporta múltiples proveedores (modelos locales/Ollama/OpenAI/AWS Bedrock).
Uso de PostgreSQL + pgVector para la búsqueda de similitud de vectores.
El repositorio del chatbot almacena mensajes + embeddings y recupera mensajes similares mediante similitud de vectores.
Script para añadir “guías de mejores prácticas” en los embeddings para mejorar la orientación del chatbot.

F) Operaciones de nivel empresarial

Scripts de inicialización y reinicio de la base de datos PostgreSQL; objetos estructurados y secuencias para IDs consistentes.
Integración de almacenamiento de objetos a través de MinIO (compatible con S3) para fotogramas/artefactos/salidas de registros.
Registros dedicados (log de la aplicación, log de docgen, logs de monitoreo) para aislar problemas rápidamente.
Contenerización con Dockerfile y patrones de despliegue en Kubernetes/OpenShift.

G) UX y usabilidad

Soporte de interfaz de usuario multi-idioma (traducciones al inglés/japonés).
Scripts de interfaz de usuario para carga de video (arrastrar/soltar, progreso, gestión de errores).
Plantillas de tablero de administración para monitorear el estado de carga de videos y las actividades de los usuarios.

6) Arquitectura

Capa web: enrutamiento, plantillas, sesiones, selección de idioma, protección de inicio de sesión.
Capa de servicios: servicio de carga de video, servicio de integración de reglas, servicio de estructura manual, servicios de fotogramas.
Capa de datos (PostgreSQL + pgVector): almacena metadatos de video, salidas de OCR, embeddings, registros de sesión, resultados de procesamiento.
Almacenamiento de objetos (MinIO): almacena contenido binario de gran tamaño, como fotogramas extraídos y artefactos.
Observabilidad: logs rotativos + scripts de monitoreo para reiniciar y mantener el tiempo de actividad
Despliegue: aplicación Dockerizada + configuraciones de despliegue en Kubernetes/OpenShift

7) Un ejemplo concreto de resultados

Nuestro pipeline muestra el impacto práctico de la deduplicación y el refinamiento: partiendo de 6 registros únicos, deduplicamos hasta llegar a 4, luego continuamos con el agrupamiento, la fusión y el refinamiento para producir un documento final, logrando una reducción de ~33% al final del pipeline. Esto se traduce en menos ruido, menos pasos repetidos, manuales más limpios y tiempos de revisión más rápidos.

8) Casos de uso principales

Caso de uso 1 — Runbooks de operaciones de IT a partir de grabaciones de pantalla
Situación: Los equipos de IT graban correcciones de incidentes y pasos de mantenimiento en video.
Problema: Convertirlos en runbooks toma horas y a menudo se omiten pasos.
Cómo ayudamos: Carga de video → extracción de fotogramas → OCR de texto de la interfaz de usuario → construcción de secuencia de pasos → aplicación de reglas de deduplicación → publicación del runbook.

Caso de uso 2 — Procedimientos Operativos Estándar (SOP) para equipos de procesos de negocio
Situación: Los equipos de operaciones capacitan al personal mediante videos o capturas de pantalla.
Problema: El onboarding es lento; los procedimientos son inconsistentes.
Cómo ayudamos: Generación de manuales estandarizados con plantillas + gobernanza de reglas + interfaz de usuario multilingüe.

Caso de uso 3 — Base de conocimientos de soporte al cliente a partir de soluciones recurrentes
Situación: Los agentes de soporte resuelven problemas similares repetidamente.
Problema: El conocimiento está disperso en chats y grabaciones.
Cómo ayudamos: Almacenamiento de embeddings + búsqueda vectorial para recuperar casos similares y guías de mejores prácticas.

Caso de uso 4 — Procedimientos impulsados por el cumplimiento y la auditabilidad
Situación: Las organizaciones reguladas requieren procedimientos trazables y consistentes.
Problema: Es difícil demostrar que los pasos se capturaron de manera consistente y se actualizaron.
Cómo ayudamos: Gestor de reglas + persistencia en base de datos + logs para crear gobernanza y trazabilidad en la generación de documentación.

9) Diferenciadores (Por qué esto no es "solo OCR")

Pipeline de video a manual con lógica de escenas y deduplicación
Interfaz de gobernanza de reglas para controlar duplicados/solapamientos y medir la efectividad de las reglas
Refinamiento potenciado por LLM mediante gestión de prompts y mejoras en la calidad de los pasos
Preparado para stack empresarial: Postgres + pgVector, almacenamiento MinIO, patrones de Docker/Kubernetes/OpenShift, logs/scripts de monitoreo
Interfaz de usuario multilingüe (inglés/japonés) para entrega global