1) Resumen ejecutivo
Muchas organizaciones ejecutan operaciones críticas basándose en el conocimiento no documentado: los procedimientos residen en la mente del personal, videos informales, capturas de pantalla, mensajes de chat o notas ad-hoc. El resultado es un onboarding lento, una ejecución inconsistente y un alto riesgo operativo.
Operation Document Generator resuelve esto convirtiendo videos e imágenes en documentación operativa estructurada, mediante OCR, procesamiento de escenas/fotogramas, deduplicación, refinamiento basado en LLM y plantillas manuales o de reglas. También añade una capa de conocimiento con capacidad de búsqueda mediante embeddings de vectores para que los equipos recuperen rápidamente los pasos relevantes y las mejores prácticas.
2) El problema que resolvemos (Perspectiva empresarial)
Puntos de dolor comunes que enfrentan las organizaciones:
- El conocimiento operativo queda atrapado en grabaciones de video (grabaciones de pantalla, demostraciones de capacitación, grabaciones de procedimientos) y es difícil de reutilizar como documentación formal.
- La creación manual de SOP/runbooks es lenta, costosa y, a menudo, queda obsoleta rápidamente.
- Problemas de calidad y consistencia: diferentes equipos redactan los procedimientos de manera distinta, se omiten pasos y la documentación pierde confiabilidad.
- Los pasos y capturas de pantalla duplicados o casi idénticos saturan los documentos y confunden a los usuarios. Su sistema aborda esto específicamente mediante la fusión y la deduplicación.
- Falta de gobernanza y repetibilidad: sin un control basado en reglas, la generación de documentación se vuelve inconsistente entre los equipos.
¿Quiénes experimentan esto con mayor frecuencia?
- Equipos de operaciones de IT y soporte que crean runbooks y procedimientos de incidentes.
- Centros de servicios compartidos, BPO y helpdesks que documentan flujos de trabajo repetitivos.
- Operaciones de manufactura o de campo que capturan procedimientos basados en pasos.
- Cualquier organización con procedimientos impulsados por el cumplimiento que requieran estandarización y trazabilidad.
3) La solución
Operation Document Generator es una aplicación modular que:
- Acepta videos e imágenes operativos a través de una interfaz web.
- Analiza la calidad del video y extrae metadatos antes del procesamiento.
- Divide el video en fotogramas, fusiona fotogramas relacionados en escenas y luego elimina duplicados.
- Ejecuta OCR en fotogramas/imágenes seleccionados y almacena los resultados en PostgreSQL.
- Refina los pasos en un manual estructurado (plantillas de manuales + estructura basada en reglas + refinamiento por LLM).
- Proporciona una interfaz de usuario de Rule Manager para gobernar la gestión de deduplicación/superposición y analizar el uso de reglas.
- Añade una capa de chatbot / recuperación de conocimiento mediante embeddings + búsqueda de similitud de vectores para sesiones rápidas de preguntas y respuestas.
4) Cómo funciona (Flujo de trabajo integral)
Paso 1 — Carga y validación
Los usuarios cargan un video a través de la interfaz de usuario web; el sistema extrae los metadatos y puede ejecutar un analizador de calidad para confirmar que el video es apto para el procesamiento.
Paso 2 — Extracción de fotogramas y fusión de escenas
El procesador de video extrae fotogramas a intervalos (extractor de fotogramas) y luego fusiona los fotogramas relacionados en grupos lógicos o escenas para reducir la redundancia y facilitar el análisis.
Paso 3 — Deduplicación
Un componente de deduplicación dedicado elimina fotogramas duplicados o casi idénticos (similitud de hash/imagen), asegurando que solo el contenido único y significativo avance hacia la documentación.
Paso 4 — OCR + almacenamiento
Se ejecuta el OCR en fotogramas/imágenes seleccionados utilizando herramientas como Tesseract, EasyOCR o Vision APIs. Los resultados se almacenan mediante lógica de repositorio en PostgreSQL para su posterior recuperación y auditoría.
Paso 5 — Conversión de observaciones brutas en pasos estructurados
Un pipeline de “Chain of Thought” convierte el contenido bruto extraído en un flujo de acción limpio y paso a paso: extrae pasos candidatos, los valida, agrupa y fusiona superposiciones, elimina duplicados y estandariza la salida en un formato de plantilla de manual.
Paso 6 — Gobernanza de reglas y estructura de manuales
Se pueden aplicar dos enfoques: estructura manual (basada en plantillas) o estructura basada en reglas (gobernada mediante la integración de reglas + interfaz de usuario de reglas).
Paso 7 — Entrega, búsqueda y monitoreo
Las salidas y artefactos generados pueden almacenarse en un almacenamiento de objetos (MinIO), mientras que el comportamiento del sistema se registra en archivos de registro separados y seguimiento en base de datos para dar soporte al monitoreo y la resolución de problemas.
5) Características clave implementadas
A) Motor de procesamiento de video
- Gestión de carga de video + captura de metadatos.
- Analizador de calidad de video para filtrar entradas de baja calidad.
- Servicio de extracción de fotogramas.
- Fusión de escenas/fotogramas para reducir el ruido y mejorar la agrupación de pasos.
- Deduplicación de imágenes/fotogramas (basada en hash/similitud) para conservar solo fotogramas significativos.
B) OCR y extracción de contenido
- Capa de servicio OCR con persistencia en repositorio (resultados auditables).
- Concepto de manejador unificado que puede enrutar la entrada a OCR, prompting o post-procesamiento.
C) Estructuración de pasos mediante “Chain-of-Thought” (diferenciador principal)
- Convierte contenido de video bruto y desordenado en pasos operativos limpios y ordenados.
- Agrupación, resolución de superposiciones, fusión, limpieza y salida de plantillas.
D) Integración de reglas + interfaz de usuario de Rule Manager (gobernanza y control)
- Interfaz web para la gestión CRUD de reglas de deduplicación/superposición.
- Vista de análisis de reglas: frecuencia de uso de reglas + reglas activas no utilizadas.
- Página de revisión de superposición de documentos para inspeccionar las reglas aplicadas frente a los resultados del documento.
- Comportamiento de versionado para salidas de reglas en Excel (autoincremento de versiones).
E) Recuperación de conocimiento (Embeddings + búsqueda de vectores)
- El componente de embeddings soporta múltiples proveedores (modelos locales/Ollama/OpenAI/AWS Bedrock).
- Uso de PostgreSQL + pgVector para la búsqueda de similitud de vectores.
- El repositorio del chatbot almacena mensajes + embeddings y recupera mensajes similares mediante similitud de vectores.
- Script para añadir “guías de mejores prácticas” en los embeddings para mejorar la orientación del chatbot.
F) Operaciones de nivel empresarial
- Scripts de inicialización y reinicio de la base de datos PostgreSQL; objetos estructurados y secuencias para IDs consistentes.
- Integración de almacenamiento de objetos a través de MinIO (compatible con S3) para fotogramas/artefactos/salidas de registros.
- Registros dedicados (log de la aplicación, log de docgen, logs de monitoreo) para aislar problemas rápidamente.
- Contenerización con Dockerfile y patrones de despliegue en Kubernetes/OpenShift.
G) UX y usabilidad
- Soporte de interfaz de usuario multi-idioma (traducciones al inglés/japonés).
- Scripts de interfaz de usuario para carga de video (arrastrar/soltar, progreso, gestión de errores).
- Plantillas de tablero de administración para monitorear el estado de carga de videos y las actividades de los usuarios.
6) Arquitectura
- Capa web: enrutamiento, plantillas, sesiones, selección de idioma, protección de inicio de sesión.
- Capa de servicios: servicio de carga de video, servicio de integración de reglas, servicio de estructura manual, servicios de fotogramas.
- Capa de datos (PostgreSQL + pgVector): almacena metadatos de video, salidas de OCR, embeddings, registros de sesión, resultados de procesamiento.
- Almacenamiento de objetos (MinIO): almacena contenido binario de gran tamaño, como fotogramas extraídos y artefactos.
- Observabilidad: logs rotativos + scripts de monitoreo para reiniciar y mantener el tiempo de actividad
- Despliegue: aplicación Dockerizada + configuraciones de despliegue en Kubernetes/OpenShift
7) Un ejemplo concreto de resultados
Nuestro pipeline muestra el impacto práctico de la deduplicación y el refinamiento: partiendo de 6 registros únicos, deduplicamos hasta llegar a 4, luego continuamos con el agrupamiento, la fusión y el refinamiento para producir un documento final, logrando una reducción de ~33% al final del pipeline. Esto se traduce en menos ruido, menos pasos repetidos, manuales más limpios y tiempos de revisión más rápidos.
8) Casos de uso principales
Caso de uso 1 — Runbooks de operaciones de IT a partir de grabaciones de pantalla
Situación: Los equipos de IT graban correcciones de incidentes y pasos de mantenimiento en video.
Problema: Convertirlos en runbooks toma horas y a menudo se omiten pasos.
Cómo ayudamos: Carga de video → extracción de fotogramas → OCR de texto de la interfaz de usuario → construcción de secuencia de pasos → aplicación de reglas de deduplicación → publicación del runbook.
Caso de uso 2 — Procedimientos Operativos Estándar (SOP) para equipos de procesos de negocio
Situación: Los equipos de operaciones capacitan al personal mediante videos o capturas de pantalla.
Problema: El onboarding es lento; los procedimientos son inconsistentes.
Cómo ayudamos: Generación de manuales estandarizados con plantillas + gobernanza de reglas + interfaz de usuario multilingüe.
Caso de uso 3 — Base de conocimientos de soporte al cliente a partir de soluciones recurrentes
Situación: Los agentes de soporte resuelven problemas similares repetidamente.
Problema: El conocimiento está disperso en chats y grabaciones.
Cómo ayudamos: Almacenamiento de embeddings + búsqueda vectorial para recuperar casos similares y guías de mejores prácticas.
Caso de uso 4 — Procedimientos impulsados por el cumplimiento y la auditabilidad
Situación: Las organizaciones reguladas requieren procedimientos trazables y consistentes.
Problema: Es difícil demostrar que los pasos se capturaron de manera consistente y se actualizaron.
Cómo ayudamos: Gestor de reglas + persistencia en base de datos + logs para crear gobernanza y trazabilidad en la generación de documentación.
9) Diferenciadores (Por qué esto no es "solo OCR")
- Pipeline de video a manual con lógica de escenas y deduplicación
- Interfaz de gobernanza de reglas para controlar duplicados/solapamientos y medir la efectividad de las reglas
- Refinamiento potenciado por LLM mediante gestión de prompts y mejoras en la calidad de los pasos
- Preparado para stack empresarial: Postgres + pgVector, almacenamiento MinIO, patrones de Docker/Kubernetes/OpenShift, logs/scripts de monitoreo
- Interfaz de usuario multilingüe (inglés/japonés) para entrega global