Un enfoque integral para la generación de manuales operativos a partir de video
Los avances recientes en la comprensión de video se han centrado en dividir videos de corta duración en segmentos semánticamente significativos, lo que permite una interpretación de datos visuales y temporales similar a la humana. Basándonos en estos avances, presentamos un sistema que transforma videos operativos extensos en manuales de usuario detallados y basados en reglas. Nuestro enfoque combina una extracción de fotogramas robusta, filtrado de duplicados, análisis de calidad y fusión de datos multimodales con modelos de lenguaje de gran tamaño (LLM) de última generación para generar narrativas naturales y ricas en contexto. Este white paper detalla la arquitectura, las metodologías y los resultados de nuestro sistema, comparando nuestros logros con la base teórica establecida en la investigación de referencia.
1. Introducción
El campo de la comprensión de video ha evolucionado rápidamente para abordar los desafíos de segmentación y comprensión de contenido visual. Sin embargo, muchos métodos existentes se centran en clips cortos (5 a 30 segundos), mientras que los videos operativos del mundo real suelen durar de varios minutos a horas. Nuestro proyecto cierra esta brecha transformando videos de operaciones de larga duración (por ejemplo, aprovisionamiento de recursos de AWS, gestión de servidores) en manuales estructurados basados en reglas. Al aprovechar técnicas avanzadas de visión artificial, OCR y síntesis narrativa basada en LLM, nuestro sistema extrae pasos operativos clave y los presenta en un formato de fácil asimilación.
2. Descripción general del sistema
Nuestro sistema está estructurado en varios módulos principales, cada uno de los cuales contribuye a un aspecto diferente del proceso de comprensión de video y generación de manuales:
- Extracción y segmentación: Objetivo: Dividir videos largos en segmentos semánticamente significativos. Implementación: La extracción de fotogramas utiliza tanto la detección de escenas (vía FFmpeg) como el muestreo basado en tiempo. La eliminación de duplicados implementa hashing perceptual (usando ImageHash y PIL) para filtrar fotogramas redundantes. La integración de la base de datos almacena metadatos de los fotogramas (marcas de tiempo, números de fotograma) para su procesamiento posterior.
- Comprensión contextual y generación de descripciones: Objetivo: Generar resúmenes ricos en contexto para cada segmento de video. Implementación: El análisis de calidad extrae métricas de video (resolución, tasa de bits, códec, duración) para crear "notas de calidad". La generación de prompts utiliza un PromptGenerator dedicado (que integra salidas de OCR) para crear prompts narrativos detallados. La integración de OCR extrae información textual de los fotogramas, mejorando el contexto.
- Fusión de datos multimodales: Objetivo: Combinar de manera fluida datos visuales, textuales y (en el futuro) de audio. Implementación: Fusiona datos de calidad visual con texto derivado de OCR y metadatos. Utiliza almacenamiento robusto (MinIO/local) y gestión de estado global para mantener el contexto del procesamiento.
- Mejora iterativa y automatización: Objetivo: Refinar continuamente la comprensión de video mediante la automatización y la retroalimentación. Implementación: El procesamiento asíncrono a través de un VideoQualityProcessor basado en colas maneja las tareas de manera multihilo. El registro robusto (Logging) con manejo detallado de errores facilita las mejoras iterativas del sistema. El seguimiento del estado global mantiene el estado de procesamiento actual mediante un módulo de gestión de estado dedicado.
- Integración de LLM y procesamiento de prompts: Objetivo: Generar narrativas operativas detalladas y naturales. Implementación: El LLM Caller interactúa con múltiples proveedores de LLM (OpenAI, Ollama, AWS Bedrock, gateways personalizados). El procesador de prompts crea prompts conscientes del contexto y almacena las salidas de LLM y los embeddings para un refinamiento posterior.
- Generación de manuales e integración de reglas: Objetivo: Compilar los datos procesados en un manual operativo integral. Implementación: El Manual Handler utiliza una plantilla de Excel predefinida para generar manuales de varias hojas que integran datos de video, narrativas de LLM y reglas operativas sincronizadas. Rules Sync importa y controla las versiones de las reglas desde archivos Excel, asegurando actualizaciones dinámicas del manual.
- Integración de chatbot y embeddings: Objetivo: Mejorar la interacción del usuario y la recuperación de contexto. Implementación: El servicio de chat aprovecha un componente de embedding y la integración de LLM para generar respuestas conversacionales conscientes del contexto y almacenar el historial de conversaciones.
3. Metodología
3.1 Extracción y segmentación
Utilizando FFmpeg, los fotogramas se extraen mediante detección de escenas y muestreo a intervalos fijos. Cada fotograma se marca con el tiempo y se almacena, mientras que los fotogramas duplicados se eliminan mediante hashing perceptual. Este proceso garantiza que solo se consideren fotogramas clave y únicos para el análisis y la segmentación posteriores.
3.2 Comprensión contextual
Se extraen métricas de calidad del video para formar "notas de calidad" que ofrecen un contexto inicial. Estas notas, junto con el texto extraído por OCR de los fotogramas, se envían a un módulo de generación de prompts impulsado por LLM, que sintetiza descripciones detalladas y naturales de cada segmento operativo.
3.3 Fusión multimodal
Nuestro flujo de trabajo fusiona datos visuales con información textual. El diseño es extensible a audio y subtítulos, lo que enriquecerá aún más el contexto. Todos los datos multimodales se almacenan de forma confiable utilizando soluciones de almacenamiento flexibles (MinIO y almacenamiento local), y el seguimiento del estado global garantiza que cada pieza de datos sea accesible para la generación del manual.
3.4 Mejora iterativa
El procesamiento asíncrono con registros detallados permite el refinamiento continuo del sistema. El trabajo futuro se centrará en incorporar bucles de retroalimentación dinámica, permitiendo ajustes en tiempo real a los umbrales de procesamiento y las reglas según el rendimiento y la entrada del usuario.
3.5 Integración de LLM
El sistema admite múltiples proveedores de LLM a través de una interfaz de llamada abstraída. Esta integración permite el procesamiento de prompts para generar narrativas operativas, con salidas almacenadas junto con sus embeddings para su posterior recuperación y refinamiento.
3.6 Generación de manuales e integración de reglas
Los datos operativos, las salidas de LLM y las reglas sincronizadas se agregan mediante un Manual Handler que utiliza una plantilla de Excel predefinida. El documento resultante de varias hojas incluye una tabla de contenido, pasos operativos detallados y anotaciones, con control de versiones para admitir actualizaciones iterativas.
4. Resultados y discusión
Nuestro sistema convierte con éxito videos operativos extensos en manuales detallados y estructurados. Los logros clave incluyen:
- Segmentación efectiva: La extracción robusta de fotogramas y la deduplicación reducen la redundancia y resaltan eventos clave.
- Generación de contexto enriquecido: Las notas de calidad y las salidas de OCR permiten la generación de narrativas detalladas y naturales.
- Fusión multimodal fluida: Los datos visuales y textuales se integran de manera efectiva, con previsiones para la futura integración de audio.
- Automatización escalable: El procesamiento asíncrono impulsado por colas garantiza que el sistema pueda manejar grandes volúmenes de datos de video.
- Integración flexible de LLM: El soporte para múltiples proveedores de LLM permite que el sistema se adapte a las capacidades cambiantes de los modelos de lenguaje.
5. Conclusión
Hemos presentado un sistema integral que transforma videos operativos en manuales de usuario detallados mediante la integración de técnicas avanzadas de comprensión de video con síntesis narrativa impulsada por LLM. Nuestro enfoque modular y escalable extrae, procesa y fusiona eficazmente datos multimodales para crear documentación estructurada y rica en contexto que puede adaptarse y mejorar continuamente.
6. Trabajo futuro
Las mejoras futuras abordarán:
- Segmentación semántica mejorada: Incorporación de visión artificial avanzada y segmentación guiada por LLM para etiquetar los pasos operativos de manera más explícita.
- Integración de audio y subtítulos: Extensión del flujo de trabajo para incluir análisis de audio, logrando así una fusión multimodal completa.
- Bucles de retroalimentación dinámica: Implementación de retroalimentación en tiempo real e integración de reglas adaptativas para refinar continuamente los umbrales de procesamiento y la generación de narrativas.
- Interacciones de LLM optimizadas: Refinamiento de la lógica de reintento, limitación de tasa y manejo de errores para mejorar la estabilidad de las llamadas a LLM.
7. Referencias
- Artículo de investigación principal: Video Understanding for Long-Duration Videos https://arxiv.org/html/2412.06182v2
- OmniParser – Herramienta de Screen Parsing: OmniParser: Página del proyecto Screen Parsing Tool for Pure Vision Based GUI Agent | Artículo en ArXiv
- Herramientas y librerías clave: OpenCV, FFmpeg, pytesseract, Flask, psycopg2, MinIO, OpenAI API, Ollama, Transformers, Sentence-Transformers, UltraLytics YOLO, timm & einops, openpyxl, ImageHash.
Este white paper demuestra cómo nuestro sistema se basa en los fundamentos teóricos de la investigación de Video Understanding, integrando soluciones prácticas y escalables para transformar videos operativos en manuales exhaustivos. Las referencias proporcionadas dan crédito a la investigación principal y a las diversas herramientas que impulsan nuestro sistema.