1) 执行摘要
许多企业的关键业务操作依赖于“隐性知识”:流程存在于员工脑中、非正式视频、截图、聊天记录或临时笔记中。这导致入职培训缓慢、执行标准不一且运营风险高。
操作文档生成器通过将视频和图像转换为结构化的操作文档来解决这一问题——利用 OCR、场景/帧处理、去重、基于 LLM 的优化以及规则/手册模板。它还利用向量嵌入(vector embeddings)添加了可搜索的知识层,使团队能够快速检索相关步骤和最佳实践。
2) 我们解决的问题(业务视角)
企业面临的常见痛点:
- 运营知识困在视频录像中(屏幕录像、培训演示、“操作方法”录像),难以作为正式文档重复使用。
- 手动创建 SOP/运行手册速度慢、成本高,且往往很快就会过时。
- 质量和一致性问题:不同团队编写流程的方式不同,步骤遗漏,导致文档不可靠。
- 重复或近乎重复的步骤和截图导致文档臃肿并误导用户。您的系统专门通过合并和去重来解决此问题。
- 缺乏治理和可重复性:如果没有基于规则的控制,各团队生成的文档将变得不一致。
谁最需要此方案?
- 构建运行手册和事件处理流程的 IT 运维与支持团队
- 记录重复工作流的共享服务中心、BPO 和服务台
- 采集分步流程的制造/现场作业
- 任何需要标准化和可追溯性的合规驱动型企业
3) 解决方案
操作文档生成器是一个模块化应用,它可以:
- 通过 Web 界面接收操作视频和图像
- 在处理前分析视频质量并提取元数据
- 将视频拆分为帧,将相关帧合并为场景,然后去除重复内容
- 对选定的帧/图像运行 OCR,并将结果存储在 PostgreSQL 中
- 将步骤优化为结构化手册(手册模板 + 基于规则的结构 + LLM 优化)
- 提供规则管理器 UI,用于管理去重/重叠处理并分析规则使用情况
- 利用嵌入 + 向量相似度搜索添加聊天机器人/知识检索层,实现快速问答
4) 工作原理(端到端工作流)
步骤 1 — 上传与验证
用户通过 Web UI 上传视频;系统提取元数据并运行质量分析器,以确认视频是否适合处理。
步骤 2 — 帧提取与场景合并
视频处理器按间隔提取帧(帧提取器),然后将相关帧合并为逻辑组/场景,以减少冗余并简化分析。
步骤 3 — 去重
专用去重组件通过哈希/图像相似度移除重复或近乎相同的帧,确保只有有意义的唯一内容进入文档化阶段。
步骤 4 — OCR 与存储
使用 Tesseract、EasyOCR 或 Vision API 对选定的帧/图像运行 OCR。结果通过存储库逻辑存入 PostgreSQL,以便后续检索和审计。
步骤 5 — 将原始观测结果转换为结构化步骤
“思维链”流水线将提取的原始内容转换为清晰的分步操作流:提取候选步骤、进行验证、聚类并合并重叠内容、移除重复项,并将输出标准化为手册模板格式。
步骤 6 — 规则与手册结构治理
可应用两种方法:手册结构(模板驱动)或基于规则的结构(通过规则集成 + 规则 UI 进行治理)。
步骤 7 — 交付、搜索与监控
生成的输出和产物可存储在对象存储(MinIO)中,同时系统行为记录在独立的日志文件和数据库追踪中,以支持监控和故障排除。
5) 已实现的核心功能
A) 视频处理引擎
- 视频上传处理 + 元数据采集
- 视频质量分析器,过滤低质量输入
- 帧提取服务
- 场景/帧合并,减少噪点并优化步骤分组
- 图像/帧去重(基于哈希/相似度),仅保留有意义的帧
B) OCR 与内容提取
- 具有存储库持久化功能的 OCR 服务层(结果可审计)
- 统一处理程序概念,可将输入路由至 OCR、提示词处理、后处理
C) “思维链”步骤结构化(核心差异化优势)
- 将杂乱的原始视频内容转换为清晰、有序的操作步骤
- 聚类、重叠解析、合并、清理及模板输出
D) 规则集成 + 规则管理器 UI(治理与控制)
- 用于去重/重叠规则增删改查(CRUD)管理的 Web UI
- 规则分析视图:规则使用频率 + 未使用的激活规则
- 文档重叠审查页面,用于根据文档结果检查已应用的规则
- 规则 Excel 输出的版本控制行为(版本自动递增)
E) 知识检索(嵌入 + 向量搜索)
- 嵌入组件支持多个提供商(本地模型/Ollama/OpenAI/AWS Bedrock)
- 使用 PostgreSQL + pgVector 进行向量相似度搜索
- 聊天机器人存储库存储消息 + 嵌入,并通过向量相似度检索相似消息
- 将“最佳实践指南”添加到嵌入中的脚本,以优化聊天机器人的引导
F) 企业级运营
- PostgreSQL 数据库初始化 + 重置脚本;用于保持 ID 一致性的结构化对象和序列
- 通过 MinIO(兼容 S3)集成对象存储,用于存储帧/产物/日志输出
- 专用日志(应用日志、docgen 日志、监控日志),快速隔离问题
- 采用 Dockerfile 容器化以及 Kubernetes/OpenShift 部署模式
G) 用户体验与易用性
- 多语言 UI 支持(英文/日文翻译)
- 视频上传 UI 脚本(拖放、进度、错误处理)
- 用于监控视频上传状态和用户活动的管理员仪表板模板
6) 架构
- Web 层:路由、模板、会话、语言选择、登录保护
- 服务层:视频上传服务、规则集成服务、手册结构服务、帧服务
- 数据层 (PostgreSQL + pgVector):存储视频元数据、OCR 输出、嵌入、会话日志、处理结果
- 对象存储 (MinIO):存储提取的帧和产物等大型二进制内容
- 可观测性:轮转日志 + 监控脚本,用于重启并维持正常运行时间
- 部署:Docker 化应用 + Kubernetes/OpenShift 部署配置
7) 具体示例结果
我们的流水线展示了去重和精炼的实际成效:从 6 条唯一记录开始,去重至 4 条,随后通过聚类、合并和精炼生成最终文档——在流水线结束时实现了 约 33% 的缩减。这意味着更少的干扰、更少的重复步骤、更简洁的手册以及更快的审核时间。
8) 主要应用场景
场景 1 — 基于屏幕录制的 IT 运维 Runbook
现状:IT 团队将故障修复和维护步骤录制为视频。
痛点:将其转换为 Runbook 耗时数小时,且经常遗漏步骤。
赋能方案:上传视频 → 提取帧 → OCR 界面文本 → 构建步骤序列 → 执行去重规则 → 发布 Runbook。
场景 2 — 业务流程团队的标准作业程序 (SOP)
现状:运营团队使用视频/截图培训员工。
痛点:入职培训缓慢;流程不统一。
赋能方案:通过模板 + 规则治理 + 多语言 UI 生成标准化手册。
场景 3 — 基于重复解决方案的客户支持知识库
现状:支持人员反复解决类似问题。
痛点:知识分散在聊天记录和录音中。
赋能方案:存储 Embedding + 向量搜索,以检索相似案例和最佳实践指导。
场景 4 — 合规驱动的流程与可审计性
现状:受监管机构要求流程可追溯且一致。
痛点:难以证明步骤被一致捕获并及时更新。
赋能方案:规则管理器 + 数据库持久化 + 日志,为文档生成构建治理和可追溯性。
9) 核心优势(为何不仅是“OCR”)
- 具备场景逻辑和去重功能的视频转手册流水线
- 用于控制重叠/重复并衡量规则有效性的规则治理 UI
- 通过 Prompt 处理和步骤质量优化实现的 LLM 驱动精炼
- 企业级技术栈就绪:Postgres + pgVector, MinIO 存储, Docker/Kubernetes/OpenShift 模式, 日志/监控脚本
- 支持全球交付的多语言 UI(英文/日文)