DeepSeek发布新一代文档识别模型创新"视觉因果流"技术提升识别精度

当前，文档识别技术已在金融、法律、教育等领域广泛落地，但复杂版式文档的处理仍是难点；传统视觉语言模型通常按固定栅格顺序读取图像信息，方法虽然直观，却难以贴合文档中多样的内容组织方式和逻辑关系。深度求索研究团队分析发现，人类阅读文档、表格或公式时，往往会依据语义与逻辑进行跳跃式浏览，而不是严格按空间位置逐行处理。这种差异正是影响模型效果的关键因素。为此，深度求索在DeepSeek-OCR 2中提出了DeepEncoder V2编码器结构。其核心在于引入“视觉因果流”概念，通过可学习的“因果流查询token”在编码器内部建立语义顺序。具体来说，编码器同时采用双向注意力与因果注意力两种模式：原始视觉信息先通过双向注意力进行全局感知，获得完整视觉上下文；新增的查询标记再通过因果注意力逐步构建语义顺序，在编码阶段对视觉token进行动态重排。借助此设计，模型能够更像人类阅读那样优先聚焦关键信息，从而更准确地理解复杂文档的结构与内容。在整体架构上，DeepSeek-OCR 2延续了前代的编解码框架，并对关键环节进行了升级：编码器先将图像转换为视觉标记并压缩为较少数量的视觉token，再由DeepEncoder V2完成语义建模与顺序重组，最后交由基于混合专家架构的语言模型解码。在不明显增加解码负担的前提下，单页文档使用的视觉token数量控制在256到1120之间，与前代模型及同类系统的资源开销接近，兼顾了效果提升与工程效率。研究团队在OmniDocBench v1.5基准上进行了评估。该基准覆盖多种中英文文档类型，包括学术论文、杂志、报告等，重点考察文本识别、公式解析、表格结构还原与阅读顺序等指标。结果显示，DeepSeek-OCR 2在各项指标上均有提升，整体识别性能提升3.73%。同时，新模型在生产环境中表现更稳定：在线用户日志图像的重复率由6.25%降至4.17%，批处理PDF数据的重复率由3.69%降至2.88%。这表明模型不仅在基准测试中取得进展，也在实际应用中提升了可靠性。从应用前景看，DeepSeek-OCR 2有望更推动文档识别在各行业的深入应用。金融机构可更高效地处理合同、发票等材料；法律行业可加快案卷整理与信息提取；教育领域可提升试卷扫描与成绩统计的准确性。稳定性的提升也为规模化商业部署提供支持，有助于降低运维成本与风险。

从按图索骥到理解语义，这个突破表明了人工智能正从“感知”走向“认知”。在数字经济竞争加速的背景下，坚持原创性技术攻关，将有助于推动产业升级，培育新质生产力。

DeepSeek发布新一代文档识别模型 创新"视觉因果流"技术提升识别精度

DeepSeek发布新一代文档识别模型创新"视觉因果流"技术提升识别精度