DeepSeek发布新一代文档识别模型 创新"视觉因果流"技术提升识别精度

当前,文档识别技术已在金融、法律、教育等领域广泛落地,但复杂版式文档的处理仍是难点;传统视觉语言模型通常按固定栅格顺序读取图像信息,方法虽然直观,却难以贴合文档中多样的内容组织方式和逻辑关系。深度求索研究团队分析发现,人类阅读文档、表格或公式时,往往会依据语义与逻辑进行跳跃式浏览,而不是严格按空间位置逐行处理。这种差异正是影响模型效果的关键因素。 为此,深度求索在DeepSeek-OCR 2中提出了DeepEncoder V2编码器结构。其核心在于引入“视觉因果流”概念,通过可学习的“因果流查询token”在编码器内部建立语义顺序。具体来说,编码器同时采用双向注意力与因果注意力两种模式:原始视觉信息先通过双向注意力进行全局感知,获得完整视觉上下文;新增的查询标记再通过因果注意力逐步构建语义顺序,在编码阶段对视觉token进行动态重排。借助此设计,模型能够更像人类阅读那样优先聚焦关键信息,从而更准确地理解复杂文档的结构与内容。 在整体架构上,DeepSeek-OCR 2延续了前代的编解码框架,并对关键环节进行了升级:编码器先将图像转换为视觉标记并压缩为较少数量的视觉token,再由DeepEncoder V2完成语义建模与顺序重组,最后交由基于混合专家架构的语言模型解码。在不明显增加解码负担的前提下,单页文档使用的视觉token数量控制在256到1120之间,与前代模型及同类系统的资源开销接近,兼顾了效果提升与工程效率。 研究团队在OmniDocBench v1.5基准上进行了评估。该基准覆盖多种中英文文档类型,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原与阅读顺序等指标。结果显示,DeepSeek-OCR 2在各项指标上均有提升,整体识别性能提升3.73%。同时,新模型在生产环境中表现更稳定:在线用户日志图像的重复率由6.25%降至4.17%,批处理PDF数据的重复率由3.69%降至2.88%。这表明模型不仅在基准测试中取得进展,也在实际应用中提升了可靠性。 从应用前景看,DeepSeek-OCR 2有望更推动文档识别在各行业的深入应用。金融机构可更高效地处理合同、发票等材料;法律行业可加快案卷整理与信息提取;教育领域可提升试卷扫描与成绩统计的准确性。稳定性的提升也为规模化商业部署提供支持,有助于降低运维成本与风险。

从按图索骥到理解语义,这个突破表明了人工智能正从“感知”走向“认知”。在数字经济竞争加速的背景下,坚持原创性技术攻关,将有助于推动产业升级,培育新质生产力。