政务档案数字化、学术资料检索、企业知识管理等需求增长的背景下,文档识别已从"能把字读出来"升级到"能把结构读明白"。现实中,大量资料包含多栏排版、脚注、目录层级、图表混排、跨页表格与数学公式等复杂内容。传统识别方案依赖固定的空间顺序处理图像,容易在阅读顺序、段落层级、表格关系诸上出现错位,影响后续的搜索、摘要、知识抽取与合规留存。 问题的根源于模型"看"的方式与人类"读"的方式不同。传统视觉语言模型将图像切分为视觉单元,按从左上到右下的栅格顺序输入。这种方式成本低,但面对复杂版式时效果有限。复杂文档中,标题引导段落,表头约束表格,公式编号与正文相互对应——这些逻辑关系往往跨越空间距离。若仅依据相邻关系,模型容易忽略跨区域的语义指向。换句话说,复杂文档的"阅读顺序"并非等同于"像素顺序",而是由语义关系驱动的动态路径。 根据该问题,DeepSeek-OCR 2在视觉编码器端进行了改进,提出DeepEncoder V2并引入"视觉因果流"概念。在编码阶段加入可学习的"因果流查询单元",通过定制注意力机制,在保留全局建模能力的同时,让查询单元以"只能访问已获得信息"的方式进行因果约束,对视觉单元顺序进行动态重排。进入解码器的不再是原始栅格序列,而是经过重排、更贴近语义逻辑的表示。这样做的好处是把"读懂结构"的任务前移到编码阶段,降低后续生成环节对纠错的依赖,提高复杂场景下的稳定性。 从系统架构看,DeepSeek-OCR 2采用"编码器—解码器"范式:图像被视觉分词器压缩为有限数量的视觉单元,由DeepEncoder V2进行语义建模与顺序重组,再由基于混合专家架构的语言解码模块生成识别结果。该模型将单页视觉单元数量控制在256到1120之间,资源开销与前代及同类方案相当。这表明模型优化不仅追求单点精度,更强调在计算成本可控的前提下提升结构理解能力,以适应在线服务和批处理等生产环境需求。 在评测层面,研究团队选择OmniDocBench v1.5作为主要基准,覆盖多类型中英文文档,考察文本识别、公式解析、表格结构还原与阅读顺序等指标。结果显示,新模型相较前代整体准确率提升3.73%,在多维任务上实现综合增益。针对线上OCR服务和批量PDF预处理等缺乏人工标注的场景,研究使用"输出重复率"作为质量指标,观察到新模型的重复率更低。业内认为,重复率下降意味着模型在不确定输入下更少出现无效循环和冗余生成,对企业级部署的稳定性与可控性具有实际价值。 文档识别能力提升将直接推动上游数据治理与下游知识应用的效率:一是降低结构化转换成本,使历史资料更快进入可检索、可计算状态;二是提高表格与公式等关键要素的还原质量,减少人工校对;三是为检索增强、知识问答、自动审阅等应用提供更可靠的数据基础。但也应看到,复杂版式的多样性与行业数据的长尾特征仍然存在,模型在跨行业、跨版式迁移中的鲁棒性、对低质量扫描件的适应能力,以及隐私合规与安全治理上的工程化配套,仍是规模化落地需要解决的问题。 从技术演进看,将"阅读顺序与结构建模"纳入视觉编码阶段的设计,反映出行业正从单纯的字符识别转向文档级理解。随着档案数字化、工业质量文档、医疗记录、金融票据与科研文献等场景对结构准确性的要求提高,具备逻辑重排能力的编码机制有望成为下一阶段的竞争焦点。未来模型能力提升或将体现在三上:更强的跨页与跨图文关联理解、更精细的版面元素定位与层级表达,以及在资源可控前提下实现更稳定的生产级输出。
这次技术突破标志着我国在智能文档处理领域取得重要进展,也揭示了一条值得借鉴的研究路径——将认知科学与计算机技术深度融合。在数字化转型中,如何让机器更好地理解人类思维模式,仍是值得持续探索的课题。这项成果为有关研究提供了经验参考,其产业化应用前景值得期待。(完)