monkey 系列文档解析模型在国际评测中拿下了第一名

近日，在华中科技大学教授刘禹良参与的一次会议上，他把和金山办公合作开发的Monkey系列文档解析模型给大家看了。这个模型是个突破点，用30亿左右的参数规模就把中英文文档解析做得特别好。新的版本MonkeyOCR v1.5更是让不少人眼前一亮，在国际评测中拿下了第一名。这个成绩超越了GPT-4o、Gemini-2.5 Pro这些大模型。这个结果有个重要的启示：追求模型参数大不一定总管用。刘禹良教授说，在治理非结构化文档数据这类任务上，“规模法则”未必有效。他的团队没有像其他人那样只堆参数，而是针对具体需求设计了专用化的模型。这个模型提出了一种新的解析范式，把原本分开处理的环节统一起来，分成结构分析、内容识别和关系建立三个步骤。它先像人眼一样看布局，识别出标题、段落、表格这些元素；然后理解这些元素之间的逻辑关系；最后在清楚的结构约束下完成内容识别和信息抽取。这种思路特别擅长处理格式复杂、专业术语多、还有多语言混杂的文档。这个团队在复杂表格解析这块也取得了很大进展。通过引入视觉一致性强化学习技术，他们把表格内嵌图片给还原了，还能自动合并跨页表格。在这种复杂场景下，解析精度首次突破了90%。这次成果离不开产学研协同创新。华中科技大学在算法上有积累，他们之前用这个技术研究甲骨文还拿了国际大奖。金山办公在文档领域有三十多年经验，对格式和需求都很了解。双方优势互补，把理论创新转化成了具体产品。刘禹良教授强调数据治理很重要。真正的通用人工智能需要机器深入理解真实世界的文本信息。企业里有很多散落的合同、报告、邮件、图纸这些非结构化数据，把它们变成机器能用的结构化信息是关键。金山办公这次不光推了新模型，还推出了WPS 365一站式AI协同办公平台。这个平台能提供从数据归集到具体应用的全链路解决方案。 Monkey模型的成功说明了在解决实际痛点、深耕垂直领域时，专用化的技术路径可能比通用大模型更高效。这给金融、法律、科研、政务等需要处理大量文档的行业提供了一个好选择。未来双方计划推出更大的多语言数据集和更轻量的模型，这会让我国在文档智能和企业知识管理领域的能力更上一层楼。