近日,在华中科技大学教授刘禹良参与的一次会议上,他把和金山办公合作开发的Monkey系列文档解析模型给大家看了。这个模型是个突破点,用30亿左右的参数规模就把中英文文档解析做得特别好。新的版本MonkeyOCR v1.5更是让不少人眼前一亮,在国际评测中拿下了第一名。这个成绩超越了GPT-4o、Gemini-2.5 Pro这些大模型。这个结果有个重要的启示:追求模型参数大不一定总管用。刘禹良教授说,在治理非结构化文档数据这类任务上,“规模法则”未必有效。他的团队没有像其他人那样只堆参数,而是针对具体需求设计了专用化的模型。 这个模型提出了一种新的解析范式,把原本分开处理的环节统一起来,分成结构分析、内容识别和关系建立三个步骤。它先像人眼一样看布局,识别出标题、段落、表格这些元素;然后理解这些元素之间的逻辑关系;最后在清楚的结构约束下完成内容识别和信息抽取。这种思路特别擅长处理格式复杂、专业术语多、还有多语言混杂的文档。 这个团队在复杂表格解析这块也取得了很大进展。通过引入视觉一致性强化学习技术,他们把表格内嵌图片给还原了,还能自动合并跨页表格。在这种复杂场景下,解析精度首次突破了90%。 这次成果离不开产学研协同创新。华中科技大学在算法上有积累,他们之前用这个技术研究甲骨文还拿了国际大奖。金山办公在文档领域有三十多年经验,对格式和需求都很了解。双方优势互补,把理论创新转化成了具体产品。 刘禹良教授强调数据治理很重要。真正的通用人工智能需要机器深入理解真实世界的文本信息。企业里有很多散落的合同、报告、邮件、图纸这些非结构化数据,把它们变成机器能用的结构化信息是关键。 金山办公这次不光推了新模型,还推出了WPS 365一站式AI协同办公平台。这个平台能提供从数据归集到具体应用的全链路解决方案。 Monkey模型的成功说明了在解决实际痛点、深耕垂直领域时,专用化的技术路径可能比通用大模型更高效。这给金融、法律、科研、政务等需要处理大量文档的行业提供了一个好选择。 未来双方计划推出更大的多语言数据集和更轻量的模型,这会让我国在文档智能和企业知识管理领域的能力更上一层楼。