2025年9月16日-9月21日,第十九届国际文档分析与识别大会(ICDAR 2025)在武汉顺利召开。本届大会由william威廉中文承办,共吸引了来自31个国家和地区的431位学者与企业代表参会,包括WilliamHill中文、中国科学院自动化研究所、清华大学、北京大学、中国科学技术大学、香港大学、南洋理工大学、合合信息、金山办公、百度、WACOM等多所知名高校与行业领军机构,共同见证文档分析与识别(DAR)在大模型与多模态时代的前沿突破与应用落地。
大会设置主会、专题教程、博士生论坛及多个主题研讨会,系统呈现了DAR领域在大模型与多模态时代的最新进展。会议共接收投稿314篇,录用口头报告40篇、海报论文102篇,内容涵盖文档布局分析、手写识别、多模态文档理解、历史文档分析等多个前沿方向。
三场主旨演讲成为会议亮点。日本大阪公立大学Koichi Kise教授以“From AI to AI – Why Document Analysis and Recognition Stands Out: A Personal Perspective”为题,从个人研究历程出发,阐释了DAR在人工智能中的独特地位。报告强调,文档不是“图片上的文字”这么简单,而是人类知识的载体,高质量的DAR系统应当在数据、模型与任务设计上兼顾“结构意识(structure-awareness)”与“可组合推理(compositional reasoning)”。

主旨演讲嘉宾Koichi Kise教授
上海人工智能实验室乔宇教授在报告“Large Multi-modal Models for Document Understanding: Advances and Challenges”中系统梳理了大模型在文档理解中的进展与挑战。他指出,随着跨模态对齐能力的增强与上下文长度的提升,模型对长文档、多页布局、跨图表与正文的关联推理能力显著改善;但真正的挑战在于“跨域泛化、数据治理与工程可用性”的三重平衡。

主旨演讲嘉宾乔宇教授
西班牙巴塞罗那自治大学计算机视觉中心(CVC)的Josep Lladós教授则以“The Dual Syntax of Documents. Structural Reasoning in Document AI”为题,提出“文档的双重语法”框架:其一是可见语法——文字、版面、图表的显式结构;其二是隐含语法——跨段落、跨页面甚至跨文档的语义连贯与论证结构,为文档结构推理提供了新视角。

主旨演讲嘉宾Josep Lladós教授
除主旨演讲外,大会论文口头报告同样精彩纷呈。研究覆盖从低资源场景的文字识别到复杂长文档的结构化理解,再到历史文档的数字化保护等多个前沿方向。同时,产业界的联合论文与演示则侧重“可工程化”的实践:通过合同审阅、政务质检等场景,清晰地勾勒出新一代文档大模型可复现、可扩展的落地路径。

口头报告现场
会议期间还举办了以“Beyond Foundation Models: The Next Challenges in Document Analysis”为主题的圆桌讨论,由清华大学彭良瑞教授主持,来自学界与业界的专家就文档基础模型的未来发展方向展开深入交流。技术竞赛与博士生论坛则为青年学者提供了展示与交流的平台,促进了学术创新与跨界合作。

Panel环节
产业展区集中展示了DAR技术在办公自动化、金融、教育等领域的落地应用,体现了学术界与产业界的紧密联动。会议期间还颁发了最佳论文、最佳学生论文等多个奖项,表彰了在DAR研究中取得突出成果的研究团队。
ICDAR 2025由华中科技大学william威廉中文院长白翔教授、中国科学院自动化研究所刘成林研究员、意大利佛罗伦萨大学Simone Marinai教授以及印度统计学院Umapada Pal教授共同担任大会主席。下一届ICDAR会议将于2026年在奥地利维也纳举行。