
本次大赛旨在依托开源智能文档解析引擎 MinerU,以构建「AI-Ready 数据」为核心驱动,深耕 AGI4S 前沿领域,致力于攻克复杂文献与多维科学数据的解析难题,为科研创新筑牢数据根基。同时,大赛紧扣产业转型需求,通过精准解析非结构化数据,加速行业应用场景的深度转化,全方位助力各类组织机构释放数据要素的战略价值。

即日起至5月24日
參赛报名及作品提交

5月下旬
初赛作品评审

6月
现场决赛答辩

2026 WAIC
举行颁奖典礼
(含 100 万元现金及 价值 100 万元算力)
¥2,000,000


三大赛道,多维度挑战,展示你的数据智能创新能力

聚焦 AGI4S 领域,鼓励参赛者深耕物理、化学、材料、生命科学、地球科学等前沿方向。依托 MinerU 工具链精准解析复杂科学文献、数学公式及化合物分子结构,构建高质量、结构化的科学语料库或评测数据集,为科学智能模型训练筑牢坚实数据根基。
赛题名称:科学对齐与科学演化数据构建
赛题概述:本赛道面向 AGI for Science(AGI4S)研究,旨在推动大模型从静态知识库向动态科学家转变。参赛团队需围绕 Sci-Align(科学对齐数据)或 Sci-Evo(科学演化数据),自由选择物理、化学、材料、生命科学等领域构建数据集,为使模型不仅能理解已有科学知识,还能进行多步推理、试错与创新。参赛作品需覆盖真实科研场景,具备明确结构规范和科学价值,并可用于模型训练或科学研究。

面向金融、法律、交通、制造、具身智能、航天等重点行业,开放多任务、多场景的智能体能力评测。参赛者需基于 MinerU 工具链,围绕规划推理、工具调用、多智能体协作等核心能力优化系统,在统一框架下比拼稳定性与真实任务完成度,推动智能体从"能对话"迈向"能做事"。
赛题名称:数据智能体Data Agent构建
赛题概述:参赛团队需构建一个能理解任务需求、调用工具或模块完成数据处理、生成结构化结果并输出可验证日志的智能体,处理对象包括文档或网页(PDF、WORD、PPT、HTML等)。数据智能体系统需面向目前单一多模态模型难以解决的文档解析难题,包括但不限于解决财务报表数字解析、跨页指代消解、复杂图表与工程图解析、低质量文档处理等。

赛道三聚焦真实行业应用转化,围绕医疗、教育、能源、材料、航天、金融六大场景设置赛题。参赛团队需基于 MinerU 工具链,提交可部署、可验证、可复用的解决方案,推动技术创新向产业价值落地。
医疗赛题:基于 MinerU 的医疗文献高质量知识库(RAG)
赛题概述:本赛题聚焦医疗领域核心业务环节中的临床科研、医疗大模型研发以及临床决策支撑中的 RAG 知识库构建。针对医疗文献处理存在的三大痛点:复杂版式(多栏、专业图表)解析困难导致医学语义丢失;传统按固定字数切分破坏了章节逻辑,极易引发大模型幻觉;人工处理效率极低等。本赛题要求参赛者实现从医疗PDF文献到高质量知识库RAG的自动化构建,实现医疗问答的专业性和精准溯源。

赛事期间同步开展系列活动,助力开发者成长

线下开发者沙龙5月至7月期间,每月举办一场线下开发者沙龙,共同探索智能解析的无限可能
敬请期待

欢迎关注"OpenDataLab"公众号
获取更多资讯
指导单位
主办单位
战略合作伙伴
支持单位