欢迎阅读 MinerU 文档智能抽取(KIE) 模块文档。本指南将帮助你快速掌握如何通过可配置的智能流水线,从发票、票据、表单等非结构化文档中精准提取关键字段,并生成结构化数据。
🚀 快速开始
本指南将帮助您在 5 分钟内快速创建并运行第一个文档处理流程。
1. 访问与登录
- 访问地址:
- 登录 MinerU 主站后,进入“在线使用”页面,在顶部找到“智能抽取火爆内测中”卡片,点击 🚀 立即体验 即可进入文档智能抽取独立页面。
- 或者,在侧边栏底部找到工具箱,点开即可看到“文档智能抽取”模块。
- 登录状态:
- 文档智能抽取与 MinerU 共用同一账户体系,无需重复登录。如果您已在 MinerU 登录,访问时会自动同步状态。
2. 界面概览
文档智能抽取界面分为以下几个核心区域:
- 底部导航:用户头像、API 文档、使用指引、平台工具箱。
- 左侧流程列表:展示“我的流程”。
- 右侧流程引导区:创建新流程的核心入口及流程配置区域。
📋 新建流程
当你首次进入文档智能抽取时,会看到一个清晰的任务引导界面。
1. 进入页面
- 在首页,点击页面顶部或中央的 “开始流程” 按钮。
- 系统将引导您进入流程创建向导页面。
2. 选择流程组合
在新建流程页面,您将看到三个核心处理节点(解析、分割、抽取)。
- 选择方式:
- 三个并排卡片:从左到右依次为“解析”、“分割”、“抽取”。
- 串联指示:卡片之间有箭头连接,表示标准处理流程。
- 智能选择:点击任一卡片,该卡片及其之前的所有卡片会自动选中。
- 新手建议:
- 初次体验:选择 “解析 → 抽取”(点击“抽取”卡片)。
- 文档较长且内容多样:选择 “解析 → 分割 → 抽取”(依次点击三个卡片)。
3. 开始创建
- 完成上述配置后,点击按钮。
- 系统将自动创建新流程并跳转到配置界面,准备接收您上传的文档。
📁 上传文档
1. 上传概览
- 支持格式:PDF, JPG, PNG。
- 文件限制:单文件最大 10MB,PDF 最多 10 页。
- 操作方式:支持简单拖拽、点击上传及批量上传(最多 10 个文件)。
2. 支持的文档类型
- PDF:便携式文档格式(≤ 10页)。
- JPG/JPEG:图像格式。
- PNG:便携式网络图形。
- 批量上限:10 个文件/任务。
3. 上传方式
- 直接上传:
- 在界面点击“上传”区域。
- 拖拽文件或点击选择文件。
- 系统自动开始上传并处理。
- 批量处理:
- 可同时上传多个相关文件,系统按顺序处理。
- 支持在任务运行中随时添加新文件。
- 状态反馈:
- 上传中:显示进度条和百分比。
- 上传成功:绿色对勾标识。
- 格式错误/大小超限:红色感叹号提示。
🧩 解析 (Parse)
解析模块是流程的基础步骤,将非结构化文档转换为机器可读的结构化格式。
1. 解析概览
- 核心功能:识别文本、表格、图片;分析版面结构;输出带位置信息的结构化数据。
- 处理流程:文档上传 → 版面分析 → 元素识别 → 结构组装 → 结果输出。
2. 默认解析配置
大多数情况下,您可以直接使用默认配置:
- 基础配置:解析所有页面,标准 OCR 精度,包含所有元素类型。
- 输出格式:Markdown 和 JSON。
3. 运行与结果
- 运行解析:点击“运行”按钮,系统处理完成后展示结果。
- 结果查看:
- Markdown 视图:适合快速阅读,保留标题层级和表格结构。
- JSON 视图:适合程序化处理,包含完整的位置和类型信息。
- 交互功能:
- 左右联动:点击左侧解析框,右侧自动滚动至对应内容。
- 布局解析框:可开启/关闭元素边界框显示。
- 操作:支持复制和下载解析结果。
✂️ 分割 (Split)
分割模块利用大模型理解文档语义,将长文档智能切分为不同的逻辑单元(分组)。
1. 分割概览
- 适用场景:多页或结构复杂的文档(如包含封面、明细、条款的合同)。
- 核心价值:定向处理、逻辑分组、精准提取。
- 工作原理:解析输出 → 智能分类 → 分组结果 → 抽取准备。
2. 分割策略配置
- 分割策略 (可选):
- 在面板顶部输入自然语言描述(最多 500 字符)。
- 示例:“请将这份合同中的核心条款与附件分开”。
- 分组配置 (核心):
- 点击 “+ 添加” 按钮创建新分组(最多 20 个)。
- 名称:1-20 字符,唯一。
- 描述:10-200 字符,需具体清晰。
- 描述最佳实践:
- ✅ 好的描述:“包含商品名称、数量、单价的表格所在页面”。
- ❌ 避免的描述:“商品信息”(过于笼统)。
3. 运行与结果
- 运行条件:已上传文件,至少配置一个有效分组。
- 运行控制:支持“运行全部文件”或重新运行覆盖结果。
- 结果查看:
- 树状列表:展示所有分组。
- 页面缩略图:点击可跳转原文。
- 下载:支持下载 JSON 格式分割结果。
🧠 抽取 (Extract)
在解析或分割的基础上,从文档中定向抽取指定字段。
1. 抽取概览
- 核心能力:基于 Schema 精确定义数据结构,支持智能推荐 Schema。
- 工作原理:输入源 → 推荐 Schema → 模型抽取 → 结果验证 → 结构化输出。
2. 抽取规则配置
- 输入源选择:
- 直接抽取模式:解析 → 抽取(对整文档)。
- 分组抽取模式:解析 → 分割 → 抽取(对特定分组)。
- 抽取规则 (可选):
- 指导模型理解文档(≤ 500 字符)。
- 示例:“注意日期格式为 YYYY-MM-DD,金额单位是元”。
- Schema 配置:
- 智能推荐:系统基于内容自动生成。
- 字段定义:支持 String, Number, Boolean, Date, Enum, Object, Array, Null。
- 编辑:支持修改、新增、删除(最多 25 个字段)。
3. 运行与结果
- 运行条件:必须配置抽取策略描述或 Schema。
- 执行策略:若前置模块有更改,将从修改处重新执行整个流程。
- 结果查看:
- 视图:表格视图(默认)和 JSON 视图。
- 状态标识:绿色对勾(成功)、红色感叹号(失败)、黄色警告(格式不符)。
- 操作:支持复制表格数据或下载 JSON 结果。
🚀 部署为可调用 API
将配置好的流程部署为 API 服务,用于自动化处理。
1. 部署条件
- ✅ 流程中包含解析模块。
- ✅ 已上传文件并至少运行过一次。
- ✅ 所有已配置模块都至少成功运行过一次。
2. 部署步骤
- 点击右上角 “部署” 按钮。
- 系统生成唯一的 Pipeline ID 和 API 端点。
- 获取调用示例代码(Python, cURL 等)。
注意:
- Pipeline ID 是全局唯一的凭证,请妥善保管,不要公开分享。
- API 将继承当前的解析配置、分割规则和抽取 Schema。
📚 示例流程参考
文档智能抽取提供 4 个示例流程帮助快速上手:
- 仅解析:基础文档解析和查看。
- 解析 → 分割:多页文档内容分类。
- 解析 → 抽取:简单文档结构化提取。
- 解析 → 分割 → 抽取:复杂文档精准提取。
❓ 常见问题
文件上传问题
- Q:文件上传失败怎么办?
- A:请检查格式 (PDF/JPG/PNG)、大小 (≤10MB)、页数 (PDF≤10页) 及网络连接。
- Q:批量上传有限制吗?
- A:单个任务最多上传 10 个文件。
解析相关问题
- Q:解析结果不准确怎么办?
- A:确保文档清晰且方向正确;检查页码范围;验证布局解析框。
- Q:如何处理复杂表格?
- A:尝试调整 OCR 模式设置,或联系技术支持。
分割相关问题
- Q:分割无匹配页面怎么办?
- A:优化分组描述使其更具体;检查文档内容是否确实包含该类信息。
- Q:分组数量有限制吗?
- A:最多支持 20 个分组。
抽取相关问题
- Q:抽取字段缺失或不准?
- A:首先验证解析结果;优化 Schema 描述;检查字段类型;对于复杂文档建议先分割再抽取。
- Q:Schema 设计有什么建议?
- A:字段名贴近文档内容;有限结果集使用 Enum;嵌套不超过 2-3 层;长列表使用 Array。
部署与性能
- Q:Pipeline ID 如何管理?
- A:获得 ID 的用户均可调用,请勿公开。如需停止服务请联系技术支持或创建新 Pipeline。
- Q:处理速度慢怎么办?
- A:只提取必需字段;长文档使用分割功能聚焦目标区域;分批处理。
✅ 下一步建议
如果您已掌握基础操作,可以尝试:
- 上传不同类型的票据:测试不同格式文档的处理效果。
- 构建复杂 Schema:尝试嵌套结构和数组类型的字段定义。
- 优化分割策略:为多页复杂文档设计精准的分组描述。
- 部署为 API 服务:将成功流程集成到业务系统中。
如有问题或建议,请通过 MinerU 官方渠道反馈。祝您使用愉快!

