MinerU KIE 使用说明

欢迎阅读 MinerU 文档智能抽取（KIE） 模块文档。本指南将帮助你快速掌握如何通过可配置的智能流水线，从发票、票据、表单等非结构化文档中精准提取关键字段，并生成结构化数据。

🚀 快速开始

本指南将帮助您在 5 分钟内快速创建并运行第一个文档处理流程。

1. 访问与登录

访问地址：
- 登录 MinerU 主站后，进入“在线使用”页面，在顶部找到“智能抽取火爆内测中”卡片，点击 🚀 立即体验 即可进入文档智能抽取独立页面。
- 或者，在侧边栏底部找到工具箱，点开即可看到“文档智能抽取”模块。
登录状态：
- 文档智能抽取与 MinerU 共用同一账户体系，无需重复登录。如果您已在 MinerU 登录，访问时会自动同步状态。

2. 界面概览

文档智能抽取界面分为以下几个核心区域：

底部导航：用户头像、API 文档、使用指引、平台工具箱。
左侧流程列表：展示“我的流程”。
右侧流程引导区：创建新流程的核心入口及流程配置区域。

📋 新建流程

当你首次进入文档智能抽取时，会看到一个清晰的任务引导界面。

1. 进入页面

在首页，点击页面顶部或中央的 “开始流程” 按钮。
系统将引导您进入流程创建向导页面。

2. 选择流程组合

在新建流程页面，您将看到三个核心处理节点（解析、分割、抽取）。

选择方式：
- 三个并排卡片：从左到右依次为“解析”、“分割”、“抽取”。
- 串联指示：卡片之间有箭头连接，表示标准处理流程。
- 智能选择：点击任一卡片，该卡片及其之前的所有卡片会自动选中。
新手建议：
- 初次体验：选择 “解析 → 抽取”（点击“抽取”卡片）。
- 文档较长且内容多样：选择 “解析 → 分割 → 抽取”（依次点击三个卡片）。

3. 开始创建

完成上述配置后，点击按钮。
系统将自动创建新流程并跳转到配置界面，准备接收您上传的文档。

📁 上传文档

1. 上传概览

支持格式：PDF, JPG, PNG。
文件限制：单文件最大 10MB，PDF 最多 10 页。
操作方式：支持简单拖拽、点击上传及批量上传（最多 10 个文件）。

2. 支持的文档类型

PDF：便携式文档格式（≤ 10页）。
JPG/JPEG：图像格式。
PNG：便携式网络图形。
批量上限：10 个文件/任务。

3. 上传方式

直接上传：
1. 在界面点击“上传”区域。
2. 拖拽文件或点击选择文件。
3. 系统自动开始上传并处理。
批量处理：
- 可同时上传多个相关文件，系统按顺序处理。
- 支持在任务运行中随时添加新文件。
状态反馈：
- 上传中：显示进度条和百分比。
- 上传成功：绿色对勾标识。
- 格式错误/大小超限：红色感叹号提示。

🧩 解析 (Parse)

解析模块是流程的基础步骤，将非结构化文档转换为机器可读的结构化格式。

1. 解析概览

核心功能：识别文本、表格、图片；分析版面结构；输出带位置信息的结构化数据。
处理流程：文档上传 → 版面分析 → 元素识别 → 结构组装 → 结果输出。

2. 默认解析配置

大多数情况下，您可以直接使用默认配置：

基础配置：解析所有页面，标准 OCR 精度，包含所有元素类型。
输出格式：Markdown 和 JSON。

3. 运行与结果

运行解析：点击“运行”按钮，系统处理完成后展示结果。
结果查看：
- Markdown 视图：适合快速阅读，保留标题层级和表格结构。
- JSON 视图：适合程序化处理，包含完整的位置和类型信息。
交互功能：
- 左右联动：点击左侧解析框，右侧自动滚动至对应内容。
- 布局解析框：可开启/关闭元素边界框显示。
- 操作：支持复制和下载解析结果。

✂️ 分割 (Split)

分割模块利用大模型理解文档语义，将长文档智能切分为不同的逻辑单元（分组）。

1. 分割概览

适用场景：多页或结构复杂的文档（如包含封面、明细、条款的合同）。
核心价值：定向处理、逻辑分组、精准提取。
工作原理：解析输出 → 智能分类 → 分组结果 → 抽取准备。

2. 分割策略配置

分割策略 (可选)：
- 在面板顶部输入自然语言描述（最多 500 字符）。
- 示例：“请将这份合同中的核心条款与附件分开”。
分组配置 (核心)：
- 点击 “+ 添加” 按钮创建新分组（最多 20 个）。
- 名称：1-20 字符，唯一。
- 描述：10-200 字符，需具体清晰。
描述最佳实践：
- ✅ 好的描述：“包含商品名称、数量、单价的表格所在页面”。
- ❌ 避免的描述：“商品信息”（过于笼统）。

3. 运行与结果

运行条件：已上传文件，至少配置一个有效分组。
运行控制：支持“运行全部文件”或重新运行覆盖结果。
结果查看：
- 树状列表：展示所有分组。
- 页面缩略图：点击可跳转原文。
- 下载：支持下载 JSON 格式分割结果。

🧠 抽取 (Extract)

在解析或分割的基础上，从文档中定向抽取指定字段。

1. 抽取概览

核心能力：基于 Schema 精确定义数据结构，支持智能推荐 Schema。
工作原理：输入源 → 推荐 Schema → 模型抽取 → 结果验证 → 结构化输出。

2. 抽取规则配置

输入源选择：
- 直接抽取模式：解析 → 抽取（对整文档）。
- 分组抽取模式：解析 → 分割 → 抽取（对特定分组）。
抽取规则 (可选)：
- 指导模型理解文档（≤ 500 字符）。
- 示例：“注意日期格式为 YYYY-MM-DD，金额单位是元”。
Schema 配置：
- 智能推荐：系统基于内容自动生成。
- 字段定义：支持 String, Number, Boolean, Date, Enum, Object, Array, Null。
- 编辑：支持修改、新增、删除（最多 25 个字段）。

3. 运行与结果

运行条件：必须配置抽取策略描述或 Schema。
执行策略：若前置模块有更改，将从修改处重新执行整个流程。
结果查看：
- 视图：表格视图（默认）和 JSON 视图。
- 状态标识：绿色对勾（成功）、红色感叹号（失败）、黄色警告（格式不符）。
- 操作：支持复制表格数据或下载 JSON 结果。

🚀 部署为可调用 API

将配置好的流程部署为 API 服务，用于自动化处理。

1. 部署条件

✅ 流程中包含解析模块。
✅ 已上传文件并至少运行过一次。
✅ 所有已配置模块都至少成功运行过一次。

2. 部署步骤

点击右上角 “部署” 按钮。
系统生成唯一的 Pipeline ID 和 API 端点。
获取调用示例代码（Python, cURL 等）。

注意：

Pipeline ID 是全局唯一的凭证，请妥善保管，不要公开分享。
API 将继承当前的解析配置、分割规则和抽取 Schema。

📚 示例流程参考

文档智能抽取提供 4 个示例流程帮助快速上手：

仅解析：基础文档解析和查看。
解析 → 分割：多页文档内容分类。
解析 → 抽取：简单文档结构化提取。
解析 → 分割 → 抽取：复杂文档精准提取。

❓ 常见问题

文件上传问题

Q：文件上传失败怎么办？
- A：请检查格式 (PDF/JPG/PNG)、大小 (≤10MB)、页数 (PDF≤10页) 及网络连接。
Q：批量上传有限制吗？
- A：单个任务最多上传 10 个文件。

解析相关问题

Q：解析结果不准确怎么办？
- A：确保文档清晰且方向正确；检查页码范围；验证布局解析框。
Q：如何处理复杂表格？
- A：尝试调整 OCR 模式设置，或联系技术支持。

分割相关问题

Q：分割无匹配页面怎么办？
- A：优化分组描述使其更具体；检查文档内容是否确实包含该类信息。
Q：分组数量有限制吗？
- A：最多支持 20 个分组。

抽取相关问题

Q：抽取字段缺失或不准？
- A：首先验证解析结果；优化 Schema 描述；检查字段类型；对于复杂文档建议先分割再抽取。
Q：Schema 设计有什么建议？
- A：字段名贴近文档内容；有限结果集使用 Enum；嵌套不超过 2-3 层；长列表使用 Array。

部署与性能

Q：Pipeline ID 如何管理？
- A：获得 ID 的用户均可调用，请勿公开。如需停止服务请联系技术支持或创建新 Pipeline。
Q：处理速度慢怎么办？
- A：只提取必需字段；长文档使用分割功能聚焦目标区域；分批处理。

✅ 下一步建议

如果您已掌握基础操作，可以尝试：

上传不同类型的票据：测试不同格式文档的处理效果。
构建复杂 Schema：尝试嵌套结构和数组类型的字段定义。
优化分割策略：为多页复杂文档设计精准的分组描述。
部署为 API 服务：将成功流程集成到业务系统中。

如有问题或建议，请通过 MinerU 官方渠道反馈。祝您使用愉快！

🚀 快速开始

本指南将帮助您在 5 分钟内快速创建并运行第一个文档处理流程。

1. 访问与登录

访问地址：
- 登录 MinerU 主站后，进入“在线使用”页面，在顶部找到“智能抽取火爆内测中”卡片，点击 🚀 立即体验 即可进入文档智能抽取独立页面。
- 或者，在侧边栏底部找到工具箱，点开即可看到“文档智能抽取”模块。
登录状态：
- 文档智能抽取与 MinerU 共用同一账户体系，无需重复登录。如果您已在 MinerU 登录，访问时会自动同步状态。

2. 界面概览

文档智能抽取界面分为以下几个核心区域：

底部导航：用户头像、API 文档、使用指引、平台工具箱。
左侧流程列表：展示“我的流程”。
右侧流程引导区：创建新流程的核心入口及流程配置区域。

📋 新建流程

当你首次进入文档智能抽取时，会看到一个清晰的任务引导界面。

1. 进入页面

在首页，点击页面顶部或中央的 “开始流程” 按钮。
系统将引导您进入流程创建向导页面。

2. 选择流程组合

在新建流程页面，您将看到三个核心处理节点（解析、分割、抽取）。

选择方式：
- 三个并排卡片：从左到右依次为“解析”、“分割”、“抽取”。
- 串联指示：卡片之间有箭头连接，表示标准处理流程。
- 智能选择：点击任一卡片，该卡片及其之前的所有卡片会自动选中。
新手建议：
- 初次体验：选择 “解析 → 抽取”（点击“抽取”卡片）。
- 文档较长且内容多样：选择 “解析 → 分割 → 抽取”（依次点击三个卡片）。

3. 开始创建

完成上述配置后，点击按钮。
系统将自动创建新流程并跳转到配置界面，准备接收您上传的文档。

📁 上传文档

1. 上传概览

支持格式：PDF, JPG, PNG。
文件限制：单文件最大 10MB，PDF 最多 10 页。
操作方式：支持简单拖拽、点击上传及批量上传（最多 10 个文件）。

2. 支持的文档类型

PDF：便携式文档格式（≤ 10页）。
JPG/JPEG：图像格式。
PNG：便携式网络图形。
批量上限：10 个文件/任务。

3. 上传方式

直接上传：
1. 在界面点击“上传”区域。
2. 拖拽文件或点击选择文件。
3. 系统自动开始上传并处理。
批量处理：
- 可同时上传多个相关文件，系统按顺序处理。
- 支持在任务运行中随时添加新文件。
状态反馈：
- 上传中：显示进度条和百分比。
- 上传成功：绿色对勾标识。
- 格式错误/大小超限：红色感叹号提示。

🧩 解析 (Parse)

解析模块是流程的基础步骤，将非结构化文档转换为机器可读的结构化格式。

1. 解析概览

核心功能：识别文本、表格、图片；分析版面结构；输出带位置信息的结构化数据。
处理流程：文档上传 → 版面分析 → 元素识别 → 结构组装 → 结果输出。

2. 默认解析配置

大多数情况下，您可以直接使用默认配置：

基础配置：解析所有页面，标准 OCR 精度，包含所有元素类型。
输出格式：Markdown 和 JSON。

3. 运行与结果

运行解析：点击“运行”按钮，系统处理完成后展示结果。
结果查看：
- Markdown 视图：适合快速阅读，保留标题层级和表格结构。
- JSON 视图：适合程序化处理，包含完整的位置和类型信息。
交互功能：
- 左右联动：点击左侧解析框，右侧自动滚动至对应内容。
- 布局解析框：可开启/关闭元素边界框显示。
- 操作：支持复制和下载解析结果。

✂️ 分割 (Split)

分割模块利用大模型理解文档语义，将长文档智能切分为不同的逻辑单元（分组）。

1. 分割概览

适用场景：多页或结构复杂的文档（如包含封面、明细、条款的合同）。
核心价值：定向处理、逻辑分组、精准提取。
工作原理：解析输出 → 智能分类 → 分组结果 → 抽取准备。

2. 分割策略配置

分割策略 (可选)：
- 在面板顶部输入自然语言描述（最多 500 字符）。
- 示例：“请将这份合同中的核心条款与附件分开”。
分组配置 (核心)：
- 点击 “+ 添加” 按钮创建新分组（最多 20 个）。
- 名称：1-20 字符，唯一。
- 描述：10-200 字符，需具体清晰。
描述最佳实践：
- ✅ 好的描述：“包含商品名称、数量、单价的表格所在页面”。
- ❌ 避免的描述：“商品信息”（过于笼统）。

3. 运行与结果

运行条件：已上传文件，至少配置一个有效分组。
运行控制：支持“运行全部文件”或重新运行覆盖结果。
结果查看：
- 树状列表：展示所有分组。
- 页面缩略图：点击可跳转原文。
- 下载：支持下载 JSON 格式分割结果。

🧠 抽取 (Extract)

在解析或分割的基础上，从文档中定向抽取指定字段。

1. 抽取概览

核心能力：基于 Schema 精确定义数据结构，支持智能推荐 Schema。
工作原理：输入源 → 推荐 Schema → 模型抽取 → 结果验证 → 结构化输出。

2. 抽取规则配置

输入源选择：
- 直接抽取模式：解析 → 抽取（对整文档）。
- 分组抽取模式：解析 → 分割 → 抽取（对特定分组）。
抽取规则 (可选)：
- 指导模型理解文档（≤ 500 字符）。
- 示例：“注意日期格式为 YYYY-MM-DD，金额单位是元”。
Schema 配置：
- 智能推荐：系统基于内容自动生成。
- 字段定义：支持 String, Number, Boolean, Date, Enum, Object, Array, Null。
- 编辑：支持修改、新增、删除（最多 25 个字段）。

3. 运行与结果

运行条件：必须配置抽取策略描述或 Schema。
执行策略：若前置模块有更改，将从修改处重新执行整个流程。
结果查看：
- 视图：表格视图（默认）和 JSON 视图。
- 状态标识：绿色对勾（成功）、红色感叹号（失败）、黄色警告（格式不符）。
- 操作：支持复制表格数据或下载 JSON 结果。

🚀 部署为可调用 API

将配置好的流程部署为 API 服务，用于自动化处理。

1. 部署条件

✅ 流程中包含解析模块。
✅ 已上传文件并至少运行过一次。
✅ 所有已配置模块都至少成功运行过一次。

2. 部署步骤

点击右上角 “部署” 按钮。
系统生成唯一的 Pipeline ID 和 API 端点。
获取调用示例代码（Python, cURL 等）。

注意：

Pipeline ID 是全局唯一的凭证，请妥善保管，不要公开分享。
API 将继承当前的解析配置、分割规则和抽取 Schema。

📚 示例流程参考

文档智能抽取提供 4 个示例流程帮助快速上手：

仅解析：基础文档解析和查看。
解析 → 分割：多页文档内容分类。
解析 → 抽取：简单文档结构化提取。
解析 → 分割 → 抽取：复杂文档精准提取。

❓ 常见问题

文件上传问题

Q：文件上传失败怎么办？
- A：请检查格式 (PDF/JPG/PNG)、大小 (≤10MB)、页数 (PDF≤10页) 及网络连接。
Q：批量上传有限制吗？
- A：单个任务最多上传 10 个文件。

解析相关问题

Q：解析结果不准确怎么办？
- A：确保文档清晰且方向正确；检查页码范围；验证布局解析框。
Q：如何处理复杂表格？
- A：尝试调整 OCR 模式设置，或联系技术支持。

分割相关问题

Q：分割无匹配页面怎么办？
- A：优化分组描述使其更具体；检查文档内容是否确实包含该类信息。
Q：分组数量有限制吗？
- A：最多支持 20 个分组。

抽取相关问题

Q：抽取字段缺失或不准？
- A：首先验证解析结果；优化 Schema 描述；检查字段类型；对于复杂文档建议先分割再抽取。
Q：Schema 设计有什么建议？
- A：字段名贴近文档内容；有限结果集使用 Enum；嵌套不超过 2-3 层；长列表使用 Array。

部署与性能

Q：Pipeline ID 如何管理？
- A：获得 ID 的用户均可调用，请勿公开。如需停止服务请联系技术支持或创建新 Pipeline。
Q：处理速度慢怎么办？
- A：只提取必需字段；长文档使用分割功能聚焦目标区域；分批处理。

✅ 下一步建议

如果您已掌握基础操作，可以尝试：

上传不同类型的票据：测试不同格式文档的处理效果。
构建复杂 Schema：尝试嵌套结构和数组类型的字段定义。
优化分割策略：为多页复杂文档设计精准的分组描述。
部署为 API 服务：将成功流程集成到业务系统中。

如有问题或建议，请通过 MinerU 官方渠道反馈。祝您使用愉快！