首页
Transform documents into structured knowledge with one command.
"告别文档焦虑,让信息一目了然"
Hyper-Extract 是一个智能的、由 LLM(大型语言模型)驱动的知识提取框架。它将非结构化文本转换为持久的、可预测的、强类型的知识结构——从简单的列表到复杂的知识图谱、超图谱和时空图谱。
⚡ 5分钟快速入门¶
→ 想要深入了解? 查看入门指南或直接跳转至 CLI / Python SDK 文档。
✨ Hyper-Extract 的独特之处¶
-
8 种自动类型
从简单的
AutoList/AutoModel到高级的AutoGraph、AutoHypergraph和AutoSpatioTemporalGraph。为您的数据选择正确的结构。 -
10+ 种提取引擎
内置支持 GraphRAG、LightRAG、Hyper-RAG、KG-Gen、iText2KG 等。选择最适合您用例的方法。
-
80+ 个领域模板
开箱即用的金融、法律、医疗、中医和工业模板。无需配置即可使用。
-
增量演进
向知识库持续添加新文档。无需重新处理所有内容。
🎯 选择您的路径¶
-
CLI 用户
直接从终端处理文档。非常适合:
- 快速知识提取
- 批量文档处理
- 无需编码构建知识库
-
Python 开发者
集成到您的 Python 应用程序中。非常适合:
- 自定义提取管道
- 与现有工作流程集成
- 构建 AI 驱动的应用程序
-
想了解更多?
了解核心概念和架构:
- 自动类型如何工作
- 选择提取方法
- 创建自定义模板
🧩 8 种自动类型一览¶
| 类型 | 用例 | 示例输出 |
|---|---|---|
| AutoModel | 结构化摘要 | 带有特定字段的 Pydantic 模型 |
| AutoList | 项目集合 | 实体或事实的列表 |
| AutoSet | 去重集合 | 唯一项目的集合 |
| AutoGraph | 实体关系网络 | 带节点和边的知识图谱 |
| AutoHypergraph | 多实体关系 | 连接多个节点的超级边 |
| AutoTemporalGraph | 时间关系 | 带时间信息的图谱 |
| AutoSpatialGraph | 位置关系 | 带地理数据的图谱 |
| AutoSpatioTemporalGraph | 时间 + 空间组合 | 完整的上下文信息 |
🏗️ 架构概述¶
Hyper-Extract 采用三层架构:
graph TD
A[您的文档] --> B[CLI / Python API]
B --> C[模板]
B --> D[方法]
C --> E[自动类型]
D --> E
E --> F[结构化知识]
subgraph "Layer 3: 模板与方法"
C
D
end
subgraph "Layer 2: 核心引擎"
E
end
subgraph "Layer 1: 输出"
F
end
- 自动类型 — 定义输出数据结构(8种类型)
- 方法 — 提供提取算法(基于 RAG 和典型方法)
- 模板 — 提供特定领域的开箱即用配置
您可以在任意层级使用 Hyper-Extract:选择模板快速获得结果,选择方法获得更多控制,或直接使用自动类型进行完全定制。
📊 与其他工具对比¶
| 功能 | GraphRAG | LightRAG | KG-Gen | Hyper-Extract |
|---|---|---|---|---|
| 知识图谱 | ✅ | ✅ | ✅ | ✅ |
| 时间图谱 | ✅ | ❌ | ❌ | ✅ |
| 空间图谱 | ❌ | ❌ | ❌ | ✅ |
| 超图谱 | ❌ | ❌ | ❌ | ✅ |
| 领域模板 | ❌ | ❌ | ❌ | ✅ |
| CLI 工具 | ✅ | ❌ | ❌ | ✅ |
| 多语言 | ✅ | ❌ | ❌ | ✅ |
📚 文档结构¶
- 入门指南 — 安装和首次提取
- CLI 指南 — 完整的终端工作流程文档
- Python SDK — API 参考和开发者指南
- 核心概念 — 了解架构
- 模板库 — 特定领域的提取模板
- 资源 — 常见问题、故障排除和贡献指南
🤝 贡献¶
欢迎贡献!无论是错误报告、功能请求还是文档改进,请随时提交 Issue 或 Pull Request。
📄 许可证¶
Hyper-Extract 采用 Apache-2.0 许可证。