he parse¶
从文档中提取知识并保存到知识库。
概要¶
参数¶
| 参数 | 描述 |
|---|---|
INPUT |
输入文件路径、目录或 - 表示标准输入 |
选项¶
| 选项 | 简写 | 描述 |
|---|---|---|
--output |
-o |
输出目录(必填) |
--template |
-t |
要使用的模板(省略以进行交互式选择) |
--method |
-m |
方法模板(例如 light_rag、graph_rag) |
--lang |
-l |
语言:zh 或 en(知识模板必填) |
--force |
-f |
强制覆盖现有输出 |
--no-index |
— | 跳过构建搜索索引 |
示例¶
基本用法¶
从单个文件提取:
交互式模板选择¶
省略 -t 以从可用模板中选择:
he parse document.md -o ./output/ -l zh
# 您将看到:
# Select a template:
# [1] general/biography_graph
# [2] general/graph
# [3] finance/earnings_summary
# ...
# Enter number or search keyword:
处理目录¶
从目录中的所有 .md 和 .txt 文件提取:
文件按字母顺序组合后进行提取。
使用方法而非模板¶
使用底层提取方法:
方法始终使用英文提示。
强制覆盖¶
覆盖现有输出目录:
跳过索引构建¶
如果您不需要搜索/聊天,可以加快提取速度:
之后使用 he build-index 构建索引。
从标准输入读取¶
输出结构¶
./output/
├── data.json # 提取的知识(实体、关系等)
├── metadata.json # 提取元数据
│ ├── template # 使用的模板
│ ├── lang # 语言
│ ├── created_at # 创建时间戳
│ └── updated_at # 最后更新时间戳
└── index/ # 向量搜索索引(如已构建)
├── index.faiss
└── docstore.json
语言支持¶
模板支持多种语言:
# 英文
he parse doc.md -t general/biography_graph -o ./output/ -l zh -o ./output/
# 中文
he parse doc.md -t general/biography_graph -l zh -o ./output/
选择与文档匹配的语言以获得最佳效果。
常见用例¶
研究论文¶
传记¶
法律合同¶
财务报告¶
错误处理¶
"输出目录已存在"¶
输出目录存在且不为空。解决方案:
- 使用
-f强制覆盖 - 选择不同的输出路径
- 先删除现有目录
"模板未找到"¶
指定的模板不存在。解决方案:
- 列出可用模板:
he list template - 使用交互式选择(省略
-t) - 检查模板路径拼写
"需要语言"¶
知识模板需要语言参数。方法不需要:
# 模板 - 需要 -l
he parse doc.md -t general/biography_graph -o ./output/ -l zh
# 方法 - 不需要 -l
he parse doc.md -m light_rag -o ./out/
最佳实践¶
- 选择正确的模板 — 匹配您的文档类型
- 使用正确的语言 — 提高提取质量
- 组织输出 — 使用描述性目录名
- 批量处理时跳过索引 — 使用
--no-index,最后统一构建
另请参见¶
he feed— 增量添加文档he build-index— 构建搜索索引he list— 列出可用模板- 模板库