Day 4:让 Hermes 处理文件和数据

聊天只是入口,文件才是工作

真正能感受到 Agent 价值的时候,往往不是它会聊天,而是它能接住一堆乱材料:一份会议纪要、几个 CSV、一个网页、一个需求文档,然后产出可以检查的东西。日报、网站监控、数据提取、内容改写,本质都是同一个动作:把杂乱输入变成结构化产物。

今天让 Hermes 做第一份“可复查的数据工作”。

Hermes Agent 第 4 天数据处理工作区示意图
Hermes Agent 第 4 天数据处理工作区示意图

先建工作区,不要直接把文件丢给它

很多人会直接说“帮我处理这个文件”。这句话太危险,因为你没说清楚原始文件能不能改、输出长什么样、错了怎么发现。

先建一个小目录:

hermes-data-task/
  raw/
  working/
  output/
  notes.md
  schema.json

规则很简单:

    1. raw/ 放原始文件,只读,不覆盖。
    2. working/ 放中间过程。
    3. output/ 放最终产物。
    4. notes.md 记录 prompt、判断和异常。
    5. schema.json 写输出格式。

这样做看起来慢,但后面会省大量返工。

第一份任务选什么

不要从最难的开始。选一个低风险、能肉眼检查、真实有用的小任务。

适合 Day 4 的任务:

    1. 把 20 条用户反馈按主题分类。
    2. 从会议纪要里提取待办、负责人和截止时间。
    3. 把一份工具清单整理成 JSON。
    4. 从几篇文章标题中归纳用户痛点。
    5. 把网站监控记录整理成异常报告。

不适合 Day 4 的任务:

    1. 直接改生产数据库。
    2. 批量给客户发消息。
    3. 处理唯一一份没有备份的文件。
    4. 让 Hermes 自己决定哪些字段重要。

写清楚输出 schema

如果你要它提取待办,不要只说“整理一下”。写成这样:

{
  "items": [
    {
      "task": "string",
      "owner": "string | unknown",
      "deadline": "YYYY-MM-DD | unknown",
      "source_quote": "string",
      "confidence": "high | medium | low",
      "needs_review": true
    }
  ]
}
source_quote 很重要。它让你能回到原文检查 Hermes 有没有编造。needs_review 也很重要,因为不确定性应该变成字段,而不是藏在一段漂亮总结里。

给 Hermes 的任务说明

请只读取 raw/ 目录,不要修改原始文件。
请按照 schema.json 输出结果到 output/tasks.json。
如果信息不确定,owner/deadline 写 unknown,并把 needs_review 设为 true。
请在 notes.md 追加处理说明:你读了哪些文件、发现哪些异常、哪些字段需要我复查。

这个 prompt 没有华丽词,但它像工作指令。一个好 Agent 不需要你夸它聪明,它需要你把输入、输出和验收说清楚。

验收方式

跑完以后不要立刻进入下一天。做四个检查:

  1. 原始文件是否没被改。
  2. 输出是否能被 JSON parser 读取。
  3. 行数、条数、字段数是否和预期接近。
  4. 所有低置信度项是否被标记为 needs_review

如果这四项过不了,不要怪模型,先改 schema 和任务说明。

今天交付什么

留下 hermes-day-4-data.md

task: "meeting notes to action items"
input_folder: "raw/"
output_file: "output/tasks.json"
schema_file: "schema.json"
validation:
  - raw unchanged
  - json parses
  - uncertain fields marked
  - notes written

明天讲 Skill 和 MCP。今天你已经有了一个重复工作流的雏形;明天要判断它值不值得沉淀成能力。

下一步

小白手把手:让 Hermes 处理一份真实文件

今天不要一上来处理一堆文件。你只拿一份会议纪要、一个 CSV 或一段网页内容,做一次完整的“输入到输出”流程。

Hermes Agent Day 4 文件数据工作台流程图
Hermes Agent Day 4 文件数据工作台流程图

第 1 步:建一个不会污染项目的工作台

mkdir -p hermes-day4/raw hermes-day4/working hermes-day4/output hermes-day4/logs
touch hermes-day4/notes.md

把原始文件放进 raw/。不要直接让 Hermes 改原文件。

第 2 步:准备一个小输入

如果你没有真实材料,就先建一个测试文件:

cat > hermes-day4/raw/meeting-notes.md <<EOF
项目例会:
- 张三负责周五前整理部署文档。
- 李四下周一检查 gateway 日志。
- 模型 Key 暂时不要发到群里。
EOF

第 3 步:先让 Hermes 设计输出格式

把下面这段发给 Hermes:

请只读取 hermes-day4/raw/meeting-notes.md。
不要修改原文件。
请先设计一个 JSON 输出 schema,用来提取任务、负责人、截止时间、来源句子和不确定项。
schema 确认后,再写入 hermes-day4/output/tasks.json。

小白重点:先确认 schema,再让它输出。否则它会给你一段漂亮总结,但你很难复查。

第 4 步:检查输出

输出后你要看四件事:

    1. 是否每个任务都有来源句子。
    2. 不确定截止时间有没有标记为 unknown。
    3. 是否编造了负责人。
    4. 是否改动了 raw 目录。

第 5 步:让 Hermes 写日志

继续发:

请在 hermes-day4/logs/run-001.md 记录这次处理:
- 输入文件
- 输出文件
- 你不确定的字段
- 需要人工确认的地方

Day 4 常见卡点

    1. Hermes 直接总结不落文件:明确要求写入 output 路径。
    2. 输出没有来源:要求 source_quote 字段。
    3. 文件太大:先切一小段测试,别第一次就丢整本 PDF。
    4. 中文表格乱:先让它识别字段,再让它转结构化数据。

今天必须留下的文件

hermes-day4/
  raw/meeting-notes.md
  output/tasks.json
  logs/run-001.md