Hermes Agent 技术分享 — 200K Star 的自我进化型 AI Agent 深度解析

Hermes Agent 是由 Nous Research 开发的开源 AI Agent 框架,核心理念是 **”The agent that grows with you”**——不是一次性工具,而是越用越聪明的长期伙伴。从 2026 年 3 月公测至今,4 个月斩获 20 万 GitHub Star,与 NVIDIA 达成官方合作。本文深度解析其技术架构、记忆体系、Skill 自进化机制,以及 Agent 自我进化的未来趋势。


第一部分:Hermes 技术原理

1.1 Hermes 是什么

Hermes Agent(MIT 协议)与 Claude Code、Codex、OpenClaw 同属自主编码与任务执行 Agent 类别。

与同类产品的本质区别

能力 Hermes Claude Code Codex OpenClaw
开源(MIT) ✅ (Apache)
Skill 自进化体系 独有
多平台 Gateway 24+ 20+
Provider 无关 20+ 提供商 仅 Anthropic 仅 OpenAI 有限
持久跨会话记忆 仅 CLAUDE.md
原生桌面 App ✅ (v0.16)

1.2 社区背景

指标 数值
GitHub Stars 202,000(4 个月从 0 到 200K)
Forks 36,200
总贡献者 1,400+
最新版本 v0.17.0 “The Reach”(6月19日)
发布节奏 周均 1 版(3.5 个月 17 个大版本)
合作伙伴 NVIDIA(RTX + DGX Spark 官方 AI Agent 参考实现)

发布里程碑

1
2
3
4
5
6
7
3月12日  v0.2.0   公开发布
4月13日 v0.9.0 每 4 天一版的冲刺期
5月7日 v0.13.0 The Tenacity — 持久 Agent 系统
5月16日 v0.14.0 The Foundation — pip install 开箱即用
5月28日 v0.15.0 The Velocity — 核心重构 16K→3.8K 行
6月5日 v0.16.0 The Surface — 原生桌面 App 发布
6月19日 v0.17.0 The Reach — 24 平台 + 后台 Subagent

1.3 核心功能

多平台 Gateway(24 个平台):同一 Agent 可同时在 Telegram、Discord、Slack、WhatsApp、Signal、Matrix、Email、SMS、飞书、企业微信、iMessage、API Server、Webhooks 等平台运行。

Provider 无关:支持 20+ LLM 提供商(OpenRouter、Anthropic、OpenAI、DeepSeek、MiniMax、Kimi、GLM、xAI Grok 等),随时切换模型不影响任务。

Skill 体系(核心差异化能力):Skill 是 Hermes 的程序性记忆——将成功的工作流、踩坑经验、领域知识保存为可复用的技能文件,在后续对话中自动加载。这是 Hermes 最独特的能力

其他核心能力

  • 持久记忆:跨会话记住用户偏好、环境事实、项目约定
  • 子任务委派 (delegate_task):并行分配工作给子 Agent
  • Cron 调度:定时任务自动化
  • MCP 服务器:接入第三方记忆系统
  • Profiles:同一台机器运行多个独立 Agent 实例
  • 上下文压缩:自动压缩长对话,控制 Token 成本
  • 原生桌面 App (v0.16+):macOS/Windows/Linux

1.4 技术架构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
┌──────────────────────────────────────────────────────┐
│ AIAgent.run_conversation() │
│ │
│ while iterations < max_iterations: │
│ ① Build System Prompt (注入 Memory + Skills) │
│ ② Call LLM (OpenAI-format messages + tool schemas)│
│ ③ if tool_calls → dispatch → append results │
│ ④ if text → return response │
│ ⑤ Context compression (接近 token 上限时触发) │
└──────────────────────────────────────────────────────┘
│ │
▼ ▼
┌──────────┐ ┌──────────┐
│ Tools │ │ Gateway │
│ 20+ 工具 │ │ 24 平台 │
│ skill / │ │ 消息路由 │
│ memory / │ │ 命令审批 │
│ terminal │ │ 会话管理 │
└──────────┘ └──────────┘

1.5 记忆体系(三层架构)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
┌──────────────────────────────────────────────────────┐
│ 系统提示注入层(会话开始注入) │
│ ┌─────────────┐ ┌─────────────┐ ┌──────────────┐ │
│ │ MEMORY.md │ │ USER.md │ │ Skills │ │
│ │ 代理记忆 │ │ 用户画像 │ │ 程序性记忆 │ │
│ │ 环境/项目 │ │ 偏好/习惯 │ │ 工作流/命令 │ │
│ └─────────────┘ └─────────────┘ └──────────────┘ │
└──────────────────────────────────────────────────────┘


┌──────────────────────────────────────────────────────┐
│ 跨会话检索层(按需查询) │
│ session_search: FTS5 全文搜索 + LLM 摘要 │
│ 搜索所有历史对话 → 匹配相关会话 → 注入上下文 │
└──────────────────────────────────────────────────────┘


┌──────────────────────────────────────────────────────┐
│ 运行时洞察层(实时统计) │
│ InsightsEngine: Token消耗 · 成本 · 工具模式 │
└──────────────────────────────────────────────────────┘

关键设计

  • 冻结快照:会话启动时注入记忆快照,会话期间不更新,保留 Prompt Cache
  • 实时持久化:运行时写入立即落盘,下一会话生效
  • 冷热分离:声明性记忆(低频更新)vs 程序性记忆(按需加载)vs 历史对话(主动检索)

1.6 自我进化机制

这是 Hermes 区别于所有竞品的核心能力——闭环学习循环

1
2
3
4
5
6
7
8
9
10
11
12
用户交互

Agent 推理 + 工具执行

┌───────────────────────────────────┐
│ 成功路径 → skill_manage create │ ← 新建 Skill
│ 错误修正 → skill_manage patch │ ← 修补 Skill
│ 用户纠正 → memory add/replace │ ← 更新记忆
│ 知识发现 → memory save │ ← 沉淀洞察
└───────────────────────────────────┘

下一会话自动注入更新后的记忆 + Skills

Skill 生命周期管理

操作 触发条件 效果
create 完成复杂任务(5+ tool calls) 创建 SKILL.md + 目录结构
patch 发现 Skill 过时或错误 精确查找替换,即时修正
edit 大范围重写 整体更新
delete 不再需要 清理冗余

1.7 快速安装

1
2
3
4
5
6
7
8
9
10
11
# 一键安装
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

# 交互式配置
hermes setup

# 选择模型
hermes model

# 开始对话
hermes

第二部分:LLM Wiki — 知识管理新范式

2.1 设计理念

Hermes 的 Skill 体系天然支持知识管理场景。采用 Karpathy 提出的 “编译优于检索” 模式:

知识一旦摄入,就被编译成结构化 Markdown 页面。跨页面链接已建立,矛盾已被标记,综合已完成。每次问答不是重新发现知识,而是读取已编译的知识

2.2 LLM Wiki vs 传统 RAG

需求 RAG LLM Wiki 优势
频繁查询相同知识 每次检索全部文档 一次编译,多次读取 响应快、成本低
知识分散多源 每次多源检索合并 三级 fallback → 集中沉淀 链路短、体验统一
知识持续积累 需重新索引 增量补充,自动去重 不重复、持续增长
跨文档综合 碎片化检索 页面级综合 + 交叉引用 链路全景清晰

2.3 Skill 自进化的实践闭环

1
2
3
4
5
6
7
8
9
10
11
12
13
14
┌─ 知识摄入 ──────────────────────────────────┐
│ 新文档 → Agent 按 Skill 流程读取 │
│ → 检查已有 Wiki 页面 → 增量补充 / 创建新页面 │
└──────────────────────────────────────────────┘

┌─ 日常问答 ──────────────────────────────────┐
│ 提问 → 三级 fallback → 返回答案 │
│ → 判断是否为新知识 → 沉淀到 Wiki │
└──────────────────────────────────────────────┘

┌─ 持续改进 ──────────────────────────────────┐
│ 内容变更 → skill_manage patch 即时更新 │
│ 发现错误 → 即时修正,错误不重复发生 │
└──────────────────────────────────────────────┘

核心价值:一个人的改进,全团队受益。Skill 文件可共享、可审计、可版本控制。


第三部分:Hermes vs 同类竞品

3.1 三者定位:三个不同的哲学

1
2
3
4
5
6
7
8
9
10
11
12
13
14
Hermes ☤  "越用越聪明" — 学习型 Agent
│ Skill 闭环学习循环,从对话中自我进化
│ 开发者优先,终端/服务器优先
│ 目标:成为最懂你的长期伙伴

OpenClaw 🦞 "连接一切" — 覆盖型 Agent
│ 20+ 平台 Gateway 之王,覆盖面无人能及
│ Microsoft Scout 背书的工具调用能力
│ 目标:成为所有平台上的 AI 中枢

OpenHuman 🧑 "打开就会用" — 体验型 Agent
桌面原生 Tauri App,开机即用
118+ OAuth 一键授权 + 后台持续思考
目标:成为消费者的 AI 桌面伙伴

3.2 核心能力对比

能力 Hermes OpenClaw OpenHuman
自我进化 / Skill 闭环 独有
多平台 Gateway 24 平台 20+ 平台 ⚠️ 有限
桌面体验 ⚠️ v0.16 新 ❌ 仅 CLI ✅ 成熟 Tauri
终端/服务器部署 ✅ 6 种后端 ❌ Desktop-only
NVIDIA 硬件生态 ✅ RTX + DGX
记忆系统 Memory + Session Memory Memory Tree + Obsidian
Cron 调度 ✅ 内置 ✅ 内置
Sub-Agent 并行 ✅ delegate_task ✅ agent coord.

3.3 各自致命短板

Hermes OpenClaw OpenHuman
短板 1 桌面体验刚起步 CVE-2026-25253 高危漏洞 GPL-3.0 — 商业使用硬伤
短板 2 单人贡献过半 无 Skill 自进化能力 Desktop-only — 不能上服务器
短板 3 Open Issues 积压严重 没有桌面 App 无自我进化 — 每次重新开始

3.4 选型建议

如果你的核心需求是… 选谁?
持久积累业务知识,越用越聪明 Hermes — Skill 闭环独此一家
24 小时无人值守跑在服务器上 Hermes — 6 种后端 + Cron
NVIDIA 硬件本地运行 Hermes — RTX + DGX Spark 官方合作
非技术人员 5 分钟上手 OpenHuman — 桌面 Mascot + 118 OAuth
业务代码闭源,需 MIT 协议 Hermes / OpenClaw — 避免 GPL 传染
最大社区 + 最多第三方集成历史 OpenClaw — 377K Stars + 先发优势

本质差异:三者不是零和博弈。Hermes 赢在学习深度,OpenClaw 赢在连接广度,OpenHuman 赢在体验温度——在不同象限各自做深。


第四部分:未来展望 — Agent 自我进化趋势

4.1 当前 Hermes 进化范式的定位

Hermes 的 Skill 系统代表 “启发式自主管理” 范式:

1
2
3
4
5
优点:                              局限:
✅ 生产可用,已在实际业务中稳定运行 ⚠️ 依赖 LLM 自主判断何时创建/更新
✅ 人机协同:Skill 文件人类可读可审 ⚠️ 缺乏量化的效果度量
✅ 渐进式改进:每次交互都可能产生增量 ⚠️ 无自动错误分析流程
✅ 低门槛:不需要额外训练基础设施 ⚠️ 每个实例独立学习,无法共享

4.2 业界三条演化路径

路径一:MUSE-Autoskill — 全生命周期自动化

论文 MUSE-Autoskill (Arxiv 2605.27366)
核心创新 Agent 自主完成技能的创建→记忆→管理→评估全生命周期
与 Hermes 的差异 Hermes 靠 LLM 判断何时创建 → MUSE 自动从任务中提取可复用模式;向量化存储 + 语义检索 vs Skill 名称匹配
关键能力 自动模式提取 → 向量化记忆 → 相似任务检索 → 效果评估反馈闭环

启示:未来 Skill 不应依赖 Agent “想起来”才保存——应该自动检测可复用模式并持久化

路径二:SkillOpt — 文本空间梯度下降

论文 SkillOpt (Arxiv 2605.23904, Microsoft + SJTU + 同济 + 复旦)
核心创新 将深度学习优化纪律(学习率/验证集/梯度裁剪/早停)系统性移植到文本空间的技能训练
架构 Frozen Target Model → 独立 Optimizer Model(分析轨迹 → 产生编辑)→ Validation Gate(只有严格提升才接受)
关键结果 52/52 评测单元最佳,GPT-5.5 平均提分 +23.5,跨模型/跨 Harness 可迁移

启示:LLM 自己改自己容易越改越差 → 需要独立优化器 + 验证门控。

路径三:Skill1 — RL 驱动的技能联合进化

论文 Skill1 (Arxiv 2605.06130, USTC + 美团 + NUS + 浙大 + 武大)
核心创新 单一任务结果信号通过频域分解,同时演化技能选择/利用/蒸馏三大能力
频域信用分配 低频趋势(移动平均)→ 评分选技能 · 高频波动(偏差)→ 评估蒸馏价值
关键结果 ALFWorld **97.5%**(全面碾压所有基线)

启示:技能选择、利用、蒸馏应该联合优化而不是分阶段独立改进。

4.3 三条路径的对比

维度 Hermes 当前 MUSE-Autoskill SkillOpt Skill1
创建触发 LLM 判断 自动检测 训练驱动 RL 奖励
优化方式 无梯度 向量+反馈 文本梯度下降 RL 频域分配
验证机制 效果评估 held-out 验证集 任务成功/失败
当前成熟度 ✅ 生产 🔬 学术 🔬 学术 🔬 学术

4.4 演化路线图

1
2
3
4
5
6
当前 (2026.06)         近期 (2026 H2)            远期 (2027+)
───────────────── ────────────────── ──────────────
Hermes 启发式 + 效果度量反馈闭环 + 文本空间梯度优化
LLM 判断创建 + 自动模式提取 + 独立验证门控
.md 文件持久化 + 向量化语义检索 + RL 联合进化
+ A/B 技能效果对比 + 跨实例知识共享

近期可落地(基于 Hermes 现有基础设施):

  1. Skill 效果度量:每个 Skill 携带成功率、平均耗时、Token 消耗等指标
  2. A/B 验证:新 Skill 先在验证集上跑,通过才推广
  3. 自动淘汰:低频 + 低效 Skill 自动标记、建议清理

中期探索(需要工程投入):
4. SkillOpt 风格优化器:独立 LLM 分析 Skill 使用轨迹,产生建议性 patch
5. 向量化 Skill 检索:从名称匹配升级为语义相似度检索
6. 跨实例 Skill 共享:团队内共享 Skill 仓库,一次改进全员受益


参考资料


报告完成: 2026-06-25