Hermes Agent 是由 Nous Research 开发的开源 AI Agent 框架,核心理念是 **”The agent that grows with you”**——不是一次性工具,而是越用越聪明的长期伙伴。从 2026 年 3 月公测至今,4 个月斩获 20 万 GitHub Star,与 NVIDIA 达成官方合作。本文深度解析其技术架构、记忆体系、Skill 自进化机制,以及 Agent 自我进化的未来趋势。
第一部分:Hermes 技术原理
1.1 Hermes 是什么
Hermes Agent(MIT 协议)与 Claude Code、Codex、OpenClaw 同属自主编码与任务执行 Agent 类别。
与同类产品的本质区别:
| 能力 | Hermes | Claude Code | Codex | OpenClaw |
|---|---|---|---|---|
| 开源(MIT) | ✅ | ❌ | ❌ | ✅ (Apache) |
| Skill 自进化体系 | ✅ 独有 | ❌ | ❌ | ❌ |
| 多平台 Gateway | 24+ | ❌ | ❌ | 20+ |
| Provider 无关 | 20+ 提供商 | 仅 Anthropic | 仅 OpenAI | 有限 |
| 持久跨会话记忆 | ✅ | 仅 CLAUDE.md | ❌ | ✅ |
| 原生桌面 App | ✅ (v0.16) | ❌ | ❌ | ❌ |
1.2 社区背景
| 指标 | 数值 |
|---|---|
| GitHub Stars | 202,000(4 个月从 0 到 200K) |
| Forks | 36,200 |
| 总贡献者 | 1,400+ |
| 最新版本 | v0.17.0 “The Reach”(6月19日) |
| 发布节奏 | 周均 1 版(3.5 个月 17 个大版本) |
| 合作伙伴 | NVIDIA(RTX + DGX Spark 官方 AI Agent 参考实现) |
发布里程碑:
1 | 3月12日 v0.2.0 公开发布 |
1.3 核心功能
多平台 Gateway(24 个平台):同一 Agent 可同时在 Telegram、Discord、Slack、WhatsApp、Signal、Matrix、Email、SMS、飞书、企业微信、iMessage、API Server、Webhooks 等平台运行。
Provider 无关:支持 20+ LLM 提供商(OpenRouter、Anthropic、OpenAI、DeepSeek、MiniMax、Kimi、GLM、xAI Grok 等),随时切换模型不影响任务。
Skill 体系(核心差异化能力):Skill 是 Hermes 的程序性记忆——将成功的工作流、踩坑经验、领域知识保存为可复用的技能文件,在后续对话中自动加载。这是 Hermes 最独特的能力。
其他核心能力:
- 持久记忆:跨会话记住用户偏好、环境事实、项目约定
- 子任务委派 (delegate_task):并行分配工作给子 Agent
- Cron 调度:定时任务自动化
- MCP 服务器:接入第三方记忆系统
- Profiles:同一台机器运行多个独立 Agent 实例
- 上下文压缩:自动压缩长对话,控制 Token 成本
- 原生桌面 App (v0.16+):macOS/Windows/Linux
1.4 技术架构
1 | ┌──────────────────────────────────────────────────────┐ |
1.5 记忆体系(三层架构)
1 | ┌──────────────────────────────────────────────────────┐ |
关键设计:
- 冻结快照:会话启动时注入记忆快照,会话期间不更新,保留 Prompt Cache
- 实时持久化:运行时写入立即落盘,下一会话生效
- 冷热分离:声明性记忆(低频更新)vs 程序性记忆(按需加载)vs 历史对话(主动检索)
1.6 自我进化机制
这是 Hermes 区别于所有竞品的核心能力——闭环学习循环:
1 | 用户交互 |
Skill 生命周期管理:
| 操作 | 触发条件 | 效果 |
|---|---|---|
create |
完成复杂任务(5+ tool calls) | 创建 SKILL.md + 目录结构 |
patch |
发现 Skill 过时或错误 | 精确查找替换,即时修正 |
edit |
大范围重写 | 整体更新 |
delete |
不再需要 | 清理冗余 |
1.7 快速安装
1 | # 一键安装 |
第二部分:LLM Wiki — 知识管理新范式
2.1 设计理念
Hermes 的 Skill 体系天然支持知识管理场景。采用 Karpathy 提出的 “编译优于检索” 模式:
知识一旦摄入,就被编译成结构化 Markdown 页面。跨页面链接已建立,矛盾已被标记,综合已完成。每次问答不是重新发现知识,而是读取已编译的知识。
2.2 LLM Wiki vs 传统 RAG
| 需求 | RAG | LLM Wiki | 优势 |
|---|---|---|---|
| 频繁查询相同知识 | 每次检索全部文档 | 一次编译,多次读取 | 响应快、成本低 |
| 知识分散多源 | 每次多源检索合并 | 三级 fallback → 集中沉淀 | 链路短、体验统一 |
| 知识持续积累 | 需重新索引 | 增量补充,自动去重 | 不重复、持续增长 |
| 跨文档综合 | 碎片化检索 | 页面级综合 + 交叉引用 | 链路全景清晰 |
2.3 Skill 自进化的实践闭环
1 | ┌─ 知识摄入 ──────────────────────────────────┐ |
核心价值:一个人的改进,全团队受益。Skill 文件可共享、可审计、可版本控制。
第三部分:Hermes vs 同类竞品
3.1 三者定位:三个不同的哲学
1 | Hermes ☤ "越用越聪明" — 学习型 Agent |
3.2 核心能力对比
| 能力 | Hermes | OpenClaw | OpenHuman |
|---|---|---|---|
| 自我进化 / Skill 闭环 | ✅ 独有 | ❌ | ❌ |
| 多平台 Gateway | 24 平台 | 20+ 平台 | ⚠️ 有限 |
| 桌面体验 | ⚠️ v0.16 新 | ❌ 仅 CLI | ✅ 成熟 Tauri |
| 终端/服务器部署 | ✅ 6 种后端 | ✅ | ❌ Desktop-only |
| NVIDIA 硬件生态 | ✅ RTX + DGX | ❌ | ❌ |
| 记忆系统 | Memory + Session | Memory | Memory Tree + Obsidian |
| Cron 调度 | ✅ 内置 | ✅ | ✅ 内置 |
| Sub-Agent 并行 | ✅ delegate_task | ✅ | ✅ agent coord. |
3.3 各自致命短板
| Hermes | OpenClaw | OpenHuman | |
|---|---|---|---|
| 短板 1 | 桌面体验刚起步 | CVE-2026-25253 高危漏洞 | GPL-3.0 — 商业使用硬伤 |
| 短板 2 | 单人贡献过半 | 无 Skill 自进化能力 | Desktop-only — 不能上服务器 |
| 短板 3 | Open Issues 积压严重 | 没有桌面 App | 无自我进化 — 每次重新开始 |
3.4 选型建议
| 如果你的核心需求是… | 选谁? |
|---|---|
| 持久积累业务知识,越用越聪明 | Hermes — Skill 闭环独此一家 |
| 24 小时无人值守跑在服务器上 | Hermes — 6 种后端 + Cron |
| NVIDIA 硬件本地运行 | Hermes — RTX + DGX Spark 官方合作 |
| 非技术人员 5 分钟上手 | OpenHuman — 桌面 Mascot + 118 OAuth |
| 业务代码闭源,需 MIT 协议 | Hermes / OpenClaw — 避免 GPL 传染 |
| 最大社区 + 最多第三方集成历史 | OpenClaw — 377K Stars + 先发优势 |
本质差异:三者不是零和博弈。Hermes 赢在学习深度,OpenClaw 赢在连接广度,OpenHuman 赢在体验温度——在不同象限各自做深。
第四部分:未来展望 — Agent 自我进化趋势
4.1 当前 Hermes 进化范式的定位
Hermes 的 Skill 系统代表 “启发式自主管理” 范式:
1 | 优点: 局限: |
4.2 业界三条演化路径
路径一:MUSE-Autoskill — 全生命周期自动化
| 论文 | MUSE-Autoskill (Arxiv 2605.27366) |
|---|---|
| 核心创新 | Agent 自主完成技能的创建→记忆→管理→评估全生命周期 |
| 与 Hermes 的差异 | Hermes 靠 LLM 判断何时创建 → MUSE 自动从任务中提取可复用模式;向量化存储 + 语义检索 vs Skill 名称匹配 |
| 关键能力 | 自动模式提取 → 向量化记忆 → 相似任务检索 → 效果评估反馈闭环 |
启示:未来 Skill 不应依赖 Agent “想起来”才保存——应该自动检测可复用模式并持久化。
路径二:SkillOpt — 文本空间梯度下降
| 论文 | SkillOpt (Arxiv 2605.23904, Microsoft + SJTU + 同济 + 复旦) |
|---|---|
| 核心创新 | 将深度学习优化纪律(学习率/验证集/梯度裁剪/早停)系统性移植到文本空间的技能训练 |
| 架构 | Frozen Target Model → 独立 Optimizer Model(分析轨迹 → 产生编辑)→ Validation Gate(只有严格提升才接受) |
| 关键结果 | 52/52 评测单元最佳,GPT-5.5 平均提分 +23.5,跨模型/跨 Harness 可迁移 |
启示:LLM 自己改自己容易越改越差 → 需要独立优化器 + 验证门控。
路径三:Skill1 — RL 驱动的技能联合进化
| 论文 | Skill1 (Arxiv 2605.06130, USTC + 美团 + NUS + 浙大 + 武大) |
|---|---|
| 核心创新 | 用单一任务结果信号通过频域分解,同时演化技能选择/利用/蒸馏三大能力 |
| 频域信用分配 | 低频趋势(移动平均)→ 评分选技能 · 高频波动(偏差)→ 评估蒸馏价值 |
| 关键结果 | ALFWorld **97.5%**(全面碾压所有基线) |
启示:技能选择、利用、蒸馏应该联合优化而不是分阶段独立改进。
4.3 三条路径的对比
| 维度 | Hermes 当前 | MUSE-Autoskill | SkillOpt | Skill1 |
|---|---|---|---|---|
| 创建触发 | LLM 判断 | 自动检测 | 训练驱动 | RL 奖励 |
| 优化方式 | 无梯度 | 向量+反馈 | 文本梯度下降 | RL 频域分配 |
| 验证机制 | 无 | 效果评估 | held-out 验证集 | 任务成功/失败 |
| 当前成熟度 | ✅ 生产 | 🔬 学术 | 🔬 学术 | 🔬 学术 |
4.4 演化路线图
1 | 当前 (2026.06) 近期 (2026 H2) 远期 (2027+) |
近期可落地(基于 Hermes 现有基础设施):
- Skill 效果度量:每个 Skill 携带成功率、平均耗时、Token 消耗等指标
- A/B 验证:新 Skill 先在验证集上跑,通过才推广
- 自动淘汰:低频 + 低效 Skill 自动标记、建议清理
中期探索(需要工程投入):
4. SkillOpt 风格优化器:独立 LLM 分析 Skill 使用轨迹,产生建议性 patch
5. 向量化 Skill 检索:从名称匹配升级为语义相似度检索
6. 跨实例 Skill 共享:团队内共享 Skill 仓库,一次改进全员受益
参考资料
- Hermes Agent GitHub · 202K ⭐
- 官方文档
- Karpathy’s LLM Wiki
- MUSE-Autoskill: Arxiv 2605.27366
- Skill1: Arxiv 2605.06130
- SkillOpt: Arxiv 2605.23904
报告完成: 2026-06-25