Hermes Agent 深度解析:Nous Research 开源全能型 AI Agent 框架

在人工智能快速发展的 2025-2026 年,AI Agent 已经从实验室概念走向了生产实践。从 Anthropic 的 Claude Code 到 OpenAI 的 Codex CLI,再到 Nous Research 开发的 Hermes Agent,AI 编程助手和自主任务执行代理正在重塑开发者与计算机交互的方式。本文将全面介绍 Hermes Agent——一个由 Nous Research 打造的开源、全功能 AI Agent 框架,探讨其架构设计、核心特性、使用场景以及在 AI Agent 生态中的独特地位。

一、Hermes Agent 是什么?

Hermes Agent 是一个开源的人工智能代理框架,由 Nous Research 团队开发维护。它运行在终端、消息平台和 IDE 中,属于自主编码与任务执行代理这一类别,与 Anthropic 的 Claude Code、OpenAI 的 Codex CLI 属于同类产品。Hermes 的核心理念是:通过工具调用来与系统交互,让 AI 能够真正动手做事,而不仅仅是动嘴聊天。

Hermes Agent 的独特之处在于它的全方位能力设计。它不是单一功能的工具,而是一个完整的 Agent 框架,具备持久记忆、技能积累、跨平台通信、多模型支持等企业级特性。其设计哲学是学习型代理——每一次交互都是一次学习机会,积累的知识可以跨会话复用。

二、核心架构与设计理念

2.1 提供商无关的设计

Hermes Agent 最显著的设计特点是提供商无关(Provider-agnostic)。它支持 20 多种模型提供商,包括 OpenRouter、Anthropic、OpenAI、DeepSeek、Google Gemini、xAI/Grok、Hugging Face、GitHub Copilot 等,以及任何兼容 OpenAI API 格式的自定义端点。用户可以在工作流中随时切换模型和提供商,而无需更改其他任何配置。

这种设计赋予了用户极大的灵活性。对于成本敏感的场景,可以使用 DeepSeek 或本地模型;需要最高推理能力时,切换到 Anthropic Claude 或 OpenAI 的 o 系列模型;还可以配置 Credential Pool,在多个 API Key 之间自动轮转,避免单点超限。这种弹性架构是 Hermes 区别于其他 Agent 框架的核心优势之一。

2.2 工具系统

Hermes 的工具系统是其能力的基础。系统提供了 20 多个工具集(Toolsets),每个工具集包含一组相关的工具函数,涵盖开发、研究、创作、通信、自动化等场景。

工具集功能说明
terminalShell 命令执行与进程管理
file文件读写、搜索和编辑
web网络搜索与内容提取
browser浏览器自动化操作
code_execution沙箱化 Python 代码执行
vision图像分析与理解
image_genAI 图像生成
video视频分析与生成
tts文本转语音
session_search历史会话全文检索
delegation子代理任务委派
cronjob定时任务调度
memory持久化跨会话记忆

工具集可以根据平台按需启用和禁用。例如,在 Telegram 上可以禁用 terminal 工具以增强安全性,而在 CLI 模式下则可以启用全部工具获得最大能力。

2.3 技能系统:自我进化的核心

Hermes Agent 最具创新性的是它的技能(Skills)系统。技能是一种可复用的程序化知识文档(SKILL.md),包含触发条件、步骤、命令、陷阱和验证环节。当代理解决复杂问题、发现工作流或收到用户纠正时,可以将这些知识持久化为技能,在未来的会话中自动加载。

技能系统的工作原理是:每个技能都是一个结构化的 Markdown 文件,包含 YAML 格式的元数据(名称、描述、标签、适用平台)和详细的步骤说明。技能可以分类存放,形成知识库。技能管理器(Curator)会自动跟踪技能的使用频率,将长期不用的技能标记为陈旧的并归档,保持技能库的整洁和高效。

这意味着 Hermes 会随着使用变得越来越聪明,越来越适应用户的工作方式和环境。这种自我进化的能力是 Hermes 区别于一次性 Agent 工具的核心特性。

三、跨平台网关系统

Hermes Agent 的另一个显著特色是其跨平台网关系统。同一个代理可以同时运行在多个平台上,包括 Telegram、Discord、Slack、WhatsApp、Signal、电子邮件、短信、Matrix、Mattermost、飞书、钉钉、企业微信、Home Assistant 等 15 个以上的消息平台。用户在不同平台上与同一个代理交互,共享相同的上下文、记忆和工具集。

网关平台还支持丰富的交互功能:语音消息自动转录、图片分析、文件处理、命令审批流等。这种一次配置、处处使用的体验大大降低了 AI Agent 的接入门槛。

四、持久记忆与用户画像

持久记忆是 Hermes Agent 的基石之一。系统维护两类记忆:

  • 用户画像(User Profile):记录关于用户是谁的信息——姓名、角色、偏好、沟通风格等。这些信息让代理能够提供更加个性化的服务。
  • 工作记忆(Memory):记录环境事实、项目约定、工具特性、经验教训等。这些信息避免用户反复向代理说明相同的上下文。

记忆系统支持可插拔的后端引擎,包括内置的 SQLite 存储、Honcho、Mem0 等第三方记忆服务。用户可以配置记忆的启用范围、记忆容量和检索策略,实现对隐私和性能的精细控制。

五、多代理与任务委派

Hermes 支持多代理协作模式,通过委托任务(delegate_task)工具实现。主代理可以将子任务委派给独立的子代理,每个子代理拥有独立的上下文和终端会话,并行工作。系统支持批量委派(最多 3 个并发子任务),并通过聚合摘要将结果返回给主代理。

对于需要长时间运行或完全隔离的任务,Hermes 支持 spawn 模式——启动完全独立的 Hermes 进程,作为独立的代理实例运行。这些实例可以有自己的配置、技能和记忆,通过 tmux 等终端多路复用器进行管理。

Kanban 看板系统进一步扩展了多代理协作的能力。基于 SQLite 的持久化看板支持多配置文件之间的协作,包含任务创建、分配、链接、评论、完成跟踪等功能,适合团队级的工作流管理。

六、部署方式与使用体验

6.1 安装与配置

Hermes Agent 的安装非常简洁,一条命令即可完成。安装完成后,通过交互式向导配置模型提供商、终端后端、消息平台和工具集。整个过程完全交互式,无需手动编辑配置文件。系统同时提供丰富的配置命令和可视化编辑器,满足高级用户的需求。

6.2 交互模式

Hermes 支持多种交互模式:交互式聊天(CLI 模式,提供类似 ChatGPT 的终端界面,支持快捷键、斜杠命令、皮肤主题等);单次查询(通过 hermes chat -q 执行单次任务,适合脚本集成和 CI/CD 管道);后台任务(通过 cronjob 工具执行长期运行的任务);网关消息(在 Telegram、Discord 等消息平台中交互);IDE 集成(通过 ACP 服务器协议与 VS Code 等 IDE 集成)。

6.3 斜杠命令系统

Hermes 提供了丰富的斜杠命令系统,让用户可以在会话中执行各种操作:/model 切换模型不退出会话、/retry 重新发送消息、/undo 撤销对话轮次、/compress 手动压缩上下文以节省 token、/rollback 回滚文件系统到检查点、/goal 设置长期目标让代理在多轮对话中持续追求、/skill 临时加载技能、/voice 切换语音模式、/yolo 跳过危险命令确认等。斜杠命令系统支持自动补全,所有命令的注册表集中管理,确保 CLI、Telegram 菜单、Slack 映射等所有消费者的一致性。

七、高级特性

7.1 配置文件系统(Profiles)

配置文件系统允许用户运行多个完全独立的 Hermes 实例,每个实例拥有独立的配置、会话、技能和记忆。这对于需要隔离工作环境的场景非常有用——例如,个人使用一个配置文件,团队项目使用另一个。配置文件可以通过 clone 快速创建,也可以导出为 tar.gz 进行迁移。

7.2 定时任务(Cron)

Hermes 内置了完整的定时任务调度器,支持灵活的调度语法(30m、every 2h、0 9 * * * 或 ISO 时间戳)、技能预加载、模型覆盖、工作目录指定、多平台分发等。定时任务可以用于日常报告生成、数据监控、内容汇总等场景,将 AI Agent 从被动响应升级为主动服务的模式。

7.3 Webhook 与 MCP

Hermes 支持 Webhook 订阅,允许外部系统通过 HTTP 请求触发代理任务。同时,Hermes 原生支持 MCP(Model Context Protocol)服务器,可以连接第三方 MCP 服务来扩展工具集。Hermes 既可以作为 MCP 客户端使用外部服务,也可以作为 MCP 服务器供其他 AI 工具调用——这种双向 MCP 支持在 Agent 框架中并不常见。

7.4 安全与隐私

Hermes 在安全方面做了多层次的防护。第一层是秘密信息脱敏——自动检测并脱敏工具输出中的 API Key、令牌等敏感信息,防止泄露到会话上下文中。第二层是命令审批流——危险命令(如 rm -rf)在执行前需要用户确认,支持智能模式(低风险自动批准、高风险提示)。第三层是 PII 脱敏——在网关消息中可启用用户 ID 哈希和手机号脱敏。第四层是可插拔记忆引擎——用户可以选择记忆后端的存储位置和策略,完全掌控数据隐私。

八、性能与扩展性

8.1 上下文压缩

长会话是 Agent 系统面临的核心挑战之一。Hermes 内置了自适应上下文压缩机制,当上下文使用率达到 50% 阈值时自动触发压缩,将压缩目标定在 20%。压缩策略是选择性的——优先压缩工具调用历史,保留关键的用户指令和代理回复。用户也可以通过 /compress 命令手动触发压缩。

8.2 子代理委派

对于复杂任务,Hermes 支持将子任务委派给独立的子代理。子代理拥有完全隔离的上下文和工具,不会污染主代理的 token 预算。批量委派模式支持最多 3 个子代理并行工作,大大提升了复杂项目的处理效率。子代理结果以摘要形式返回,避免中间数据充斥主代理的上下文窗口。

8.3 插件系统

Hermes 的插件系统允许社区贡献者扩展框架的功能。插件可以添加新的工具、命令、记忆后端和平台适配器。插件管理通过 hermes plugins 命令完成,支持安装、列表和移除操作。

九、应用场景与使用案例

Hermes Agent 的应用场景非常广泛:

  • 软件开发:代码编写、调试、代码审查、重构、文档生成、CI/CD 管理。Hermes 的终端工具提供了完整的开发环境交互能力。通过 worktree 模式(-w 参数),多个代理可以并行工作在同一个项目的不同分支上。
  • 系统管理:服务器配置、监控、日志分析、自动化运维脚本编写和执行。agent 可以 SSH 到远程服务器执行操作并返回结果。
  • 研究与分析:网页搜索、论文研读、数据抓取和分析、报告生成。跨会话记忆使得长期研究项目可以持续追踪进展。
  • 内容创作:博客文章、社交媒体内容、营销文案、翻译和本地化。技能系统可以保存特定的创作风格和流程。
  • 数据科学:数据清洗、特征工程、模型训练、可视化、实验记录。代码执行和文件工具完美适配数据科学工作流。
  • 智能家居:通过与 Home Assistant 集成控制物联网设备。
  • 个人助理:日程管理、邮件处理、信息收集、定时提醒。网关平台让助理服务触手可及。

十、在 AI Agent 生态中的定位

Hermes Agent 在当前的 AI Agent 生态中占据着独特的位置。与 Claude Code 和 Codex CLI 相比,Hermes 最大的优势在于其开放性和可扩展性。

特性Hermes AgentClaude CodeCodex CLI
开源许可MIT 完全开源闭源开源
模型提供商20+ 提供商仅 Anthropic仅 OpenAI
持久记忆跨会话保留
技能积累自我进化
跨平台网关15+ 平台仅 CLI仅 CLI
配置文件隔离多 Profile
定时任务内置 Cron
MCP 支持服务端+客户端客户端
Webhook支持

从对比中可以看出,Hermes 是功能最全面的 Agent 框架。它不是简单地将 LLM 封装成一个聊天界面,而是一个完整的 AI 代理操作系统——具备持久化记忆、程序化知识、跨平台通信、任务调度和多代理协作等企业级特性。

十一、局限与挑战

尽管 Hermes Agent 功能强大,但它也面临一些挑战:

  • 学习曲线:丰富的功能意味着一定的学习成本。新手需要花时间了解工具系统、技能系统和配置选项。好在交互式向导和内置的文档系统大大降低了入门门槛。
  • 终端依赖:虽然 Hermes 支持多平台网关,但完整的工具能力(特别是 terminal 工具)需要在终端环境中运行,这使得它在纯聊天场景下的能力受限。
  • token 消耗:长时间运行的 Agent 会话会产生大量的 token 消耗。上下文压缩机制缓解了这个问题,但重度用户仍需要关注 API 使用量。
  • 生态成熟度:相比 Claude Code 背后 Anthropic 的商业支持和 Codex CLI 背后 OpenAI 的品牌效应,Hermes 的开源社区仍在成长中。但 Nous Research 团队的持续投入和活跃的社区贡献正在快速缩小差距。
  • Windows 支持:虽然 Hermes 支持 Windows,但部分 POSIX 特性的差异(如信号处理、文件权限等)可能导致偶尔的兼容性问题。项目文档中专门列出了 Windows 特有的注意事项。

十二、未来发展展望

Hermes Agent 的发展方向令人期待。从项目路线图和社区讨论中可以窥见几个趋势:

  • 多模态增强:进一步强化图像、视频、音频等多模态内容的处理能力,让 agent 能够理解更丰富的信息形式。
  • 更深的 IDE 集成:通过 ACP 协议和 MCP 服务器,实现与更多开发环境的无缝集成,成为开发者日常工具箱的核心组件。
  • 技能生态:技能注册中心正在发展,社区贡献的技能将使 Hermes 的知识库快速增长。技能集市的概念将使知识共享像应用商店一样便捷。
  • 企业级特性:看板系统、配置文件隔离、审计日志等特性使 Hermes 越来越适合企业部署。多租户支持和角色权限管理也在规划中。
  • 边缘部署:通过本地模型支持和轻量级架构,Hermes 正在向边缘设备延伸。未来可能在树莓派等低功耗设备上运行轻量级 agent 服务。

总结

Hermes Agent 是 Nous Research 打造的一款令人印象深刻的开源 AI Agent 框架。它的设计理念超越了简单的聊天机器人或编程助手,而是构建了一个完整的、可扩展的、自学习的 AI 代理操作系统。提供商无关的设计、持久记忆、技能积累、跨平台网关和多代理协作等特性,使其在当前的 AI Agent 生态中独树一帜。

对于开发者而言,Hermes Agent 提供了一个强大的生产力工具——它可以在你的终端中编写代码、在消息平台上回答问题、在服务器上执行运维任务、在定时触发下生成报告。对于团队而言,Hermes 的看板系统和配置文件隔离支持多人协作的工作流。对于企业而言,Hermes 的安全机制、审计日志和可扩展架构提供了合规部署的基础。

更重要的是,Hermes 的开源精神和活跃的社区正在推动 AI Agent 技术的民主化。任何人都可以下载、使用、修改和扩展它。随着技能积累和社区贡献的持续增长,Hermes Agent 的潜力将不断释放,成为 AI Agent 时代不可或缺的基础设施。

如果你还没有尝试过 Hermes Agent,现在就是最好的时机。只需一条命令即可开始你的 AI Agent 之旅。

项目地址:https://github.com/NousResearch/hermes-agent
官方文档:https://hermes-agent.nousresearch.com/docs/

(全文完)

OpenAI GPT-OSS 开源模型系列深度解读:120B 与 20B 两款模型的架构、性能与行业影响

2025年8月5日,OpenAI 正式发布了 gpt-oss(GPT Open Source Series)开源权重语言模型系列,这是自 2019 年 GPT-2 以来,OpenAI 首次向公众开放语言模型权重。这一举措标志着 OpenAI 在开源战略上的重大转向,也引发了人工智能行业的广泛关注。本文将深度剖析该系列的两款模型——gpt-oss-120bgpt-oss-20b,从架构设计、技术参数、性能表现、开源生态和行业影响等维度进行全面解读。

一、背景:OpenAI 的开源之路

回顾 OpenAI 的历史,这家公司曾以开放为名。2019 年,OpenAI 开源了 GPT-2 模型,但此后随着 GPT-3、GPT-4、o1、o3 等一系列闭源模型的发布,OpenAI 逐渐转向了 API-only 的商业模式。与之形成鲜明对比的是,Meta 的 LLaMA 系列、Mistral AI 的系列模型、中国的 DeepSeek 和通义千问等开源模型在社区中蓬勃发展,形成了强大的开源生态。

进入 2025 年,开源大模型的性能已经逼近甚至在某些领域超越了闭源模型。DeepSeek-V3 以 671B 总参数的 MoE 架构震惊业界,LLaMA 3.1 405B 展现了密集模型的上限。在这样的竞争压力下,OpenAI 的开源转向既是战略选择,也是市场必然。

gpt-oss 系列包含两款模型:gpt-oss-120b(117B 总参数)和 gpt-oss-20b(21B 总参数)。两者均采用 MoE(混合专家)Transformer 架构,并使用 Apache 2.0 许可协议发布,这意味着它们可以自由用于商业用途、修改和再分发。

二、模型架构详解

2.1 整体架构设计

两款 gpt-oss 模型共享相同的架构 DNA,均基于 MoE Transformer 架构。MoE 的核心思想是:将模型划分为多个专家子网络,每个输入 token 只激活其中一部分专家,实现总参数大、激活参数小的高效推理。核心组件包括:注意力机制(交替密集注意力和局部带状稀疏注意力,滑动窗口 128)、分组查询注意力 GQA(分组大小 8)、旋转位置编码 RoPE(支持 YaRN 扩展到 128K 上下文)、SwiGLU 激活函数(带数值裁剪)、RMSNorm 归一化、MXFP4 4-bit 量化(MoE 权重)+ BF16 激活精度,以及 Sink Attention 稳定长序列推理。

2.2 两款模型参数对比

指标gpt-oss-120bgpt-oss-20b
总参数量117B21B
每 token 激活参数量5.1B3.6B
Transformer 层数36 层24 层
总专家数128 个32 个
每 token 激活专家数4 个4 个
词表大小201,088201,088
最大上下文长度128K tokens128K tokens
单卡推理显存80GB (H100)16GB
推理精度MXFP4 + BF16MXFP4 + BF16

gpt-oss-120b 虽然总参数量高达 117B,但由于 MoE 的稀疏激活特性,每次推理仅激活 5.1B 参数(约 4.4%),可在单张 H100 GPU 上运行。gpt-oss-20b 仅需 16GB 显存,消费级 GPU 即可部署。

2.3 MoE 路由机制

gpt-oss 使用 Top-K 门控机制(K=4),每个 token 经过门控网络计算所有专家得分,选择最高的 4 个进行前向传播。120b 模型的 128 个专家相当于 128 个不同的知识领域,这种细粒度分配使模型在总参数量巨大的情况下保持高效推理。

三、性能评测与基准测试

3.1 性能定位

根据 OpenAI 官方评测:gpt-oss-120b 核心推理基准接近 o4-mini 水平;gpt-oss-20b 常见基准与 o3-mini 相当。两款模型均具备链式推理、工具调用、结构化输出、全参数微调和安全对齐等能力。在 HealthBench 安全评测上甚至超越了 o1 和 GPT-4o。

基准测试评测内容表现
AIME 2025数学推理前沿水平
GPQA Diamond科学问答接近闭源推理模型
Tau-BenchAgent 工具使用超越同类开源模型
HealthBench医疗与安全超越 o1、GPT-4o
SWE-bench软件工程表现优秀

四、开源生态与工具链

4.1 开源范围

OpenAI 不仅开源了模型权重,还发布了完整配套工具链:openai/gpt-oss 主仓库(推理实现、工具调用客户端、评估套件,已获 20,000+ 星标)、openai/harmony(Harmony 聊天格式渲染器,Rust 实现)、openai/gpt-oss-safeguard(安全防护工具集)。

4.2 推理框架支持

gpt-oss 获得主流推理框架广泛支持:Hugging Face Transformers、vLLM、Ollama、LM Studio、Apple Metal、PyTorch/Triton 参考实现,以及 AWS 官方集成。

4.3 许可协议

Apache 2.0 许可允许商业使用、修改和再分发,包含明确的专利授权条款,是企业级部署的首选许可。其商业友好度远超 LLaMA 的 Llama 3 Community License 和 Mistral 的 Research License。

五、部署与使用实践

硬件需求:120b 模型需单张 H100(80GB)或 MI300X;20b 模型仅需 16GB 显存(RTX 4090/4080、Mac 等均可)。可通过 Hugging Face Transformers 或 Ollama 一键部署。需注意 gpt-oss 使用 Harmony 聊天格式而非 ChatML。

六、与其他开源模型对比

模型总参数量激活参数上下文许可协议
gpt-oss-120b117B5.1B128KApache 2.0
gpt-oss-20b21B3.6B128KApache 2.0
DeepSeek-V3671B37B128KMIT
LLaMA 3.1 405B405B405B128KLlama 3 Community
Qwen 2.5 72B72B72B128KApache 2.0

gpt-oss 的激活参数远低于密集模型,可支持更高并发。Apache 2.0 许可商业友好度最高。

七、行业影响与未来展望

7.1 开源格局的重塑

gpt-oss 的发布标志着 OpenAI 从封闭走向开放的战略转折,是 2025 年 AI 领域最具标志性的事件之一。它迫使所有开源和闭源参与者不断提升能力,推动了整个 AI 生态的技术进步。推理能力上的突破使开源模型首次在复杂推理任务上与闭源模型正面竞争。

7.2 对企业用户的价值

数据隐私保护、成本控制、完全定制和法律合规是企业用户的核心收益。特别是金融、医疗、法律等对数据隐私要求极高的行业,20b 模型的低门槛部署使本地化高性能推理成为现实。

7.3 对开发者与研究者

科研可复现性、Agent 开发基座、微调实验平台和模型蒸馏等方向均受益于 gpt-oss 的开源。原生工具调用和结构化输出使其成为构建 AI Agent 的理想选择。

7.4 局限与挑战

Harmony 格式增加迁移成本;中文能力弱于原生中文优化的模型(如 Qwen、DeepSeek);MoE 推理优化依赖社区生态;中文社区生态仍在成长中。

八、总结

OpenAI gpt-oss 系列的开源发布是 AI 史上的里程碑事件。gpt-oss-120b 以 117B 总参数、仅 5.1B 激活参数实现了接近 o4-mini 的推理能力;gpt-oss-20b 以 21B 参数、16GB 显存门槛将前沿推理能力带到开发者桌面。Apache 2.0 许可扫清了商业应用障碍。我们正在见证一个更加开放、更加多元的 AI 未来。

(全文完)

OpenClaw 安装使用教程

最近一段时间,OpenClaw横空出世,又带动一波AI的热潮。它让我们和AI的聊天对话,变成了一个可执行的数字员工,大大便利和改变我们的工作生活和学习方式。以前我们需要招聘文案、策划、销售、程序员、测试、设计、售前、售后等等,现在会发现你可以用数字军团来帮你完成这些工作。今天小编就来说说如何在个人的电脑上安装和使用OpenClaw。

1、认识OpenClaw

在安装之前我们需要了解一下是什么是OpenClaw。

OpenClaw是一款由奥地利程序员Peter Steinberger于2025年底发起并开源的个人AI智能体(Agent)框架,昵称“小龙虾”。‌它核心定位为“真正能执行任务的AI”,旨在让AI从被动对话转向能主动操作计算机、执行复杂任务的“数字员工”。它解决了传统 AI “只说不做” 的痛点。

它仅用三个月便在GitHub上斩获超20万星标,发展非常迅猛,非常受人欢迎。当OpenClaw出现不久,国内的几家大厂也都迅速跟进,像字节的ArkClaw、腾讯的QClaw、阿里云的CoPaw、智谱AutoClaw、猎豹的EasyClaw、月之暗面的KimiClaw、MaxClaw等等。这些大厂基本都是收费的,一个月几十到几百块不等。如果我们可以自己在自己的电脑上安装和部署OpenClaw,就可以省下这部分银子。

其核心能力:
◦ 自主执行:解析指令 → 拆解任务 → 调用工具(文件 / 浏览器 / 命令 / API)→ 反馈结果。
◦ 本地优先:数据与执行全在本地,不上传云端,隐私可控。
◦ 模型无关:支持Deepseek、GPT、Claude、混元、通义及本地 llama 等多种大模型。
◦ 模块化扩展:通过 “技能(Skills)” 插件扩展能力,可接入飞书、钉钉、微信等渠道。

2、安装部署OpenClaw

2.1、安装部署要求

•系统:Win 10/11(WSL2) / macOS 10.15+ / Linux(CentOS8+、Ubuntu22+)

•硬件:CPU ≥ 2核 / 内存 ≥ 8GB / SSD ≥ 40GB 

•依赖:必须安装Node.js 22.18+ 

另外,需要获取核心大模型的API Key。

•推荐平台:Deepseek/阿里百炼/Kimi (月之暗面)/MiniMax/GLM 

•安全警示:API Key 等同于登录密码,请务必妥善保管,切勿公开泄露 

2.2、在Windows系统下安装

在 Windows 环境推荐使用 PowerShell 或 WSL2 

执行命令:powershell -c "irm https://openclaw.ai/install.ps1 | iex" 

然后执行:openclaw --version  终端打印出版本号即表示安装成功

2.3、在MacOS & Linux系统下安装

在 macOS / Linux 系统中直接打开自带的 Terminal 终端。

执行命令:curl -fsSL https://openclaw.ai/install.sh | bash 

然后执行:openclaw --version  终端打印出版本号即表示安装成功

2.4、配置

安装好之后,启动配置命令:openclaw onboard --install-daemon 初始化 

核心配置清单:

● 风险确认:输入 y 确认知悉风险 

● 新手模式:推荐选择 QuickStart 

● 配置密钥:粘贴已获取的 API Key 

● 模型选择:deepseek (示例) 

● 启动方式:推荐 Hatch in TUI 

其他命令:

openclaw dashboard 打开浏览器 

openclaw gateway start 开启网关 

openclaw channels add 添加通道 

3、开启你的AI数字化员工

OpenClaw安装成功后的截图如下:

OpenClaw能干什么:

a、每天早上8点把当天的天气和10条时事热点新闻发送给我

b、搜集当前市场最好卖的5个商品给我 

c、帮我监控xx股票,当股票价格30分钟内 振幅超过1%时,通知我

d、开发一个xx产品项目

e、日程安排:安排5天的港澳游计划 

f、帮我整理桌面

g、帮我下载某个视频

等等,不一而足。

Qwen3.6越狱版火了

Qwen3.6越狱版火了

AI芯片神经网络示意图
图源:AI生成示意

2026年5月下旬,一款名为 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 的模型在开源社区迅速走红,被称为"越狱版"Qwen3.6。

这个版本移除了官方模型的内容审查限制,同时保留了完整的推理和代码能力。对于本地部署玩家来说,这意味着真正的"模型自由"。

核心数据对比

模型 参数量 激活参数 显存门槛 开源/收费 特点
Qwen3.6-35B-A3B Uncensored 35B 3B 6G 开源 无审查、支持视觉
Qwen3.6 官方版 35B 3B 6G 开源 有内容审核
GPT-5.5(闭源参考) 未公开 未公开 API only 收费 原生Agent能力
Llama 4 Ultra 约400B 约50B 24G+ 开源 多模态强化

MoE架构:35B参数,6G显存可跑

这个模型的核心优势是 MoE(混合专家)架构

总参数35B,但每次推理只激活约3B参数。计算量大幅降低,显存占用约等于一个7B模型。

实测RTX 4060 Laptop(8G显存)跑IQ2_M量化版本,输出速度约10 tokens/s。用llama.cpp原生引擎,配--jinja参数,中文输出稳定。

无审查的意义

"越狱"在这里指移除模型的安全对齐限制。

官方版遇到某些提示词会拒绝回答。这个版本直接输出,不做内容审核。适合本地研究、安全测试、以及需要模型"说实话"的场景。

值得强调的是,这个版本的能力没有打折。实测代码生成、多模态识图、长文本推理都保持高水准。

视觉能力

模型支持多模态,需要额外下载mmproj文件。启动llama-server时挂载该文件,即可支持图片分析、OCR、截图问答。

如何使用

  1. 下载llama.cpp(根据显卡选CUDA版本)
  2. 下载对应量化版本的GGUF模型文件
  3. 双击run.bat,浏览器打开http://127.0.0.1:8080
  4. 支持OpenAI API格式,可接入OpenWebUI、Cherry Studio等工具

显存对照:6-8G用IQ2_M,12-16G用IQ4_NL(推荐),24G以上用Q4_K_P。

模型链接

  • HuggingFace:https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive[1]
  • GitHub Qwen3.6官方:https://github.com/QwenLM/Qwen3.6[2]
  • llama.cpp项目:https://github.com/ggerganov/llama.cpp[3]

本文涉及模型仅用于本地研究和安全测试,请勿用于非法用途。

550 亿参数只激活 55 亿:NVIDIA 刚发布的美国最强开源模型,怎么免费用


NVIDIA 在 Computex 2026 上放了一颗炸弹。

550B 总参数。MoE 架构。每次推理只激活 55B。开源权重。

Artificial Analysis 排行榜:美国开源模型第一名。得分 48 分。遥遥领先第二名 Gemma 4 31B(39 分)。

这不是一个能在你笔记本上跑的模型。但它可以免费用。

这个模型是什么

Nemotron 3 Ultra。NVIDIA 在 2026 年 6 月 1 日 Computex 台北发布。

550B 总参数。约 55B 激活参数(~10% 激活率)。MoE + Mamba-Transformer 混合架构。

定位:前沿级开源模型。对标 GPT-5.5、Claude Opus 4.6、Kimi K2。

开源权重。可自行部署。也可通过 API 使用。

为什么值得关注

因为它是美国第一个真正威胁中国开源模型的前沿级开源产品

之前的格局:

  • 前沿闭源:OpenAI、Anthropic、Google
  • 前沿开源:几乎被 DeepSeek、Qwen、Kimi 统治

现在 NVIDIA 入场了。550B。开放权重。不是「能用」级别。是「前沿」级别。

Artificial Analysis 智力排名对比:

模型
得分
来源
Nemotron 3 Ultra
48
NVIDIA(美国)
GLM 5.1
49+
智谱(中国)
Kimi K2.6
~50
月之暗面(中国)
Gemma 4 31B
39
Google(美国)
Nemotron 3 Super
36
NVIDIA(美国)

Ultra 还没超过中国的顶尖模型。但差距很小了。而且它 10% 的激活率意味着推理成本极低。

想了想,NVIDIA 不只是在做模型。它在证明一件事:美国的开源力量不只有 Meta。

它能做什么

几个核心能力:

  • Agent 工作流:NVIDIA 专门为 Agent 场景优化
  • 编码:SWE-bench 级别的代码能力
  • 长 context 推理:支持超长输入
  • 指令跟随:精准执行复杂多步指令
  • 知识工作:研究、分析、报告生成

社区反馈称某些配置下推理速度可达 300+ tok/s。对一个 550B 模型来说,这个速度惊人。得益于 MoE 的 10% 激活率。

谁能跑这个模型

老实说,大多数人跑不动。

本地部署最低要求:

  • 2× A100 80GB(FP8)→ 够跑
  • 4× DGX Spark(128GB 统一内存×4 = 512GB)→ 够跑
  • 1× H100 80GB → 激进量化下可能行

消费级显卡?不行。550B 即使量化到 4bit 也需要 ~140GB。

但你不需要本地跑。

先看完成后的样子


Hermes Agent 接入 Nemotron 3 Ultra API。发一条消息。收到前沿级模型的回复。

cost?接近 $0。OpenRouter 或 NVIDIA NIM 都有免费/极低价的访问通道。

前提条件

  • 已安装 Hermes Agent
  • 有终端环境
  • OpenRouter 账户 或 NVIDIA NIM API Key

阶段一:通过 OpenRouter 接入

第一步:获取 API Key

访问 openrouter.ai[1]。登录。创建 API Key。

第二步:配置 Hermes

hermes model
# 选 OpenRouter
# 粘贴 API Key
# 模型选:nvidia/nemotron-3-ultra

或编辑 ~/.hermes/config.yaml

model:
  provider: openrouter
  default: nvidia/nemotron-3-ultra

第三步:验证

hermes
> 用 Rust 写一个高性能的 JSON parser,支持流式解析

验证:回复质量高,代码完整,有注释。

阶段二:通过 NVIDIA NIM 接入

NVIDIA 自己的推理平台。可能有免费额度。

第四步:注册 NVIDIA NIM

访问 build.nvidia.com[2]。注册开发者账户。获取 API Key。

第五步:配置 Hermes

model:
  provider: custom
  default: nemotron-3-ultra
  api_base: https://integrate.api.nvidia.com/v1
  context_length: 131072

在 ~/.hermes/.env 中添加:

NVIDIA_API_KEY=nvapi-你的key

验证:正常回复。检查 NIM 控制台确认 token 用量。

阶段三:本地部署(高端硬件)

如果你有 2× A100 80GB 或多台 DGX Spark:

第六步:下载权重

huggingface-cli download nvidia/Nemotron-3-Ultra-550B-A55B \
  --local-dir ~/models/nemotron-ultra

第七步:用 vLLM 或 TensorRT-LLM 部署

python -m vllm.entrypoints.openai.api_server \
  --model ~/models/nemotron-ultra \
  --tensor-parallel-size 2 \
  --max-model-len 131072 \
  --quantization fp8 \
  --port 8000

第八步:Hermes 指向本地

model:
  provider: custom
  default: nemotron-ultra
  api_base: http://localhost:8000/v1
  context_length: 131072

本地部署的好处:无速率限制、无数据出境、无 per-token 费用。代价是硬件投入。

阶段四:Smart Routing 策略

最佳实践不是全用 Ultra。是按任务分配。

# 日常简单任务 → 免费小模型
# hermes 会话中用 /model 切换

# 简单对话、摘要 → DeepSeek V4 Flash :free
# 复杂编码、Agent → Nemotron 3 Ultra(付费但便宜)
# 本地隐私任务 → Qwen3.6-35B-A3B(本地)

这样大部分时间花 $0。只有真正需要前沿能力的任务才调用 Ultra。

完整流程一览


第一次做的建议

先走 API 路线。OpenRouter 或 NIM。确认模型质量满足需求。

不要拿 Ultra 做简单任务。它是大锤。用来砸钉子太浪费。留给真正复杂的编码、Agent 链路、长 context 分析。

如果你之前用 DeepSeek V4 Flash,切到 Ultra 最直观的感受是:复杂任务的成功率明显提高。但简单任务的区别不大。

容易踩的坑

坑 1:以为开源就能本地跑开源 ≠ 能在你电脑上跑。550B 模型需要至少 160GB 显存。99% 的人只能走 API。

坑 2:混淆 Nemotron 3 Nano / Super / Ultra三个是不同模型。Nano(30B-A3B)能本地跑。Super(120B-A12B)需要 DGX Spark。Ultra(550B-A55B)需要 A100 集群。

坑 3:context 设太大导致延迟爆炸Ultra 支持很长的 context。但 128K 输入可能首 token 等 20-60 秒。日常用 32K。

坑 4:忽略了 Smart Routing 的重要性Ultra 不便宜(虽然比 Claude 便宜很多)。用 /model 在会话中灵活切换,才是正确用法。

收尾

NVIDIA 用 Nemotron 3 Ultra 证明了一件事:

美国公司也能做开源前沿模型。550B 参数。10% 激活率。推理快、成本低。

它不是用来跑在你笔记本上的。它是用来让你通过 API 获得接近 GPT-5.5 级别的能力,但只花零头的钱。

本地 Agent 用 Nano/Super。云端重任务用 Ultra。这是 NVIDIA 给出的完整方案。

从显卡到模型到 Agent 框架。从本地到云端。一家公司。全栈布局。


原文链接:https://mp.weixin.qq.com/s/ywnCDCv2xktPX3PjetkiUw

《判断权》:AI时代程序员的生存寓言——一部250章长篇小说的深度解读

2022年11月15日,OpenAI在API控制台上静默发布了text-davinci-003。同一天,上海张江高科软件园的一间写字楼里,一个32岁的程序员在午休时间打开Playground,看到了模型下拉菜单中排在最顶部的那个新编号。他没有输入任何prompt,看了几秒,关掉了页面。

这个场景,正是长篇小说《判断权》第22章「加速」的开篇。而这个名叫陈默的程序员,在接下来的250章里,将经历从2020年到2050年整整三十年的AI技术浪潮——从GPT-3到AGI,从Copilot到具身智能,从"写代码"到"人还剩下什么"。

一、什么是"判断权"?

"判断权"这三个字,在小说中有一个精确的递进定义:

  • 第一层:代码判断——选择什么技术、如何解决问题
  • 第二层:职业判断——在AI替代面前,是适应还是抗拒
  • 第三层:伦理判断——当AI可以做决策时,人类应该让渡多少权力
  • 第四层:终极判断——当AI超越人类,"人"还剩下什么

作者将这个概念称为"人之所以为人,在于判断"。这不是哲学命题的空洞讨论,而是通过一个普通程序员的视角,将这个命题嵌入到日常生活的一帧一帧里:深夜调试代码时的那一次犹豫、路过老张空工位时身体自动绕行的那条路线、在电梯镜面中看到自己侧脸时停顿的那一秒。

二、一部"反爽文"的技术小说

当前市场上关于AI的技术小说,大多走的是"逆袭"路线:主角穿越重生、提前布局、精准踩中每一个风口、最终站在时代之巅。《判断权》完全相反。陈默不是天才,不是先知,甚至不是那种"比别人更努力"的典型主角。他只是一个在张江高科写Java的普通程序员,有一个当语文老师的妻子,有一个叫小朵的女儿,有一个被裁后转行送外卖的老张同事。

小说的核心叙事方法,被创作者称为"感官现实主义"

  1. 只写人物能感知到的——不写上帝视角,不写内心旁白
  2. 技术细节精确到API版本号——text-davinci-003是2022年11月15日发布的,不是"某一天"
  3. 情感通过物理细节传递——不是"他感到恐惧",而是"手指在键盘上停了一秒,然后继续打字"
  4. 每个配角都有独立动机——老张不只是"35岁被裁的工具人",他有自己的声音、自己的选择

这种写法的代价是:节奏极慢。第22章写了2022年11月中旬的一天,从早上七点十分出地铁到深夜加班结束。但正是这种慢,让读者感受到时间的真实重量——因为AI的迭代速度,正是在这种日常的慢中,一点一点碾压过来的。

三、时间密度的U型设计

小说的时间线设计精妙。从2020年夏末到2050年,30年的跨度被分成五部曲,但章节数量的分布呈U型:

时间密度(章/月)
1.5 ┤  ██                              ███
1.0 ┤ █  █                            █   █
0.5 ┤█    ████████████                █     █
0.0 ┼────┼────┼────┼────┼────┼────┼────┼───→ 时间
  夏末  秋   冬   春   夏   秋   10月  11月
  2020            2021       2022
     └─密集─┘  └──稀疏──┘  └──密集──┘

开头密集(Ch01-05),快速建立焦虑基调;中间稀疏(Ch05-Ch15),焦虑潜伏蓄力;结尾密集(Ch19-22),判断权集中行使。读者在第20-22章感受到的时间压迫,不仅来自情节——AI迭代速度越来越快,更来自阅读节奏本身——章节密度越来越高。

这种"密度U型"是叙事的心跳。它让技术焦虑不再是一个概念,而是一种生理性的阅读体验。

四、老张:一面镜子

老张是陈默的镜像角色。1985年出生,2022年2月被裁时37岁。天台上,他对陈默说出那些碎片化的词语:"五年""三十五""这种桥"。小说不给老张完整的独白——他的话语是破碎的,像一个正在失去语言能力的人。

第12章「老张离职」后,他的工位空了。马克杯倒扣着,杯底的褐色渍印随时间一层层加深。便签纸翘起来,胶完全失去黏性。键盘上落了薄灰。这些物理细节,比任何"失业率数据"都更有力。

陈默路过那个空工位的动作变化,是全书最精准的情感刻度:

  • 最初:下意识侧肩,怕碰到什么
  • 三个月后:身体记住了路线,自动绕行
  • 九个月后:连侧都不侧

这不是冷漠,是人对失去的适应。但适应本身就是恐惧——它说明"失去"已经成为日常的一部分。

五、AI作为"日常化"的恐怖

《判断权》对AI的处理方式,在技术文学中独树一帜。小说中的AI不是从天而降的救世主或毁灭者,而是像暖气的干燥味道一样——你每天闻到它,习惯它,直到有一天你发现整个冬天都是靠它活着的。

陈默与AI的关系变化:

章节AI工具陈默的反应
Ch10-11text-davinci-002好奇、测试、新鲜感
Ch15text-davinci-002AI代码有bug,debug一整天
Ch17-18Copilot(观察)同事在用,开始意识到趋势
Ch19Copilot(review)发现6处AI编码风格指纹,开始系统化审查
Ch21text-davinci-003亲手确认质变——"003比002好太多"
Ch22003(只看不调用)打开API控制台,确认003还在,关掉——不再测试,开始想"下一个是什么"

从"测试"到"确认存在但不调用"——这个微妙的动作转变,标志着陈默从技术使用者变成了存在性思考者。他不再问"AI能做什么",而是问"AI的下一步意味着什么"。

六、五部曲的色彩密码

小说的五部曲用色彩编码,从暖到冷再到纯粹:

  • 第一部(2020-2023):暖黄+午夜蓝——家庭温暖与深夜代码的对比
  • 第二部(2024-2025.10):冷银+屏幕蓝——AI工具加速渗透
  • 第三部(2025.11-2026.3):铁锈红+深灰——OpenClaw冲突的紧张感
  • 第四部(2026-2035):雾霾灰+霓虹紫——混沌探索期
  • 第五部(2036-2050):黑白+琥珀金——终极判断的纯粹与庄严

这种色彩体系参考了《社交网络》的快速对话节奏、《她》(Her)的温暖孤独感、《黑镜》前三季的技术困境。但最核心的参照是《美国工厂》——真实工作场景的质感。张江高科的暖气味道、电梯金属壁面映出的侧脸、行道树枝干上最后一片叶子落下的过程——这些不是装饰,是叙事的骨骼。

七、对创作者的启示:AI写作的"去AI味"

《判断权》的创作过程本身就是一个值得研究的案例。小说由6个Agent组成的11-Flow异构管线创作:

🎬 Director    → 导演笔记、调研、发布
🎭 Screenwriter → 剧本结构、场景设计
📚 Lore Keeper  → 设定审核、六维审计
✍️ Writer       → 正文草稿
✨ Polisher     → 精修正文、风格审计
💬 Feedback     → 试读反馈、场景设计

其中最值得注意的是风格审计节点:Flow 5(精修)和 Flow 9(终审)承担风格与符号一致性审计。Flow 5 检查文字层面的AI味和风格漂移——比如"是……的"句式每出现一次扣一分;Flow 9 检查符号递归——如蓝色方块在Ch16→Ch20→Ch22的三维闭合。

这套系统的存在,恰恰说明了一个悖论:用AI来创作一部关于AI焦虑的小说,本身就需要一套精密的"去AI味"机制。创作者不能让技术工具的痕迹污染故事的真实感——读者必须忘记这是一部AI参与创作的作品,才能真正感受到陈默的焦虑。

八、留给时代的问题

小说的最终问题不是"AI会不会取代程序员"——这是一个已经过时的问题。真正的问题是:

当AI能做得更好时,人还剩下什么?

陈默给出的答案不是一个概念,而是一条轨迹——从执行者到提问者,从判断者到定义者。小说承诺"希望而非绝望"的终局,但这个希望不是廉价的乐观主义,而是通过250章、30年、无数个深夜和无数次空格键的敲击,一帧一帧建构出来的。

在2026年的今天,当我们已经被ChatGPT、Claude、Copilot、Cursor包围的时候,重读《判断权》的前22章,会发现一件事:小说中最令人不安的,不是AI变强了,而是我们已经习惯了

就像陈默路过老张空工位时,连侧都不侧了。


《判断权》是一部连载中的长篇小说,目前完成22章,规划250章。核心主题涵盖AI编程、35岁危机、技术焦虑与人的判断权。全文时间跨度从2020年至2050年,采用"感官现实主义"写法,技术细节精确到API版本号和发布日期。