[{"content":"💰 2026 年创业公司的 AI 成本账本：是 SaaS 便宜还是自建更划算？ 汤姆的技术雷达 | 创业成本分析 | 2026-04-16\n前言：为什么这个问题重要？ 2024 年，一个 10 人的初创公司可能要花 ¥50,000/月 在 AI 工具上。\n到了 2026 年，这个数字可能翻倍——或者直接砍掉 90%。\n关键就是：你选择 SaaS 还是自建？\n这个决策影响的不只是成本，还有数据安全、业务灵活性、甚至融资故事。\n第一章：SaaS vs 自建的全成本对比 方案 A：全用 SaaS（ChatGPT、Claude、Copilot 等） 一个 10 人创业公司的月度成本：\n项目 工具 单价 人数 月成本 代码补全 GitHub Copilot ¥180/人 5 工程师 ¥900 AI 写作 ChatGPT Pro ¥200/人 3 产品经理 ¥600 API 调用 ChatGPT API 按量计费 - ¥5,000 数据分析 Claude API 按量计费 - ¥3,000 客服机器人 Intercom AI ¥500/月 1 ¥500 工作流自动化 Make/Zapier ¥99/月 1 ¥99 文档 AI Notion AI ¥100/人 2 ¥200 模型微调 自定义模型 API 按量 - ¥2,000 小计：¥12,299/月 年成本：¥147,588\n方案 B：自建 AI 基础设施 初期投资（第一年）：\n项目 成本 说明 GPU 服务器 ¥8,000 2x RTX 4090 或 1x A100 模型下载 ¥0 开源模型免费 工程师成本 ¥300,000 1.5 个工程师年薪（配置、部署、维护） 文档+学习 ¥5,000 培训和文档 第一年总成本：¥313,000\n运营成本（每月）：\n项目 成本 说明 GPU 服务器费用 ¥2,000 AWS/阿里云按需付费或自建 存储 ¥500 模型和数据存储 运维时间 ¥5,000 部分工程师时间（监控、补丁、优化） 带宽 ¥1,000 API 调用转发 月成本：¥8,500 年成本：¥102,000 3 年总成本：¥308,000\n对比总结 指标 SaaS 自建 第一年成本 ¥147,588 ¥313,000 第三年累计 ¥442,764 ¥308,000 第五年累计 ¥737,940 ¥513,000 数据隐私 ⚠️ 中等风险 ✅ 完全控制 功能灵活性 🔴 受限于供应商 🟢 100% 自定义 冷启动时间 🟢 5 分钟 🔴 2-4 周 结论：\n前 18 个月：SaaS 更便宜 18 个月后：自建开始赚钱 3 年后：自建节省 ¥135,000 第二章：选择的关键因素 情景 1：融资轮融资前的创业公司 最优方案：SaaS\n原因：\n💰 现金流紧张，不能大额投入 ⏰ 时间宝贵，需要快速上线 📊 数据量小（百万级以下），API 成本不高 🎯 融资故事好讲（用 OpenAI、Anthropic 的 API） 典型成本： ¥5,000-10,000/月\n情景 2：Series A 融资后的创业公司 最优方案：混合模式\n分层策略：\n对外 API（用户端） → SaaS\n用 Claude API 或 ChatGPT API 给用户 成本：按用量计费 内部工具 → 自建\n内部的数据分析、代码辅助 → 本地 Llama/Mistral 成本：一次性投入 关键功能 → 混合\n高精度需求 → 调用 Claude（贵但准） 标准需求 → 本地 Llama（便宜但差一点） 典型成本： ¥8,000-15,000/月\n节省效果： 相比全 SaaS 便宜 30-50%\n情景 3：Pre-IPO 或已盈利的创业公司 最优方案：完全自建\n原因：\n💰 充足的资本投入自建 📊 数据量大（百亿级请求），API 成本太贵 🔒 数据安全至关重要（不能给第三方） 🎯 需要完全的功能自定义 成本结构：\n专职团队：3-5 人（工程师 + DevOps + 数据科学家） 基础设施：¥50,000-100,000/月 年预算：¥600,000-¥1,000,000 vs SaaS 的节省：\n如果原来用 SaaS 花 ¥50,000/月 改自建后花 ¥100,000/月（基础设施 + 人力） 但能处理 100x 的请求量 相当于 1/100 的单位成本 第三章：隐藏成本（很多人忽略的） SaaS 的隐藏成本 1️⃣ API 成本的非线性增长 你以为 API 费用是线性的，其实不是：\n月订单 1000 → API 成本 ¥1,000 月订单 10,000 → API 成本 ¥15,000（不是线性的 ¥10,000！） 月订单 100,000 → API 成本 ¥200,000（因为用量超过阈值，单价上升） 原因：\n高频访问触发限流（需要购买更贵的 tier） 模型精度需求上升（用 Claude 代替 GPT-3.5） 国际化后多地区部署（每个地区单独计费） 真实案例： 一家初创公司以为 ¥5,000/月的 API 成本不会超过 ¥6,000，结果用户增长到 10 万后变成 ¥50,000/月。\n2️⃣ 锁定风险 ChatGPT 下月涨价？你得全部改用 Claude Claude 开始限流？你得自建 fallback OpenAI 关闭 API？你的产品完蛋 隐藏成本： 迁移代码、重新测试、用户流失\n3️⃣ 延迟和稳定性 ChatGPT API 在流量高峰期响应 5s 你的用户等不了，需要自建本地模型 fallback 自建就多花 ¥10,000/月 自建的隐藏成本 1️⃣ 技术债 模型升级时的噩梦：\nLlama 2 → Llama 3：需要重新部署、重新测试 新模型性能更好但显存需求翻倍？需要换新服务器 A100 年租金 ¥100,000，3 年后过时了 隐藏成本： 每 6 个月一次的升级周期，每次 ¥5,000-10,000\n2️⃣ 人才成本 招聘一个 AI 基础设施工程师很贵：\n薪资：¥40-60万/年 招聘成本：¥5-10万 培训成本：¥10万 流失风险：50% 的人在 2 年内离职 隐藏成本： 实际人力成本是标面工资的 1.5 倍\n3️⃣ 冷启动失败 部署失败、显存不足、模型加载超时 产品不能用，用户投诉，融资受影响 需要雇人应急，花 ¥50,000 加急费 第四章：决策框架 用这个表格选择方案 情景 选择 理由 月收入 \u0026lt; ¥100k SaaS 省钱 月收入 ¥100k-500k 混合 平衡 月收入 \u0026gt; ¥500k 自建 赚钱 数据敏感（金融/医疗） 自建 安全 功能需要高定制 自建 灵活 时间紧张（3 个月上线） SaaS 快速 融资故事很重要 SaaS 背书 已有 AI 团队 自建 有能力 第五章：2027 年的变化 趋势 1：模型成本继续下降 GPT-4 Turbo 现在 ¥0.03/1000 token 2027 年可能降到 ¥0.01/1000 token 这意味着 API 成本会更便宜，自建的优势缩小 对策： 混合模式会变成主流（非关键功能用便宜 API）\n趋势 2：开源模型质量追上闭源 Llama 3 已经接近 GPT-3.5 2027 年开源 AGI 可能问世 自建会变得更有竞争力 对策： 现在投资自建基础设施的会赚大钱\n趋势 3：新的 SaaS 竞争者出现 云厂商（AWS、阿里云）推出廉价 API 会让 OpenAI/Anthropic 被迫降价 SaaS 的成本优势可能消失 对策： 现在还是 SaaS 便宜，但要做好迁移计划\n实战建议 对初创公司创始人 第一版产品：用 SaaS（ChatGPT API）\n快速验证市场 节省工程资源 融资 A 轮后：开始试验混合模式\n关键路径用自建 非关键路径用 SaaS 融资 B 轮后：完全自建\n数据量大，API 成本无法承受 团队成熟，能维护自建系统 对技术 CTO 做好隔离：API 调用不要硬编码\n用适配器模式，便于后续切换 预留 fallback 机制 定期 audit：每季度审计一次成本\n统计每个功能的 API 调用量 评估自建 vs SaaS 的经济性 技术选型：优先用开源模型做 POC\n即使最后用 SaaS，也要知道开源方案的性能 有备选方案才有议价权 彩蛋：成本优化秘诀 快速省 30% 的方法 批量 API 调用\n不要实时调用，改成批处理 ChatGPT API 便宜 50% 模型降级\n用 GPT-3.5 代替 GPT-4（便宜 10 倍） 用本地 Llama 代替 ChatGPT（免费） 缓存机制\n同一个问题不要问两次 Claude 的 Prompt Caching 能省 90% 成本 用户分层\n免费用户用本地模型（慢但免费） 付费用户用 ChatGPT API（快但贵） 企业用户用自建（最快最便宜） 结论 2026 年的创业公司 AI 成本账本：\n小阶段（\u0026lt; ¥500k/月收入）：SaaS 赢\n便宜、快速、简单 成本 ¥10,000-50,000/月 中阶段（¥500k-5M/月收入）：混合模式赢\n平衡成本和灵活性 成本 ¥30,000-100,000/月 大阶段（\u0026gt; ¥5M/月收入）：自建赢\n单位成本最低 成本 ¥100,000-500,000/月 最重要的是： 现在选择的不是永久的。留好迁移路线，到时候换方案不会被锁死。\n关注「汤姆的技术雷达」，下周继续聊 AI 创业的成本陷阱 🔔\n作者：tom | 汤姆的技术雷达\n发布日期：2026-04-16\n","permalink":"https://liuji.cc/posts/ai-cost-analysis-2026/","summary":"详细拆解 2026 年创业公司使用 AI 的成本，对比 SaaS 和自建方案的投入产出。","title":"2026 年创业公司的 AI 成本账本：SaaS 便宜还是自建更划算？"},{"content":"🧠 Claude Mem：AI 编码助手的长期记忆，会改变代码开发方式吗？ 汤姆的技术雷达 | AI 开发工具观察 | 2026-04-16\n新闻背景：Claude 推出 Memory 功能 2026 年 4 月，Anthropic 在 Claude API 中推出了 Memory（记忆） 功能。这不只是一个小更新——它直接解决了 AI 编码助手的一个根本问题：遗忘。\n在此之前，每次你和 Claude 开始新对话，它都像得了失忆症：\n不记得你的代码风格 不记得你上次犯过的错误 不记得项目的架构决策 不记得你的技术偏好 现在，Claude Mem 改变了这一切。\n第一章：Claude Mem 是什么？ 核心机制 Claude Memory = 对话上下文 + 持久化存储\n传统对话流程： 用户A → Claude → 回答 → 关闭 用户B → Claude → 回答（不记得A说过什么） Claude Mem 流程： 用户A → Claude → 回答 + 记忆 用户B → Claude → 回答（记得A的所有信息） 用户A → Claude → 回答（还记得所有历史） 四个关键特性 1️⃣ 自动记忆捕捉 Claude 会自动识别重要信息并保存：\n你的代码风格和约定 项目的技术栈和架构 常用的 library 和 pattern 你的偏好和痛点 2️⃣ 跨会话持久化 不同于普通的聊天历史：\n可以关闭浏览器，信息不丢失 可以一周后回到项目，Claude 还记得 可以在多个项目间切换，信息互不干扰 3️⃣ 用户可控 你可以：\n手动编辑 Memory 内容 删除不想要的记忆 为不同项目创建不同的 Memory 上下文 4️⃣ API 原生支持 开发者可以：\n1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 client = Anthropic() # 第一次对话 - Claude 会自动学习和记忆 response1 = client.messages.create( model=\u0026#34;claude-3-5-sonnet-20241022\u0026#34;, max_tokens=1024, system=\u0026#34;你是一个编码助手。记住这个项目的所有信息。\u0026#34;, messages=[ {\u0026#34;role\u0026#34;: \u0026#34;user\u0026#34;, \u0026#34;content\u0026#34;: \u0026#34;我的项目用 FastAPI + SQLAlchemy，代码风格遵循 PEP8\u0026#34;} ] ) # 第二次对话 - Claude 记得你的技术栈 response2 = client.messages.create( model=\u0026#34;claude-3-5-sonnet-20241022\u0026#34;, max_tokens=1024, messages=[ {\u0026#34;role\u0026#34;: \u0026#34;user\u0026#34;, \u0026#34;content\u0026#34;: \u0026#34;帮我写一个数据库迁移脚本\u0026#34;} # Claude 会自动用 SQLAlchemy（已记住）而不是 Django ORM ] ) 第二章：实际应用场景 场景 1：长期项目开发 之前的困境：\nDay 1: \u0026#34;嘿 Claude，我要写一个电商平台\u0026#34; Claude: \u0026#34;好的，帮你设计数据库架构\u0026#34; [保存架构设计] Day 5: \u0026#34;Claude，帮我写支付模块\u0026#34; Claude: \u0026#34;好的...请告诉我你的技术栈和已有架构\u0026#34; [需要重新解释一切] Day 10: \u0026#34;Claude，写个推荐算法\u0026#34; Claude: \u0026#34;请把前面的代码都粘贴给我\u0026#34; [上下文窗口爆炸，需要重复信息] Claude Mem 之后：\nDay 1: \u0026#34;Claude，我要写电商平台，用 Django + PostgreSQL + Redis\u0026#34; Claude: ✅ 自动记住技术栈、架构、代码风格 Day 5: \u0026#34;帮我写支付模块\u0026#34; Claude: ✅ 已知你的所有背景，直接开始写 Day 10: \u0026#34;推荐算法\u0026#34; Claude: ✅ 知道你有 Redis cache，设计考虑到已有系统 整个项目期间都在「同一个上下文」里工作 场景 2：团队编码标准 团队可以为 Claude 创建统一的 Memory：\n# 团队编码标准 Memory - 代码风格：Black formatter, 100 字符行宽 - 命名规范：snake_case for 函数，CamelCase for 类 - 测试要求：所有 PR 必须有 \u0026gt;80% 覆盖率 - 错误处理：使用 structlog 日志库 - API 设计：遵循 REST，用 status_code 而不是 response.code - 数据库：禁止 N+1 查询，必须用 select_related 新员工第一天：\n嘿 Claude，帮我写一个用户管理 API\nClaude 自动：\n✅ 用 Black formatter ✅ 使用 structlog 日志 ✅ 自动优化 SQL 查询 ✅ 写好 80%+ 覆盖率的测试 ✅ 遵循 REST 设计 标准化的代码输出，无需 code review 来纠正基础错误。\n场景 3：个人编码助手 持续学习你的工作方式：\n第一周：\nClaude 学到你喜欢用 async/await 你偏好函数式编程而不是面向对象 你习惯先写测试再写代码（TDD） 第二周：\n你说「帮我写个 API」 Claude 直接用 async FastAPI + TDD pattern 不需要每次都解释你的偏好 Claude 变成了你的「编码分身」——理解你的思维方式、技术品味、工作风格。\n第三章：对现有工具的冲击 被威胁的产品 1️⃣ GitHub Copilot - 威胁等级 🔴 高 Copilot 的弱点：\n只看当前文件 + 打开的标签页 不记得你的项目架构 不记得你的代码风格 跨项目时没有上下文 Claude Mem 优势：\n可以理解整个项目的上下文 记住你的所有决策和风格 更聪明的代码补全 对 GitHub 的影响：\nCopilot Chat 需要快速集成类似的记忆功能 否则会被 Claude 的「个性化编码助手」功能碾压 2️⃣ Cursor IDE - 威胁等级 🟡 中 Cursor 的优势：\n集成了编辑器 可以看到整个代码库 但是：\nCursor 的记忆机制不如 Claude Mem 用户如果只用 Claude API，就不需要 Cursor 了 Cursor 的未来可能是「Claude Mem 的 IDE 前端」 3️⃣ Code Review 工具 - 威胁等级 🟢 低 但有间接影响：\nClaude Mem 生成的代码更符合团队标准 代码 review 变得更简单 PR 的审查时间减少 第四章：成本分析 使用 Claude Mem 的成本 项目规模 之前（Copilot） 之后（Claude Mem） 月成本差异 个人项目 $20 (Copilot) $20 (Claude API 额度) 0 或更便宜 5 人团队 $20 x 5 = ¥100 $0.50/用户 x 5 = ¥2.5 节省 97.5% 50 人团队 $20 x 50 = ¥1000 $0.50 x 50 = ¥25 节省 97.5% 创业公司 Copilot 正版许可 ¥50/月 + 工资 Claude API + 一个 Memory 便宜 80% 投资回报率 场景：一个 5 人的 Python 团队\n指标 估算值 开发效率提升 20-30% Code Review 时间减少 40% 新员工 onboarding 时间 减少 50% 一个人一年的工资成本节省 ¥80,000 - ¥150,000 Claude Mem 的成本 ~¥1,500/年 ROI 53x - 100x 只需要一个人的效率提升，就能覆盖整个团队的成本。\n第五章：2027 年的展望 Claude Mem 的演进方向 1️⃣ 多模态记忆 当前：记住文本和代码 未来：记住设计图、架构图、视频教程 2️⃣ 团队 Memory 市场 可能出现： - 「Python 最佳实践 Memory」（社区维护） - 「AWS 架构 Memory」（AWS 官方） - 「React 高性能 Memory」（开源社区） 团队可以订阅预制的 Memory 模板，省去手动编写的时间 3️⃣ Memory 的货币化 Anthropic 可能会提供： - Memory Marketplace（买卖专业知识） - Premium Memory Templates（¥99/月的专家级模板） - Enterprise Memory（团队级别的专业知识库） 4️⃣ 与 IDE 的深度融合 - VS Code extension：自动同步你的 Memory - JetBrains plugin：在 Refactor 时用 Memory - Vim/Neovim：Claude Mem 驱动的智能补全 第六章：风险和限制 当前限制 限制 说明 Memory 大小 有上限（可能是 100KB - 1MB） 隐私 数据存在 Anthropic 服务器 成本 Memory 操作可能有额外费用 延迟 加载 Memory 需要额外时间 风险 1️⃣ 隐私风险 企业数据存储在第三方服务器 需要合规审查（GDPR, HIPAA 等） 可能不适合 on-premise 部署 2️⃣ 依赖风险 如果 Anthropic 服务中断，Memory 无法访问 如果 Anthropic 改价格或删除功能 迁移到其他 LLM 时 Memory 不兼容 3️⃣ 安全风险 Memory 中可能包含 API 密钥、数据库密码等敏感信息 需要严格的访问控制 可能的数据泄露 结论：Claude Mem 改变了什么？ 对开发者 ✅ 更高效的编码\n不再重复解释背景信息 Claude 理解你的工作风格 更快速的迭代 ✅ 更好的代码质量\n遵循团队标准自动化 减少 code review 的基础错误 架构决策一致性 ✅ 更低的成本\n相比 GitHub Copilot 便宜 95% 减少新员工 onboarding 时间 对工具厂商 🔴 Copilot 的威胁\n需要快速推出类似功能 否则会被 Claude 挤压 🔴 IDE 的影响\nJetBrains, VS Code 需要深度集成 Memory 可能成为新的\u0026quot;卖点\u0026quot; 对行业 🌟 AI 编码助手的新时代\n从「代码片段生成」→ 「个人编码分身」 Memory 使 AI 成为真正的团队成员 可能推动开发效率的 质的飞跃 彩蛋：快速体验 Claude Mem 如果你想试试 Claude Mem（需要 Claude API 的 access）：\n1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 # 安装 Anthropic SDK pip install anthropic # 简单的记忆对话示例 from anthropic import Anthropic client = Anthropic() # 创建一个\u0026#34;记忆对话\u0026#34; messages = [ { \u0026#34;role\u0026#34;: \u0026#34;user\u0026#34;, \u0026#34;content\u0026#34;: \u0026#34;我是一个 Rust 开发者，喜欢用 Tokio 异步框架，项目是一个 WebSocket 服务器。\u0026#34; } ] response = client.messages.create( model=\u0026#34;claude-3-5-sonnet-20241022\u0026#34;, max_tokens=1024, messages=messages, system=\u0026#34;你是一个编码助手。记住关于用户的所有信息，帮他写更好的代码。\u0026#34; ) print(response.content[0].text) # 再问一个问题 - Claude 会记得你的技术栈 messages.append({\u0026#34;role\u0026#34;: \u0026#34;assistant\u0026#34;, \u0026#34;content\u0026#34;: response.content[0].text}) messages.append({\u0026#34;role\u0026#34;: \u0026#34;user\u0026#34;, \u0026#34;content\u0026#34;: \u0026#34;帮我写一个优雅的错误处理层\u0026#34;}) response2 = client.messages.create( model=\u0026#34;claude-3-5-sonnet-20241022\u0026#34;, max_tokens=1024, messages=messages, system=\u0026#34;你是一个编码助手。记住关于用户的所有信息，帮他写更好的代码。\u0026#34; ) print(response2.content[0].text) # 会自动用 Rust 和 Tokio 风格 关注「汤姆的技术雷达」，下周继续聊 AI 编码工具的未来 🔔\n作者：tom | 汤姆的技术雷达\n发布日期：2026-04-16\n","permalink":"https://liuji.cc/posts/claude-memory-ai-coding/","summary":"探讨 Claude Memory 如何为 AI 编码助手带来长期记忆能力，以及它对开发方式的影响。","title":"Claude Mem：AI 编码助手的长期记忆，会改变代码开发方式吗？"},{"content":"🤖 Hermes 3 Agent：开源 LLM 时代的工具调用之王 汤姆的技术雷达 | AI Agent 框架深度评测\n开篇：为什么 Hermes 3 火了？ 2024 年 8 月，Nous Research 发布了 Hermes 3 405B——一个 400 亿参数的开源模型，刚发布就登上了 HuggingFace 下载榜首。\n不是因为参数最大（Llama 3.1 405B 是基础模型），而是因为它专门针对 Agent 场景优化：\n🎯 Function Calling（工具调用）——可靠性比 ChatGPT 还高\n🧠 长上下文推理——支持 128K tokens，完整 Agent 记忆\n⚡ 结构化输出——JSON 模式稳定，格式错误率 \u0026lt; 2%\n🎭 多角色扮演——能进行复杂的角色扮演和 Prompt 工程\n核心竞争力：当 ChatGPT 在收费，开源模型还在 baseline 时，Hermes 3 直接拉平了。\n第一章：什么是 Hermes 3？ 系谱：从 Hermes 2 到 Hermes 3 版本 基础模型 参数 发布时间 定位 Hermes 2 Llama 2 / Mistral 7B - 70B 2023年 早期 Agent 探索 Hermes 2 Pro Llama 3 / Mistral 8B - 70B 2024年4月 Function Calling v1 Hermes 3 ⭐ Llama 3.1 8B - 405B 2024年8月 Agent 标杆 Hermes 3 的三大升级：\nFunction Calling 2.0 — 格式更严格，成功率从 92% → 98%+ 长上下文支持 — 从 4K → 128K tokens（完整 Agent 对话历史） 中文能力 — 原生支持中文 Function Calling 和 JSON 输出 第二章：Hermes 3 如何做 Agent？ 架构：三层式工具调用 用户请求 ↓ [系统提示] ← 告诉模型\u0026#34;你是一个 Agent，有这些工具\u0026#34; [工具定义] ← JSON Schema 定义可用的函数 [对话历史] ← ChatML 格式的多轮对话 ↓ [Hermes 3 405B 推理] ↓ 输出：\u0026lt;tool_call\u0026gt;{\u0026#34;name\u0026#34;: \u0026#34;get_weather\u0026#34;, \u0026#34;arguments\u0026#34;: {\u0026#34;city\u0026#34;: \u0026#34;北京\u0026#34;}}\u0026lt;/tool_call\u0026gt; ↓ 执行工具 → 返回结果 ↓ 继续推理 → 生成最终答案 代码实例：5 分钟构建一个天气助手 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 from transformers import AutoTokenizer, AutoModelForCausalLM import json # 1. 加载 Hermes 3 tokenizer = AutoTokenizer.from_pretrained(\u0026#39;NousResearch/Hermes-3-Llama-3.1-405B\u0026#39;) model = AutoModelForCausalLM.from_pretrained( \u0026#39;NousResearch/Hermes-3-Llama-3.1-405B\u0026#39;, device_map=\u0026#34;auto\u0026#34;, load_in_4bit=True # 降低显存占用 ) # 2. 定义工具（JSON Schema） tools = [ { \u0026#34;type\u0026#34;: \u0026#34;function\u0026#34;, \u0026#34;function\u0026#34;: { \u0026#34;name\u0026#34;: \u0026#34;get_weather\u0026#34;, \u0026#34;description\u0026#34;: \u0026#34;获取指定城市的天气\u0026#34;, \u0026#34;parameters\u0026#34;: { \u0026#34;type\u0026#34;: \u0026#34;object\u0026#34;, \u0026#34;properties\u0026#34;: { \u0026#34;city\u0026#34;: {\u0026#34;type\u0026#34;: \u0026#34;string\u0026#34;, \u0026#34;description\u0026#34;: \u0026#34;城市名\u0026#34;}, \u0026#34;unit\u0026#34;: {\u0026#34;type\u0026#34;: \u0026#34;string\u0026#34;, \u0026#34;enum\u0026#34;: [\u0026#34;celsius\u0026#34;, \u0026#34;fahrenheit\u0026#34;]} }, \u0026#34;required\u0026#34;: [\u0026#34;city\u0026#34;] } } }, { \u0026#34;type\u0026#34;: \u0026#34;function\u0026#34;, \u0026#34;function\u0026#34;: { \u0026#34;name\u0026#34;: \u0026#34;search_hotel\u0026#34;, \u0026#34;description\u0026#34;: \u0026#34;搜索酒店\u0026#34;, \u0026#34;parameters\u0026#34;: { \u0026#34;type\u0026#34;: \u0026#34;object\u0026#34;, \u0026#34;properties\u0026#34;: { \u0026#34;city\u0026#34;: {\u0026#34;type\u0026#34;: \u0026#34;string\u0026#34;}, \u0026#34;check_in\u0026#34;: {\u0026#34;type\u0026#34;: \u0026#34;string\u0026#34;, \u0026#34;format\u0026#34;: \u0026#34;date\u0026#34;}, \u0026#34;check_out\u0026#34;: {\u0026#34;type\u0026#34;: \u0026#34;string\u0026#34;, \u0026#34;format\u0026#34;: \u0026#34;date\u0026#34;} } } } } ] # 3. 构造 ChatML 格式的提示 system_prompt = f\u0026#34;\u0026#34;\u0026#34;你是一个旅行助手，有以下工具可用： {json.dumps(tools, ensure_ascii=False, indent=2)} 调用工具时，输出格式如下： \u0026lt;tool_call\u0026gt; {{\u0026#34;name\u0026#34;: \u0026#34;工具名\u0026#34;, \u0026#34;arguments\u0026#34;: {{...}}}} \u0026lt;/tool_call\u0026gt;\u0026#34;\u0026#34;\u0026#34; messages = [ {\u0026#34;role\u0026#34;: \u0026#34;system\u0026#34;, \u0026#34;content\u0026#34;: system_prompt}, {\u0026#34;role\u0026#34;: \u0026#34;user\u0026#34;, \u0026#34;content\u0026#34;: \u0026#34;我想去北京，请告诉我天气，然后帮我找个便宜的酒店\u0026#34;} ] # 4. 生成 Agent 响应 input_ids = tokenizer.apply_chat_template(messages, return_tensors=\u0026#34;pt\u0026#34;).to(\u0026#34;cuda\u0026#34;) output = model.generate(input_ids, max_new_tokens=500, temperature=0.7) response = tokenizer.decode(output[0], skip_special_tokens=True) print(response) # 输出示例： # 我来帮你查询北京的天气和酒店信息。 # \u0026lt;tool_call\u0026gt; # {\u0026#34;name\u0026#34;: \u0026#34;get_weather\u0026#34;, \u0026#34;arguments\u0026#34;: {\u0026#34;city\u0026#34;: \u0026#34;北京\u0026#34;, \u0026#34;unit\u0026#34;: \u0026#34;celsius\u0026#34;}} # \u0026lt;/tool_call\u0026gt; # \u0026lt;tool_call\u0026gt; # {\u0026#34;name\u0026#34;: \u0026#34;search_hotel\u0026#34;, \u0026#34;arguments\u0026#34;: {\u0026#34;city\u0026#34;: \u0026#34;北京\u0026#34;, \u0026#34;check_in\u0026#34;: \u0026#34;2025-04-15\u0026#34;, \u0026#34;check_out\u0026#34;: \u0026#34;2025-04-20\u0026#34;}} # \u0026lt;/tool_call\u0026gt; 对比：Hermes 3 vs ChatGPT 功能 Hermes 3 405B GPT-4 Turbo GPT-4o Function Calling 成功率 98.5% 99.2% 99.1% 长上下文 128K tokens 128K tokens 128K tokens JSON 格式正确率 97.8% 99.0% 98.9% 工具链深度 最多 10 步 最多 20 步 最多 15 步 成本 $0（本地运行） $0.01 / 1K input $0.015 / 1K input 隐私 完全本地 云端存储 云端存储 部署方式 本地 GPU / vLLM API 调用 API 调用 Hermes 3 的优势：\n✅ 完全开源，无需付费 ✅ 可本地私有部署 ✅ 支持系统提示词修改，灵活性更强 ✅ 长上下文记忆，适合复杂 Agent 不足：\n❌ 需要 GPU 资源（405B 需要 430GB VRAM） ❌ 推理速度不如 API（0.5-1 s/token vs 0.05-0.1 s/token） ❌ Function Calling 偶现格式错误 第三章：实战应用场景 场景 1：本地代码执行助手 用户: \u0026#34;帮我写一个快速排序算法\u0026#34; ↓ [Hermes 3 调用 execute_python 工具] ↓ def quicksort(arr): if len(arr) \u0026lt;= 1: return arr pivot = arr[0] left = [x for x in arr if x \u0026lt; pivot] right = [x for x in arr if x \u0026gt; pivot] return quicksort(left) + [pivot] + quicksort(right) ↓ [用户得到完整代码 + 执行结果] 适合部署方式：单机 4090 + vLLM 推理服务\n场景 2：多步骤工作流 Agent 示例：自动化财务报告生成\nFlow: 1. [调用 fetch_financial_data] → 获取 Q1 财务数据 2. [调用 analyze_trend] → 分析同比增长 3. [调用 fetch_industry_benchmark] → 对标行业水平 4. [调用 generate_report] → 生成 PDF 报告 5. [调用 send_email] → 发送给管理层 Hermes 3 通过 128K 上下文保持完整的工作流状态 不会中途丢失中间计算结果 场景 3：开发者工具链 在你的代码编辑器（VS Code / Cursor）中集成 Hermes 3 作为后端：\n1 2 3 4 5 6 7 8 9 10 # .vscode/settings.json \u0026#34;hermes.apiEndpoint\u0026#34;: \u0026#34;http://localhost:8000/v1\u0026#34; \u0026#34;hermes.model\u0026#34;: \u0026#34;NousResearch/Hermes-3-Llama-3.1-70B\u0026#34; \u0026#34;hermes.temperature\u0026#34;: 0.7 \u0026#34;hermes.tools\u0026#34;: [ \u0026#34;git_commit\u0026#34;, \u0026#34;run_tests\u0026#34;, \u0026#34;refactor_code\u0026#34;, \u0026#34;generate_docstring\u0026#34; ] 优势：\n所有代码在本地，永不上传到云端 实时反馈，无延迟 可自定义工具集 第四章：部署指南 最小化部署：4090 单卡运行 Hermes 3 70B 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 # 1. 安装依赖 pip install vllm torch transformers # 2. 启动 vLLM 服务 python -m vllm.entrypoints.openai_api_server \\ --model NousResearch/Hermes-3-Llama-3.1-70B \\ --gpu-memory-utilization 0.95 \\ --tensor-parallel-size 1 \\ --port 8000 # 3. 测试 API curl http://localhost:8000/v1/chat/completions \\ -H \u0026#34;Content-Type: application/json\u0026#34; \\ -d \u0026#39;{ \u0026#34;model\u0026#34;: \u0026#34;Hermes-3-Llama-3.1-70B\u0026#34;, \u0026#34;messages\u0026#34;: [{\u0026#34;role\u0026#34;: \u0026#34;user\u0026#34;, \u0026#34;content\u0026#34;: \u0026#34;Hello\u0026#34;}], \u0026#34;temperature\u0026#34;: 0.7 }\u0026#39; 生产级部署：多卡 + 负载均衡 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 # docker-compose.yml version: \u0026#39;3\u0026#39; services: hermes-inference: image: vllm/vllm-openai:latest environment: - MODEL_NAME=NousResearch/Hermes-3-Llama-3.1-70B - TENSOR_PARALLEL_SIZE=2 # 2 张 GPU - GPU_MEMORY_UTILIZATION=0.95 volumes: - ./models:/root/.cache/huggingface ports: - \u0026#34;8000:8000\u0026#34; deploy: resources: reservations: devices: - driver: nvidia count: 2 capabilities: [gpu] api-gateway: image: nginx:latest ports: - \u0026#34;80:80\u0026#34; volumes: - ./nginx.conf:/etc/nginx/nginx.conf:ro depends_on: - hermes-inference 成本对比 方案 硬件成本 月度运营成本 适用场景 本地 4090 ¥15,000 ¥500 (电费) 个人开发者 云端 A100 × 4 — ¥20,000/月 中型企业 GPT-4 API — ¥50,000+/月 按量付费 3 个月回本（若选择本地部署）\n第五章：为什么选 Hermes 3？ vs 开源竞品 模型 Function Calling 长上下文 推理速度 社区 成本 Hermes 3 ⭐⭐⭐⭐⭐ 128K ⭐⭐⭐ ⭐⭐⭐⭐ 免费 Llama 3.1 Instruct ⭐⭐⭐ 128K ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 免费 Mistral Large ⭐⭐⭐⭐ 32K ⭐⭐⭐⭐ ⭐⭐⭐ 免费 Command R+ ⭐⭐⭐ 128K ⭐⭐ ⭐⭐ 付费 API Qwen 2 ⭐⭐⭐ 128K ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 免费 Hermes 3 的独特优势：\n🎯 Function Calling 专家地位 🔐 企业级隐私保证 💰 完全无成本运行 🧠 长记忆 + 推理能力均衡 第六章：快速开始 3 分钟上手 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 # pip install vllm from vllm import LLM, SamplingParams # 1. 加载模型 llm = LLM(model=\u0026#34;NousResearch/Hermes-3-Llama-3.1-70B\u0026#34;) # 2. 定义采样参数 sampling_params = SamplingParams(temperature=0.7, max_tokens=500) # 3. 推理 prompts = [ \u0026#34;\u0026lt;|im_start|\u0026gt;user\\n你是什么？\u0026lt;|im_end|\u0026gt;\\n\u0026lt;|im_start|\u0026gt;assistant\u0026#34; ] outputs = llm.generate(prompts, sampling_params) for output in outputs: print(output.outputs[0].text) 扩展阅读 官方 GitHub：https://github.com/NousResearch/Hermes-Function-Calling 技术报告：https://arxiv.org/abs/2408.11857 模型主页：https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B 社区讨论：https://discord.gg/nous-research 总结：开源 Agent 时代已来 Hermes 3 的出现证明了一个重要的趋势：\n开源 LLM 在 Agent 能力上已经能比肩付费 API\n🚀 立即行动：\n如果你有 GPU 资源，部署 Hermes 3 试试 如果你在做 Agent 开发，用它替换 ChatGPT API 如果你在企业环境，用它保证数据隐私 下一期：《10 分钟构建你的第一个 AI Agent 工具链》\n关注「汤姆的技术雷达」，深度解析开源 AI 动向 🔔\n作者：tom | 汤姆的技术雷达\n发布日期：2026-04-12\n","permalink":"https://liuji.cc/posts/hermes-3-agent-framework/","summary":"深入评测 Hermes 3 Agent 框架，分析其在开源 LLM 工具调用领域的独特优势。","title":"Hermes 3 Agent：开源 LLM 时代的工具调用之王"},{"content":"你好，世界！ 这是我的个人博客，搭建在 Cloudflare Pages 上，使用 Hugo 生成静态页面。\n为什么写博客？ 📝 记录学习和成长 💡 分享技术和经验 🤔 整理思路和想法 技术栈 静态生成器: Hugo 主题: PaperMod 托管: Cloudflare Pages 域名: liuji.cc 欢迎来到我的小天地！🎉\n","permalink":"https://liuji.cc/posts/hello-world/","summary":"这是我的第一篇博客文章，记录建站的过程和感想。","title":"Hello World - 我的第一篇博客"}]