AWS 官方下场做 AI Agent：agent-toolkit-for-aws 让 Agent 直接构建在 AWS 上

Azure 和 Google 在争谁的模型更多。AWS 在做一件不一样的事。

2026 年 5 月 6 日，AWS 悄悄上线了 github.com/aws/agent-toolkit-for-aws。

不是 awslabs，是 aws。一个字母的差距——AWS 在说：这是正式产品，不是实验室项目。

然后 AWS 做了一件竞争对手都还没做的事：给 AI agent 写"操作手册"，写完还拿去测了。

先说结论，再讲逻辑

结论是：AWS 在认真解决一个其他云厂商远没做足的问题：“agent 怎么可靠地操作云服务”

Azure 的 Microsoft Foundry 有 1,900+ 个模型，覆盖 OpenAI、Anthropic、Meta、xAI、Mistral 等主流厂商，服务全球大量企业；Google 的 Gemini Enterprise Agent Platform 有 Agent Development Kit（ADK）、Model Evaluation……两家比的都是"平台多宽"。

AWS 这次比的是另一件事：agent 在我的平台上成功率是多少。

这两个思路的分歧，比看上去大得多。

问题出在哪里

过去两年，开发者拿着 AI agent 构建 AWS 应用，踩了三类坑：

第一坑，模型知识过期。 AWS 几乎每周都在发布新服务、新 API。大模型的训练数据有截止日期——agent 信心满满地调用一个已经被废弃的 API，或者压根不知道某个新服务的存在。

第二坑，多服务工作流容错差。 让 agent 部署一个"Lambda + API Gateway + DynamoDB"的应用，它单独认识每个服务，但串联起来容易出错。这里面有大量 AWS 特有的最佳实践和配置顺序，通用大模型没有被专门训练过。

第三坑，企业没法上生产。 agent 调用 AWS API，没有审计日志，没有权限粒度控制，出了事没法追溯。大量公司卡在"POC 很好用但不敢上线"的阶段。

三个坑，Azure 和 Google 给的答案是"换个更强的模型"。

AWS 这次的答案不一样。

AWS 的解法：三件套

Agent Toolkit for AWS 是三件东西的组合：Skills + AWS MCP Server + Plugins。

第一件：Skills（操作手册）

这是核心。

Skills 不是 API 文档，是"经过验证的操作流程"。

举个例子：agent 要用 CloudFormation 部署 serverless API。不给 Skills 的时候，agent 凭通用知识拼 YAML，大概率在某个配置项上卡壳或走弯路。有了 Skill，agent 直接调取手册：

模板用什么结构
哪几个参数是 AWS 最佳实践要求必配的
这一步前要先做什么、这一步后要检查什么

但关键不是"有手册"，是"手册经过了测试"。

AWS 官方说，每个 Skill 都经过了"严格评估（rigorously evaluated）"，确保能帮 agent 更准确、更可靠地完成任务。

这里的机制值得细看：AWS 评估的不是文档写得对不对，而是"agent 用了这个 Skill 之后，完成任务的准确率和可靠性有没有提升"。这是一个以输出结果为标准的评估，不是以文档质量为标准。

跟竞品比一下就清楚了：

Azure AI Foundry：有 quick start templates，是可定制的代码起点，解决的是"怎么写代码"，不是"agent 在这个工作流里完成任务的成功率"
Google ADK：有 evaluation 工具，评估的是通用 agent 执行轨迹（execution trajectory），而 AWS Skills 评估的是特定 AWS 服务操作场景下的任务完成率——两者粒度和场景针对性都不同

AWS 的 Skills，是目前云厂商中少见的、专门针对特定云服务操作场景、以任务完成率为标准评估过的官方产品。首发 40+，覆盖 IaC、存储、数据分析、Serverless、容器、AI 服务，且承诺持续扩展。

第二件：AWS MCP Server（企业级安全层）

MCP（Model Context Protocol）是 Anthropic 提出的工具调用协议，现已成为行业标准。AWS MCP Server 是 AWS 官方托管的 MCP 服务器，agent 通过它调用任意 AWS 服务。

但这个 MCP Server 的重点不在"能调用"，在"怎么控制"：

IAM 权限控制：精确到具体 API 操作，agent 只能做被授权的事
IAM 条件键：区分"agent 发起的操作"和"人工发起的操作"——出了问题，一眼看出是谁干的
CloudTrail 审计日志：所有 agent 操作完整记录，不可篡改，可追溯
CloudWatch 可观测性：实时监控 agent 行为
零凭证暴露：agent 不接触 AWS 密钥

这个能力组合，才是企业敢把 agent 推上生产的底线条件。

第三件：Plugins（一键安装包）

Plugins 是把 MCP Server 配置 + 相关 Skills 打包成一键安装的组合。

发布时三个：

AWS Core：全栈应用开发
AWS Data Analytics：数据管道和查询
AWS Agents：用 Amazon Bedrock AgentCore 构建生产级 agent

（仓库后续持续新增，如 aws-agents-for-devsecops 等，查 GitHub 获取最新列表。）

怎么用

支持 Claude Code、Codex、Cursor、Kiro，但安装方式有区别：

Claude Code / Codex / Cursor：Plugin 一键安装。

1
/plugin install aws-core@claude-plugins-official

1
/plugin install aws-agents@claude-plugins-official

Kiro 及其他 agent：需手动配置 MCP Server，再加载 Skills：

1
npx skills add aws/agent-toolkit-for-aws/skills

Kiro 用户别照着 Plugin 命令抄——按 GitHub README 的 Kiro/Other 章节单独走。

这场仗，AWS 在打什么

AWS 不是在争"最好的 AI 平台"，它在争"agent 工作最顺畅的地方"。

Azure 和 Google 的逻辑是：我给你更多模型、更强算力、更宽平台，你在上面自由发挥。

AWS 的逻辑反过来：我知道开发者在我这儿具体要干什么——部署 Lambda、配 CloudFormation、跑 Bedrock——我就把这些操作的最佳路径提前写好、测好，让 agent 直接调。

这两个逻辑有一个根本性的分歧：

Azure/Google 在优化"agent 的能力上限"；AWS 在优化"agent 的任务成功率"。

对企业 IT 决策者来说，后者才是更直接的生产需求。没有人关心 agent 在 benchmark 上得了多少分，他们关心的是：这个 agent 上线之后，出错的概率是多少，出了错能不能追责。

AWS 这套工具，每一件都在回答这两个问题：

Skills → 降低出错概率
IAM + CloudTrail → 出了错有完整的追责链路

这是 AWS 30 年企业基础设施 DNA 的延伸，只不过这次延伸到了 agent 层。

代价是什么

免费——只需为 agent 实际调用的 AWS 资源付费。

AWS MCP Server 目前开放两个区域：US East（N. Virginia）和 Europe（Frankfurt）。

Skills 和 Plugins 在 GitHub 开源，Apache 2.0 协议。

最后

Azure 和 Google 在造航母。

AWS 在帮你的 agent 把活干完、不出错、出了错能追查。

AI agent 的下半场，比的不再是谁的模型多。

比的是谁的 agent 敢上生产。

GitHub：github.com/aws/agent-toolkit-for-aws 官方文档：docs.aws.amazon.com/agent-toolkit/latest/userguide/quick-start.html

先说结论，再讲逻辑#

问题出在哪里#

AWS 的解法：三件套#

怎么用#

这场仗，AWS 在打什么#

代价是什么#

最后#

先说结论，再讲逻辑

问题出在哪里

AWS 的解法：三件套

怎么用

这场仗，AWS 在打什么

代价是什么

最后