AWS TechBot:用 AI Agent 架构把技术文档带到你的团队

问题:你的团队还在怎样查 AWS 文档?

场景 A(技术主管):
有个运维问我 S3 的某个配置
他没时间查文档
我也没时间查文档
我们就去 StackOverflow 问
答案靠不靠谱不知道

场景 B(架构师):
要给客户估成本
需要查 AWS 全球 9+ 区域的定价
每个区域都要打开 AWS pricing 页面
半小时过去了
成本估算做了 5 个小时

场景 C(新入职员工):
不知道 RDS 怎么配
需要查文档
找到文档后不知道最佳实践是什么
问资深同事
资深同事也不太记得
整个流程 1 小时

一个星期:
- 30% 的问题被拖缓了
- 50% 的答案来自不可靠的来源
- 成本估算经常出错

💡 AWS TechBot 的方案

AWS 官方开源了一个项目:sample-aws-techbot

这是一个 AI 驱动的 AWS 技术助手,基于:

  • Strands Agents SDK — Agent 框架
  • Amazon Bedrock AgentCore — AI 能力
  • 飞书机器人 — 团队沟通界面

核心价值: 把 AWS 技术知识嵌入到你的团队对话中,一句话就能查、一句话就能问。


🎯 TechBot 能做什么?

1. 快速查文档

在飞书群里直接 @TechBot:

「TechBot,告诉我 S3 的跨区域复制怎么配置」

TechBot:
- 从 AWS 官方文档提取核心步骤
- 给出配置示例
- 列出最佳实践
- 包括常见错误

1 分钟内得到答案(而不是 30 分钟搜索)

2. 查配置和教程

「TechBot,RDS MySQL 自动备份怎么启用?」

TechBot:
- 详细的配置步骤(UI / CLI)
- 示例代码
- 备份保留期设置
- 恢复方式
- 成本影响

新人也能按步骤操作

3. 实时成本估算

「TechBot,EC2 m5.xlarge 在新加坡一个月多少钱?」

TechBot:
- 实时查询新加坡区域定价
- 计算月度费用
- 与其他实例类型对比
- 成本优化建议

架构师再不用手动查 5 个表格

4. 故障排查和运维支持

「TechBot,Lambda 超时了怎么排查?」

TechBot:
- 列出常见原因
- 检查步骤
- 错误码说明
- 解决方案
- 配额限制信息

运维可以更快地定位问题

5. 查询最佳实践和架构指导

「TechBot,应该用 Fargate 还是 ECS?」

TechBot:
- 两者的优缺点
- 适用场景
- 性能对比
- 成本对比
- 最佳实践建议

架构师可以更快做技术决策

🏗️ 技术架构(为什么这样设计)

整体架构

飞书(对话入口)
    ↓
Lambda Handler(处理 @mention 事件)
    ↓
AgentCore Runtime(AI Agent 运行时)
    ↓
AgentCore Gateway(工具管理中心)
    ↓
多个 Lambda Functions(具体工具)
    ├── Global Knowledge(全球 AWS 文档)
    ├── China Knowledge(中国区文档)
    ├── Pricing(全球和中国定价)
    └── Customer Stories(客户案例)

为什么用 AgentCore Gateway?

传统方式:
- Agent 需要知道所有工具的接口
- 新增工具时,Agent 代码要修改
- 工具扩展困难

AgentCore Gateway 方式:
✅ Agent 通过 Gateway 发现工具
✅ 新增工具时,Gateway 自动注册
✅ Agent 代码无需改动
✅ 工具可独立扩展
✅ 工具可动态上下线

为什么用飞书而不是 Slack?

因为这是中文项目,考虑了中国用户:
- 飞书在国内部署
- 支持中文文档和中国区 AWS 服务
- 天然支持群聊和私聊
- 企业级权限管理

🚀 部署方式(一键 CloudFormation)

部署有多简单?

第一步: 在飞书开放平台创建应用,获取 App ID 和 Secret(5 分钟)

第二步: 点击 AWS CloudFormation 快速创建按钮

第三步: 填入 4 个参数:

- Model ID(选择 GLM-5 / MiniMax M2.5 / Nova 2 Lite)
- 是否开启多轮记忆(默认开启)
- Feishu App ID
- Feishu App Secret

第四步: 点击 Create Stack,等 5 分钟

第五步: CloudFormation 自动创建:

  • AgentCore Gateway(工具管理)
  • AgentCore Runtime(Agent 运行)
  • 4 个 Lambda Functions(具体工具)
  • Lambda Handler(事件处理)
  • API Gateway(webhooks)
  • Cognito(认证)
  • Memory(可选,多轮对话记忆)

就完成了。 只需点 5 下鼠标 + 填 4 个参数。


💰 成本分析(出乎意料地便宜)

按需计费,不用不收费

300 问题/月(约 10 次/天)的估算:

使用 GLM-5 模型(效果最好):
- 模型调用费:~$12.3/月
- AgentCore Runtime:< $3/月
- AgentCore Gateway:< $0.01/月
- AgentCore Memory:< $0.5/月
_____________________________
总计:< $17/月

换个角度:
- 一个问题约 $0.06
- 一个员工一个月的节省时间 > 5 小时
- 节省的时间成本 > $100
- ROI > 6 倍

模型选择

模型输入价格输出价格图片特点
GLM-5$1.00/M$3.20/M效果最好(推荐)
MiniMax M2.5$0.30/M$1.20/M性价比高
Nova 2 Lite$0.33/M$2.75/M支持图片

我的建议: 用 GLM-5,效果最好,成本也才 $17/月。


🔧 如何定制和扩展?

修改 Agent 行为

1
2
3
4
5
6
7
8
9
# 编辑 main.py 中的系统提示
MAIN_SYSTEM_PROMPT = """
你是 AWS 技术助手。
你的职责是:
1. 快速查找 AWS 文档
2. 提供最佳实践
3. 帮助成本优化
...
"""

添加新工具

传统方式(困难):
1. 修改 Agent 代码
2. 添加工具接口
3. 测试
4. 部署
5. 重启 Agent

AgentCore Gateway 方式(简单):
1. 写一个新 Lambda 函数
2. 在 Gateway 控制台添加
3. Agent 下次启动自动发现
4. 完成,无需修改 Agent 代码

实例:添加一个新工具

目标:添加 EC2 实例启动指南工具

第一步:写一个 Lambda 函数
```python
def lambda_handler(event, context):
    query = event['query']
    # 查询 EC2 启动文档
    # 返回步骤和最佳实践
    return {
        'statusCode': 200,
        'body': {...}
    }

第二步:在 AWS 控制台注册

Bedrock → AgentCore → Gateways
→ [Your Gateway]
→ Targets
→ Add
→ 填入 Lambda ARN 和工具定义

第三步:完成 Agent 下次启动时自动发现这个工具


---

## 📊 对比:TechBot vs 传统方式

| 维度 | 传统方式 | TechBot |
|------|---------|---------|
| **查文档时间** | 30 分钟 | 1 分钟 |
| **查成本时间** | 1 小时 | 2 分钟 |
| **新人上手** | 需要师傅带 | 自助查询 |
| **答案准确性** | 70%(来自网络) | 95%(来自官方文档) |
| **月度成本** | 人力成本 $500+ | AI 成本 $17 |
| **可用性** | 办公时间(人工) | 24/7 |
| **扩展性** | 难(需要修改代码) | 容易(Gateway 自动发现) |
| **部署难度** | 中等 | 超简单(一键 CloudFormation) |

---

## 🎯 适合的使用场景

### 强烈推荐

✅ **AWS 企业用户**
- 有多个 AWS 项目
- 需要快速决策
- 想降低人工成本

✅ **云架构团队**
- 经常做成本估算
- 需要最佳实践建议
- 项目交付紧

✅ **运维和 DevOps 团队**
- 需要故障快速排查
- 需要配置最佳实践
- 知识库不够完善

✅ **新人培训**
- 加快新人上手
- 减少资深同事的答疑时间
- 提高团队知识共享

### 可选

🟡 **小团队**(< 5 人)
- 可能用处不大
- 但 $17/月 的成本也很低

🟡 **初创公司**
- AWS 使用还不多
- 但扩展性强,可以逐步添加工具

---

## 🔑 核心创新点

### 1. Agent 工具发现(Tool Auto-Discovery)

传统 Agent:

  • 启动时需要知道所有工具
  • 新工具需要重新部署 Agent

TechBot 方式:

  • 通过 AgentCore Gateway 动态发现工具
  • 新工具自动可用
  • 无需重新部署

### 2. 知识库分离
  • Global Knowledge(AWS 全球服务)
  • China Knowledge(AWS 中国服务)

这是关键,因为:

  • AWS China 和全球服务不完全相同
  • 定价也不同
  • Agent 需要知道差异

### 3. 实时定价查询

不是静态的定价表 而是实时查询 AWS 定价 API 确保价格总是最新的


### 4. 多轮对话记忆

支持多轮对话上下文记忆 例如:

  • 用户:「我想在新加坡部署」
  • TechBot:「新加坡可用 EC2、RDS…」
  • 用户:「m5.xlarge 多少钱?」
  • TechBot 记得前文说的是新加坡(无需重复)

---

## 🚀 部署步骤(详细版)

### 准备工作(5 分钟)

1. 打开 [飞书开放平台](https://open.feishu.cn/app)
2. 创建企业自建应用
3. 复制 App ID 和 App Secret
4. 启用「机器人」能力
5. 配置权限(消息接收、卡片操作等)

### 部署(10 分钟)

1. 打开 AWS CloudFormation(建议美西 Oregon 区域)
2. 点击快速创建按钮
3. 填入参数:
   - Model ID: `GLM-5` (推荐)
   - Enable Memory: `true`
   - Memory Expiry: `30` 天
   - Feishu App ID / Secret / Token
4. 确认 IAM 权限
5. 点击 Create Stack
6. 等待 5 分钟(状态变为 CREATE_COMPLETE)

### 完成飞书配置(5 分钟)

1. 从 CloudFormation Outputs 复制 FeishuEventSubscriptionUrl
2. 在飞书开放平台配置事件订阅
3. 添加 `im.message.receive_v1` 事件
4. 发布应用
5. 把机器人添加到群聊

### 测试(2 分钟)

在飞书群里发: 「@TechBot S3 跨区域复制怎么配置」

等待回复


---

## 💡 实际应用场景示例

### 场景 1:架构师快速成本估算

架构师需要对比两个方案的月度成本:

  • 方案 A:自建 Kubernetes
  • 方案 B:用 EKS

传统方式:

  1. 查 EC2 定价(新加坡)→ 10 分钟
  2. 查 EKS 定价(新加坡)→ 10 分钟
  3. 查 S3 定价(新加坡)→ 5 分钟
  4. 计算和比较 → 10 分钟 总计:35 分钟

用 TechBot: 「对比新加坡区的 self-hosted k8s 和 EKS 的月度成本」

TechBot:

  • 立即列出两种方案的成本
  • 给出 10 个最佳实践对比
  • 包括运维复杂度

总计:2 分钟


### 场景 2:新人快速上手

新入职工程师需要部署 RDS MySQL

传统方式:

  1. 查官方文档 → 20 分钟(英文很冗长)
  2. 问资深同事 → 5 分钟
  3. 开始配置 → 20 分钟

用 TechBot: 「如何在新加坡部署 RDS MySQL,要求自动备份」

TechBot:

  • 分步骤指导(UI 和 CLI 两种)
  • 给出配置参数
  • 包括安全最佳实践
  • 包括备份恢复步骤

新人可以直接执行:5 分钟


### 场景 3:运维快速故障排查

Lambda 函数突然超时,需要排查

传统方式:

  1. 查错误码 → 10 分钟
  2. 搜索最常见原因 → 10 分钟
  3. 逐一检查 → 20 分钟

用 TechBot: 「Lambda 超时了,怎么快速排查」

TechBot:

  • 列出 5 个最常见原因
  • 对应的检查步骤
  • 相关的配额限制
  • 参考的文档链接

运维可以有针对性地排查:10 分钟


---

## 📈 实际 ROI 计算

### 假设
  • 团队 10 人
  • 每人每周问 5 个 AWS 相关问题
  • 平均每个问题的人工时间成本:30 分钟(查资料 + 讨论)
  • 小时工资:$50

### 月度节省

问题总数:10 人 × 5 题/周 × 4 周 = 200 题

传统方式:

  • 200 题 × 30 分钟 = 100 小时
  • 100 小时 × $50 = $5,000/月

用 TechBot:

  • 200 题 × 5 分钟 = 17 小时
  • 17 小时 × $50 = $850/月
  • AI 成本 = $17/月

节省:

  • 人工成本节省:$5,000 - $850 = $4,150/月
  • AI 成本增加:$17/月
  • 净节省:$4,133/月

ROI:4,133 / 17 = 243 倍


---

## 🔐 安全和合规

### AWS 的责任

✅ 云基础设施安全 ✅ 数据中心安全 ✅ Bedrock API 安全


### 你的责任

✅ IAM 权限管理 ✅ API Gateway 认证 ✅ 飞书应用权限 ✅ 数据合规


项目包含详细的安全指南。

---

## 🎯 总结

| 指标 | 说明 |
|------|------|
| **部署难度** | ⭐ 超简单(CloudFormation) |
| **学习成本** | ⭐ 几乎没有(用自然语言提问) |
| **月度成本** | ⭐ $17 超便宜 |
| **带来的价值** | ⭐⭐⭐⭐⭐ 巨大(节省 $4,000+ 人工成本) |
| **可扩展性** | ⭐⭐⭐⭐⭐ 强(Gateway 自动发现) |
| **企业适用** | ⭐⭐⭐⭐⭐ 极强(AWS 用户必备) |

---

## 🚀 立即开始

1. 去 GitHub 克隆项目:`github.com/aws-samples/sample-aws-techbot`
2. 按照 README 准备飞书应用(5 分钟)
3. 点击 CloudFormation 快速创建(3 分钟)
4. 填入参数并部署(5 分钟)
5. 完成飞书配置(5 分钟)
6. 在群里 @TechBot 开始提问(0 分钟)

**总共不到 20 分钟,你就能为团队节省数千美元的年度成本。**

---

**如果你的团队用 AWS,这个工具绝对值得试。**

成本 $17/月,效果 $4,000+/月。

这个 ROI,你找不到第二个。