你的AI Agent在偷偷做什么?安全检测工具实战指南

问题:你的网站准备好让 AI 自动访问吗?

想象一个场景:

你的网站上线了。
明天一个 AI Agent(比如 Claude Code)
直接访问你的网站,自动填表、自动购买、自动下单。

听起来好棒?

但问题是:
- 你的表单验证 Agent 能通过吗?
- 你的动态内容 Agent 能读懂吗?
- 你的安全防护会不会误伤 Agent?
- 你的网站会不会被 Agent 滥用?

这不是假设。这是正在发生的事。

OpenAI、Google、Anthropic 都在推动"AI Agent 访问网站"这个能力。

问题:你的网站准备好了吗?

一个叫 “isitagentready.com” 的工具刚刚发布,可以扫描你的网站,告诉你:这个网站到底有多"Agent-ready"


🎯 核心问题

什么是 “Agent-Ready”?

Agent-Ready 意思是:
你的网站对 AI Agent 足够友好

具体包括:
1. 你的 HTML 结构清晰吗?
   → Agent 能理解你的按钮、表单吗?
   
2. 你的 ARIA 标签完整吗?
   → 屏幕阅读器和 Agent 都需要这个
   
3. 你的 JavaScript 不会 block Agent 吗?
   → 动态加载的内容 Agent 看得到吗?
   
4. 你的网站允许自动化吗?
   → robots.txt 有没有禁止 Agent?
   
5. 你的表单有 CSRF 防护吗?
   → 合法 Agent 会被挡住吗?

为什么这很关键?

现在(2026 年):
- Agent 还只能读取你的网站
- Agent 可以理解内容,但不能修改

未来(2027-2028):
- Agent 需要"写入"权限
- Agent 需要填表单、下单、付款
- 你的网站必须支持这个

做好准备的网站 → 获得 Agent 流量、自动化订单、新的客户来源
没做准备的网站 → Agent 访问失败、客户转向竞争对手

🔧 “是否准备好” 的 5 个维度

1️⃣ HTML 结构清晰度

问题:Agent 能理解你的网站吗?

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
❌ 不好的例子:
<div class="container">
  <div class="item">
    <span>购买</span>
  </div>
</div>

Agent 看到这个:
"这是什么?按钮?链接?我不知道"

✅ 好的例子:
<button class="buy-button" aria-label="购买此商品">
  购买
</button>

Agent 看到这个:
"清晰,这是一个'购买'按钮,我可以点"

得分:

  • 好的语义 HTML(button、form、input)→ 高分
  • 乱七八糟的 div 嵌套 → 低分

2️⃣ ARIA 标签完整性

ARIA = Accessible Rich Internet Applications

简单说:告诉机器这个元素是什么

1
2
3
4
5
6
7
8
9
❌ 不好:
<input type="text">

Agent:这是什么输入框?干啥的?

✅ 好:
<input type="text" aria-label="收货地址" placeholder="请输入收货地址">

Agent:明白了,这是输入"收货地址"的

工具检查:

  • ARIA 标签完整度
  • Alt 文本覆盖率
  • Form 标签关联

3️⃣ 动态内容处理

问题:你的网站是 SPA 吗?JavaScript 很多吗?

情况 A:静态网站(HTML + CSS)
Agent 一次性加载完 → 能看完全部内容

情况 B:单页应用(React、Vue、Angular)
初次加载是空的,JavaScript 动态生成内容
Agent 看到的是:<div id="app"></div>
实际内容没有 → 读不到数据

检查点:

  • 初始 HTML 有没有内容?
  • JavaScript 渲染的内容有没有被 pre-render?
  • 有没有提供 API 给 Agent 直接调用?

4️⃣ Robots.txt 和爬虫政策

问题:你允许自动化访问吗?

robots.txt 是什么?
这个文件告诉爬虫:"你可以来这些地方,但禁止进入那些地方"

❌ 限制太严格:
User-agent: *
Disallow: /

→ 所有爬虫滚开
→ Agent 也滚开
→ 错过 Agent 客户

✅ 合理的策略:
User-agent: *
Disallow: /admin
Disallow: /private

Allow: /products
Allow: /blog

→ 允许 Agent 访问公开内容
→ 保护 admin 和私密数据

5️⃣ 表单安全性和可用性

问题:你的表单 Agent 能填吗?

场景:Agent 需要下订单

❌ 不好的表单:
<input name="x1y2z3">     # 名字乱七八糟
<input type="text">        # 没有 label
[一个神秘的按钮]           # 按钮文字是?

Agent 困惑:我要填什么?怎么提交?

✅ 好的表单:
<form action="/order" method="POST">
  <label for="name">姓名</label>
  <input id="name" name="name" required>
  
  <label for="email">邮箱</label>
  <input id="email" name="email" type="email" required>
  
  <button type="submit">确认下单</button>
</form>

Agent 明白:我需要填"姓名"和"邮箱",然后点"确认下单"

🛠️ isitagentready.com 工具实战

第 1 步:打开工具

https://isitagentready.com

第 2 步:输入你的网站 URL

输入框中粘贴你的网站 URL
点击"Scan"

第 3 步:等待扫描

工具会:
1. 访问你的网站
2. 检查 HTML 结构
3. 扫描 ARIA 标签
4. 检测 JavaScript 渲染
5. 验证 robots.txt
6. 分析表单可用性

第 4 步:查看报告

报告包括:

总体评分:75/100

细项:
✅ HTML 语义化:90/100(很好)
🟡 ARIA 标签:60/100(需要改进)
✅ API 支持:95/100(有 REST API)
❌ robots.txt:30/100(太限制了)
🟡 表单可用性:70/100(可以优化)

建议:
1. 为 100+ 个 img 标签添加 alt 文本
2. 修改 robots.txt,允许 User-agent: GPTBot
3. 为表单字段添加完整的 label 标签

📊 Agent-Ready 评分的含义

评分 >= 80/100:非常准备好

✅ 代表:
- Agent 可以轻松访问你的网站
- 自动化流程会很顺利
- 不会被你的防护挡住
- 应该被列入"Agent-Friendly"网站

例子:
- Google.com
- GitHub.com
- 现代化的电商网站

评分 60-80/100:还可以

🟡 代表:
- Agent 可以访问,但会遇到障碍
- 某些功能 Agent 可能理解不了
- 应该进行一些优化

例子:
- 大多数中等企业网站
- 有些老网站但维护得可以

评分 < 60/100:还没准备好

❌ 代表:
- Agent 访问会很困难
- 很多内容 Agent 看不到
- 错过 Agent 客户
- 需要大量优化

例子:
- 高度定制化的 web app
- 某些老的企业网站
- 有很多 JavaScript 陷阱的网站

🔧 如何优化(快速清单)

最容易做(1-2 小时)

1. ✅ robots.txt 优化
   - 允许 User-agent: GPTBot, Googlebot-Extended
   - 禁止只针对 /admin, /private

2. ✅ 表单标签完善
   - 为每个输入字段添加 <label>
   - 为按钮添加清晰的文字

3. ✅ Alt 文本
   - 为所有图片添加 alt 属性
   - 不要留空

中等难度(4-8 小时)

4. 🟡 ARIA 标签
   - aria-label:为图标按钮添加说明
   - aria-live:动态更新的内容
   - role:明确元素角色

5. 🟡 HTML 语义化
   - 用 <button> 替代 <div class="btn">
   - 用 <nav> 替代 <div class="navbar">
   - 用 <article> 替代 <div class="post">

困难(可能需要开发者)

6. ❌ API 接口
   - 为关键数据提供 REST API
   - Agent 可以直接调用,不用解析 HTML

7. ❌ JavaScript 预渲染
   - 如果是 SPA,提供初始 HTML 内容
   - 或用 Server-Side Rendering (SSR)

💡 为什么这对你很重要?

对电商网站

现在:
- 用户手动访问你的网站
- 用户手动下单

未来(6-12 个月):
- 用户让 Agent 帮他比较价格
- Agent 自动从 5 个网站拉取商品信息
- Agent 帮用户自动下单

你的网站 Agent-Ready?
→ Agent 会选你(自动化下单)

不 Agent-Ready?
→ Agent 去竞争对手网站了(他们 Agent-Ready)

对 SaaS 产品

现在:
- 用户手动登录、填表、操作

未来:
- 企业 Agent 可以直接与 API 互动
- 自动化集成其他工具
- 不需要人工干预

Agent-Ready 意味着:
- 更容易被企业集成
- 自动化流程更多
- 用户粘性更强

📊 真实案例

案例 1:电商网站

网站:某手机壳店铺
原始评分:45/100

问题:
- robots.txt 禁止所有爬虫
- 没有 ARIA 标签
- 产品页面是 JavaScript 动态生成

优化后:
1. 开放 robots.txt(允许 User-agent: *)
2. 添加 ARIA 标签
3. 实现 Server-Side Rendering

新评分:82/100

结果:
- Agent 可以访问
- 无缝集成价格比较工具
- 预期增加 15% 的 Agent 导入流量

案例 2:内容网站

网站:技术博客
原始评分:72/100

问题:
- 图片没有 alt 文本
- 某些代码块没有标记

优化后:
1. 添加所有图片的 alt
2. 用 <code> 和 <pre> 标记代码块

新评分:91/100

结果:
- Agent 可以准确理解你的内容
- 更容易被 AI 引用
- 被列入"高质量信息源"

🚀 立即行动

今天就做的 3 件事

  1. 扫描你的网站

    https://isitagentready.com
    输入你的域名,看看评分
    
  2. 查看报告

    • 找出最容易修复的 3 个问题
    • 记录下来
  3. 修复简单问题

    • robots.txt 优化
    • 表单标签完善
    • 图片 alt 文本

这周做的 3 件事

  • 修复 ARIA 标签
  • HTML 语义化优化
  • 重新扫描看新评分

这月做的

  • 如果评分还 < 80,考虑提供 API
  • 测试 Agent 实际访问你的网站

⚠️ 安全考虑

“我怕 Agent 滥用我的网站”

这是真实的担忧。

可能的滥用:
1. Agent 爬取你的数据
2. Agent 自动下单但不付款
3. Agent 破坏你的 CMS

防护:
1. 速率限制(Rate Limiting)
   - 每 IP 每秒最多 10 请求
   
2. 用户验证
   - 关键操作需要用户授权
   
3. 监控异常行为
   - 大量自动化请求 → 告警

4. robots.txt 精细控制
   - /products 允许爬
   - /admin 禁止爬

📈 预期影响

短期(3-6 个月)

优化前:
- 流量来源:搜索引擎、直接、社交媒体

优化后:
- 多了一个:AI Agent 驱动的流量
- 预期增长:5-15%

长期(6-12 个月)

如果 Agent-Ready 做得好:
- Agent 自动化采购(B2B)
- Agent 自动化订单(B2C)
- Agent 自动化数据提取(内容网站)
- 成为新的增长引擎

🎯 核心总结

Agent-Ready 不是可选项,是必需项。

现在不优化 → 明年被竞争对手甩开

三个关键行动:

  1. 今天就扫描你的网站
  2. 从简单的优化开始(robots.txt、标签)
  3. 持续改进直到评分 >= 80

工具: https://isitagentready.com(完全免费)


下期预告: 我们会深度对比 5 个热门网站的 Agent-Ready 评分,看看谁做得最好,他们用了什么策略。

敬请关注。 🚀