深度分析 | Liuji's Blog

财政部长亲自推销，但 Anthropic 正在起诉他老板

2026 年 4 月的某一天，美国财政部长斯科特·贝森特（Scott Bessent）和美联储主席鲍威尔（Jerome Powell）把华尔街的银行 CEO 们叫到了一起，当面力推一件事：去测试 Anthropic 最新的 AI 模型，Mythos。这一幕如果放在好莱坞剧本里，编剧大概会被退稿——太离谱了。因为就在同一时期，Anthropic 正在法庭上起诉特朗普政府的五角大楼，理由是国防部把 Anthropic 定性为"供应链风险"。两件事同时发生：政府一边告它，一边替它卖货。被美联储亲自背书的 AI 先说 Mythos 是什么。 2026 年 4 月 7 日，Anthropic 正式对外宣布了这个代号曾是"水豚（Capybara）“的新模型（来源：TechCrunch）。按照公司自己的说法，这是他们"有史以来最强大的 AI 模型”——连内部泄露的草稿文件都写着"far exceeds"（远超）之前所有产品。 Mythos 属于 Anthropic 的 Frontier（前沿）模型系列，比现有旗舰 Opus 还要强。它没有被专门针对网络安全训练，但 Anthropic 官方声明称，在过去几周里，Mythos 扫描了大量软件系统，识别出"数千个零日漏洞，其中许多已存在长达 10 至 20 年"。数字是惊人的。但更惊人的是，Anthropic 当场宣布：这个模型不对公众开放。 “太危险了。“Anthropic 的解释是——Mythos 实在太擅长发现漏洞，如果让坏人拿到，后果不堪设想。所以 Anthropic 搞了一个叫 Project Glasswing（玻璃翼行动）的特别计划，把 Mythos 的访问权限锁定给 12 家"合作伙伴组织”。Anthropic 官方公布的初始名单包括：亚马逊 AWS、苹果、Broadcom、思科、CrowdStrike、Linux 基金会、微软、Palo Alto Networks，还有——摩根大通。加上 40 家可获预览权限的机构，总计不超过 52 家组织有机会接触 Mythos。 ...

一个 7B 小模型，学会了指挥 GPT-5、Claude 和 Gemini

AI 调度 AI。听起来像科幻，但这件事已经发生了。日本 AI 实验室 Sakana 训练了一个 7B 参数的小模型——Conductor（指挥家）。它的工作不是解题，而是把题目分给对的 AI 来做。结果比任何一个被它调度的大模型都好。这件事有多反直觉先放数据感受一下。 Conductor 调度 GPT-5、Gemini、Claude 及多个开源模型组成的"团队"，在两个顶级基准上的成绩： LiveCodeBench（代码能力）：83.9% GPQA-Diamond（博士级科学问答）：87.5% 这两个数字超越了它调度的每一个单独模型。包括 GPT-5。一个 7B 的小模型，通过"分配任务"，打赢了万亿参数级别的大模型。这篇论文被 ICLR 2026 接受，arXiv: 2512.04388。 Conductor 是怎么工作的不是简单的"选一个模型来回答"，而是用自然语言动态生成协作流程。对于一个问题，Conductor 会输出：叫哪个 Agent 来做给它什么具体子任务（相当于精心设计的 prompt）它能看到哪些之前的对话信息然后不同 Agent 依次或并行工作，Conductor 收到结果后判断够不够，不够就继续派任务。最聪明的设计：Conductor 可以把自己选进 worker 池。也就是说，它可以读到整个团队之前的输出，判断失败了，然后重新设计一套流程来纠错。这是一种递归的推理能力——在推理阶段自己扩展自己的计算量。为什么用强化学习训练，而不是指令微调传统方法是给模型示范"好的调度长什么样"，让它学着做。 Sakana 的做法是：直接给它最终任务的奖励，让它自己摸索出怎么分配才能赢。这一点非常关键。指令微调学的是人设计的流程，上限就是人能想到的最好的方案。强化学习学的是目标本身，模型可以发现人没想到的调度策略。论文中记录的一个涌现行为就是这样来的：Conductor 自己发明了"计划者-执行者-验证者"流水线——没人告诉它这么做，它从奖励信号里学会的。这意味着什么这不只是"一个有趣的研究"。它在改变 AI 系统的成本结构。现在构建一个复杂 AI 系统的标准做法是：买一个最强的大模型，用最强的模型跑所有任务。贵，慢，资源浪费。 Conductor 证明了另一条路：用一个懂分工的小模型，指挥一群专业模型，总成本比 Mixture-of-Agents（直接多模型融合）低得多，效果还更好。 ...

连最严肃的程序员也开始 Vibe Coding 了——这意味着什么？

有个人写了一篇博文，让整个程序员圈炸锅了。不是什么争议性的大佬，不是无脑炒作 AI 的布道师。是 Simon Willison——开源框架 Django 的共同创建者，用了 25 年写代码的老工程师，一直是那种最强调「AI 不能替代你对代码的责任感」的人。他在文章里承认了一件让自己"很不舒服"的事：他开始在生产环境的代码里，不再认真看 AI 写的每一行了。在他过去的定义里，这叫 Vibe Coding——那种不负责任的、交给 AI 乱搞的编程方式。但现在，连他自己也开始这么做了。 Vibe Coding 和 Agent 工程，原来有边界先回到 15 个月前。 2025 年 2 月，前 OpenAI 大将 Andrej Karpathy 发了一条推文，造了个词：Vibe Coding。他说他写代码的方式变了——完全跟着感觉走，让 AI 生成代码，自己根本不看 diff，遇到报错就直接把错误信息粘贴给 AI，让它自己修。「代码已经超出了我平时能理解的范围，但如果跑起来了，管它呢。」 Karpathy 很坦诚：这种方式适合周末随便玩玩的项目，不适合正式产品。一个月后，Simon Willison 专门写文章划清界限： Vibe Coding 不等于 AI 辅助编程。真正负责任的工程师用 AI，是「我不会提交任何我没办法解释给别人听的代码」。你用 AI 生成，但你要审阅、测试、理解。这叫 Agentic Engineering（Agent 工程），跟 Vibe Coding 是两码事。这个分法很清晰，圈里很多人认同。然后，他发现界限消失了 2026 年 5 月 6 日，Simon 在 Heavybit 的播客里说了一段话，后来写进了博客，直接冲上了 HN 热榜（574 分，618 条评论）： ...

OpenAI 联合创始人庭上自曝：我们距 AGI 只差 20%！Musk 当年说「成功率零」

📌 核心爆点 Greg Brockman 法庭亲口说:人类距离 AGI 还差 20%。而 Elon Musk 当年对 OpenAI 的判断是:“no hope - zero percent chance”。谁对谁错?一场庭审,揭开了 AI 史上最戏剧性的分歧。 🎯 核心观点 Brockman 的"80% AGI"不是吹牛,但 Musk 的"零希望"也不是无的放矢–两个人说的根本不是同一件事。第一层:庭审现场 Brockman 说了什么在 Musk 起诉 OpenAI 的庭审上,Greg Brockman 出庭作证。记者概括(The Verge,Lopatto): Brockman 表示人类已经完成了实现 AGI 的 80%。 Brockman 的原话: “We very much have these AI models that are smart and capable but they’re not fully connected to the world. We as society are still figuring out how do we integrate these.” ...