一个 7B 小模型，学会了指挥 GPT-5、Claude 和 Gemini

AI 调度 AI。听起来像科幻，但这件事已经发生了。

日本 AI 实验室 Sakana 训练了一个 7B 参数的小模型——Conductor（指挥家）。

它的工作不是解题，而是把题目分给对的 AI 来做。

结果比任何一个被它调度的大模型都好。

这件事有多反直觉

先放数据感受一下。

Conductor 调度 GPT-5、Gemini、Claude 及多个开源模型组成的"团队"，在两个顶级基准上的成绩：

LiveCodeBench（代码能力）：83.9%
GPQA-Diamond（博士级科学问答）：87.5%

这两个数字超越了它调度的每一个单独模型。

包括 GPT-5。

一个 7B 的小模型，通过"分配任务"，打赢了万亿参数级别的大模型。

这篇论文被 ICLR 2026 接受，arXiv: 2512.04388。

Conductor 是怎么工作的

不是简单的"选一个模型来回答"，而是用自然语言动态生成协作流程。

对于一个问题，Conductor 会输出：

叫哪个 Agent 来做
给它什么具体子任务（相当于精心设计的 prompt）
它能看到哪些之前的对话信息

然后不同 Agent 依次或并行工作，Conductor 收到结果后判断够不够，不够就继续派任务。

最聪明的设计：Conductor 可以把自己选进 worker 池。

也就是说，它可以读到整个团队之前的输出，判断失败了，然后重新设计一套流程来纠错。这是一种递归的推理能力——在推理阶段自己扩展自己的计算量。

为什么用强化学习训练，而不是指令微调

传统方法是给模型示范"好的调度长什么样"，让它学着做。

Sakana 的做法是：直接给它最终任务的奖励，让它自己摸索出怎么分配才能赢。

这一点非常关键。

指令微调学的是人设计的流程，上限就是人能想到的最好的方案。强化学习学的是目标本身，模型可以发现人没想到的调度策略。

论文中记录的一个涌现行为就是这样来的：Conductor 自己发明了"计划者-执行者-验证者"流水线——没人告诉它这么做，它从奖励信号里学会的。

这意味着什么

这不只是"一个有趣的研究"。

它在改变 AI 系统的成本结构。

现在构建一个复杂 AI 系统的标准做法是：买一个最强的大模型，用最强的模型跑所有任务。贵，慢，资源浪费。

Conductor 证明了另一条路：用一个懂分工的小模型，指挥一群专业模型，总成本比 Mixture-of-Agents（直接多模型融合）低得多，效果还更好。

类比：你雇一个优秀的项目经理，让他统筹一个专家团队——比你直接让最贵的顾问做所有事情便宜，也更快。

Sakana 的下一步

这个研究直接支撑了 Sakana 的产品化系统 Sakana Fugu——基于这套多 Agent 框架的商业产品。

日本 AI 实验室，靠研究功底在大模型时代找到了自己的切入点——不卷参数规模，卷调度智能。

一句话总结

大模型时代，真正稀缺的可能不是"更大的模型"，而是"更会用模型的模型"。

Conductor 是一个证明：7B 的指挥，可以让万亿参数的团队发挥出超过任何人的水平。

这条路刚开始。

研究论文：arxiv.org/abs/2512.04388 | Sakana AI，2026年4月

这件事有多反直觉#

Conductor 是怎么工作的#

为什么用强化学习训练，而不是指令微调#

这意味着什么#

Sakana 的下一步#

一句话总结#