Google 做了一件有点反直觉的事。

Gemini 2.5 Flash 是一个推理模型,但它把"思考"做成了可以关掉的开关。


思考预算:你决定模型想多少

Gemini 2.5 Flash 引入了"思考预算(thinking budget)“机制:

  • 设为 0:关闭思考,纯速度模式,响应极快
  • 设为 1-24,576 token:开启思考,根据任务复杂度分配推理深度
  • 动态模式:模型自动判断是否需要思考,简单问题直接答,复杂问题先想再答

这个设计背后的逻辑是:不是所有任务都需要推理,让用户自己决定值不值得花这个时间和钱。


为什么这是个大事

过去的推理模型是"要么全开要么不用”——o1 每次回答都要慢慢想,不管你问的是"1+1等于几"还是"帮我证明黎曼猜想"。

Gemini 2.5 Flash 把推理变成了细粒度可控的资源:

简单问题 → 关掉思考 → 快如闪电,成本趋近于普通模型 复杂问题 → 开启思考 → 该花的算力一点不省

对开发者来说,这意味着可以在同一个应用里,对不同类型的请求动态调整推理深度——既不浪费算力,也不牺牲质量。


速度与质量

Gemini 2.5 Flash 的速度与 2.0 Flash 相当,在 LMArena Hard Prompts 榜单上排名第二(仅次于 Gemini 2.5 Pro)——以 Flash 级别的速度和成本,跑出了接近旗舰模型的质量表现。


一句话

推理模型终于有了油门踏板——你决定踩多深。


发布时间:2025 年 4 月 适用:Gemini API、Google AI Studio、Vertex AI