Google 做了一件有点反直觉的事。
Gemini 2.5 Flash 是一个推理模型,但它把"思考"做成了可以关掉的开关。
思考预算:你决定模型想多少
Gemini 2.5 Flash 引入了"思考预算(thinking budget)“机制:
- 设为 0:关闭思考,纯速度模式,响应极快
- 设为 1-24,576 token:开启思考,根据任务复杂度分配推理深度
- 动态模式:模型自动判断是否需要思考,简单问题直接答,复杂问题先想再答
这个设计背后的逻辑是:不是所有任务都需要推理,让用户自己决定值不值得花这个时间和钱。
为什么这是个大事
过去的推理模型是"要么全开要么不用”——o1 每次回答都要慢慢想,不管你问的是"1+1等于几"还是"帮我证明黎曼猜想"。
Gemini 2.5 Flash 把推理变成了细粒度可控的资源:
简单问题 → 关掉思考 → 快如闪电,成本趋近于普通模型 复杂问题 → 开启思考 → 该花的算力一点不省
对开发者来说,这意味着可以在同一个应用里,对不同类型的请求动态调整推理深度——既不浪费算力,也不牺牲质量。
速度与质量
Gemini 2.5 Flash 的速度与 2.0 Flash 相当,在 LMArena Hard Prompts 榜单上排名第二(仅次于 Gemini 2.5 Pro)——以 Flash 级别的速度和成本,跑出了接近旗舰模型的质量表现。
一句话
推理模型终于有了油门踏板——你决定踩多深。
发布时间:2025 年 4 月 适用:Gemini API、Google AI Studio、Vertex AI