Google Gemini 2.5 Flash 发布：最快推理模型，思考可关可开

Google 做了一件有点反直觉的事。

Gemini 2.5 Flash 是一个推理模型，但它把"思考"做成了可以关掉的开关。

Gemini 2.5 Flash 引入了"思考预算（thinking budget）“机制：

这个设计背后的逻辑是：不是所有任务都需要推理，让用户自己决定值不值得花这个时间和钱。

过去的推理模型是"要么全开要么不用”——o1 每次回答都要慢慢想，不管你问的是"1+1等于几"还是"帮我证明黎曼猜想"。

Gemini 2.5 Flash 把推理变成了细粒度可控的资源：

简单问题 → 关掉思考 → 快如闪电，成本趋近于普通模型复杂问题 → 开启思考 → 该花的算力一点不省

对开发者来说，这意味着可以在同一个应用里，对不同类型的请求动态调整推理深度——既不浪费算力，也不牺牲质量。

Gemini 2.5 Flash 的速度与 2.0 Flash 相当，在 LMArena Hard Prompts 榜单上排名第二（仅次于 Gemini 2.5 Pro）——以 Flash 级别的速度和成本，跑出了接近旗舰模型的质量表现。

推理模型终于有了油门踏板——你决定踩多深。

发布时间：2025 年 4 月 适用：Gemini API、Google AI Studio、Vertex AI