有人做了一个分析,结论吓了所有人一跳:
开源大模型将在 2026 年 12 月 3 日追上闭源模型。
这个预测来自 Doubleword 团队,他们分析了 Artificial Analysis 的模型能力指数数据,画了一条趋势线,线性外推之后,开闭源差距交叉点落在了今年 12 月 3 日。
这篇文章在 HN 上冲到了 97 分、82 条评论。
但作者自己在文章里加了一句话:“也许开源末日不会这么快到来。”
这才是这篇文章真正有意思的地方。
一个指标说是,十八个指标说不是
Doubleword 用的是 Artificial Analysis Intelligence Index——一个综合多个任务的能力评分。
在这个单一指标上,开源模型确实在快速追近:差距从 2024 年初的十几个月,收窄到现在的一两个月。线性外推,12 月就追平了。
但他们没有止步于这个结论。他们跑了 Artificial Analysis 提供的全部 18 个基准测试,对每一个都做了同样的分析。
结果完全不同:
- 大部分基准:开闭源差距大约稳定在 5 个月,没有明显收窄趋势
- coding 类基准:差距从 15 个月急速收窄到 1-2 个月(这是主指标被拉低的主因)
- 非 coding 类:差距没有缩小,部分甚至在扩大
换句话说:“开源追上闭源"这个故事,主要发生在写代码这件事上。
其他能力——推理、数学、科学、通用理解——开源还差得远。
为什么 coding 先追上
这不是偶然。
Coding 任务有一个天然优势:可以自动化生成训练数据。
代码执行对不对,运行一下就知道。这让 AI 实验室可以用强化学习大规模生成高质量 coding 训练数据,不需要人工标注。DeepSeek、GLM、Qwen 这些开源模型,都在这条路上走得很猛。
相比之下,“帮我写一篇分析"对不对,没有自动化的标准答案。开放性推理、写作、判断类任务,训练数据质量很难用自动化规模化生产——这是闭源模型目前还能守住差距的地方。
这对你意味着什么
如果你是开发者,这个趋势非常直接:coding 任务上用开源模型,现在已经越来越是理性选择。
开源模型在 coding 和 agentic 任务上已经跻身第一梯队,与顶级闭源模型差距极小,但价格通常低得多。
如果你的应用场景主要是写代码、做代码审查、生成测试用例——开源方向值得认真评估。
但如果你需要的是复杂推理、创意写作、跨领域判断——现在还不是开源能完全替代的地方。
12 月 3 日会发生什么
说实话,可能什么都不会发生。
线性外推是很脆弱的预测工具。模型能力的提升不是匀速的,一个突破性的闭源发布就能把趋势线拉开。
Doubleword 自己的结论是:不同的测量方式,会给你截然相反的答案。 如果你只看 coding,开源已经快追上了;如果你看全部能力,差距稳定在 5 个月,而且这个数字贯穿了整个 2024-2026 年。
两个结论,都有数据支撑。你信哪个,取决于你更在意哪件事。
这就是为什么 AI 进展的讨论总是那么混乱——大家拿着同一份数据,说着完全不同的故事。
来源:blog.doubleword.ai/frontier-os-llm 数据来源:Artificial Analysis Intelligence Index