开源大模型将在 2026 年 12 月追上闭源？数据说的不是一件事

有人做了一个分析，结论吓了所有人一跳：

开源大模型将在 2026 年 12 月 3 日追上闭源模型。

这个预测来自 Doubleword 团队，他们分析了 Artificial Analysis 的模型能力指数数据，画了一条趋势线，线性外推之后，开闭源差距交叉点落在了今年 12 月 3 日。

这篇文章在 HN 上冲到了 97 分、82 条评论。

但作者自己在文章里加了一句话：“也许开源末日不会这么快到来。”

这才是这篇文章真正有意思的地方。

Doubleword 用的是 Artificial Analysis Intelligence Index——一个综合多个任务的能力评分。

在这个单一指标上，开源模型确实在快速追近：差距从 2024 年初的十几个月，收窄到现在的一两个月。线性外推，12 月就追平了。

但他们没有止步于这个结论。他们跑了 Artificial Analysis 提供的全部 18 个基准测试，对每一个都做了同样的分析。

结果完全不同：

换句话说：“开源追上闭源"这个故事，主要发生在写代码这件事上。

其他能力——推理、数学、科学、通用理解——开源还差得远。

这不是偶然。

Coding 任务有一个天然优势：可以自动化生成训练数据。

代码执行对不对，运行一下就知道。这让 AI 实验室可以用强化学习大规模生成高质量 coding 训练数据，不需要人工标注。DeepSeek、GLM、Qwen 这些开源模型，都在这条路上走得很猛。

相比之下，“帮我写一篇分析"对不对，没有自动化的标准答案。开放性推理、写作、判断类任务，训练数据质量很难用自动化规模化生产——这是闭源模型目前还能守住差距的地方。

如果你是开发者，这个趋势非常直接：coding 任务上用开源模型，现在已经越来越是理性选择。

开源模型在 coding 和 agentic 任务上已经跻身第一梯队，与顶级闭源模型差距极小，但价格通常低得多。

如果你的应用场景主要是写代码、做代码审查、生成测试用例——开源方向值得认真评估。

但如果你需要的是复杂推理、创意写作、跨领域判断——现在还不是开源能完全替代的地方。

说实话，可能什么都不会发生。

线性外推是很脆弱的预测工具。模型能力的提升不是匀速的，一个突破性的闭源发布就能把趋势线拉开。

Doubleword 自己的结论是：不同的测量方式，会给你截然相反的答案。 如果你只看 coding，开源已经快追上了；如果你看全部能力，差距稳定在 5 个月，而且这个数字贯穿了整个 2024-2026 年。

两个结论，都有数据支撑。你信哪个，取决于你更在意哪件事。

这就是为什么 AI 进展的讨论总是那么混乱——大家拿着同一份数据，说着完全不同的故事。

来源：blog.doubleword.ai/frontier-os-llm 数据来源：Artificial Analysis Intelligence Index