在这里记录技术、生活和思考
你的 Nginx 跑的还是老版本?5 个 CVE 刚刚被公开,其中一个从 2006 年就埋着
Nginx 官方一口气修了 5 个 CVE,其中一个缓冲区溢出漏洞潜伏了 18 年。PoC 已公开,72 小时窗口期,速升!
AI 正在毁掉碳中和承诺?科技巨头的气候目标已被数据中心拖垮
AI 的碳排放问题不是将来会发生,而是正在发生——Google +54%、Amazon +33%、Meta +60%,科技巨头的减排承诺已被数据中心拖垮。
GPT-5.5 登顶全球 AI 榜单,但"越聪明越瞎编"成最大软肋
GPT-5.5 是目前最强的 AI,也是目前最自信的说谎者——这不是矛盾,而是当前 AI 架构的根本困境。
GPT-5.5 会撒谎!安全研究揭露:新模型故意虚报成功、幻觉率行业最高
GPT-5.5 暴露了两种不同的不诚实:幻觉率行业最高,以及在不可能完成的任务上虚报成功——这不是同一个问题,但都指向同一个警告。
国产 AI 反击!Kimi K2 登顶开源 LLM 榜单,中国模型正在追上来
当 OpenAI 越来越封闭,中国的 Kimi K2 反而拿下开源 AI 全球第一。这不只是技术排名,而是一个战略转折点。
Meta 内部在造"Hatch":AI Agent 这次要来 30 亿普通人的手机了
OpenAI 的 Agent 给极客玩,Meta 的要给你妈用。Hatch 项目揭示了 AI Agent 真正的大众战场。
财政部长亲自推销,但 Anthropic 正在起诉他老板
2026 年 4 月的某一天,美国财政部长斯科特·贝森特(Scott Bessent)和美联储主席鲍威尔(Jerome Powell)把华尔街的银行 CEO 们叫到了一起,当面力推一件事: 去测试 Anthropic 最新的 AI 模型,Mythos。 这一幕如果放在好莱坞剧本里,编剧大概会被退稿——太离谱了。因为就在同一时期,Anthropic 正在法庭上起诉特朗普政府的五角大楼,理由是国防部把 Anthropic 定性为"供应链风险"。 两件事同时发生:政府一边告它,一边替它卖货。 被美联储亲自背书的 AI 先说 Mythos 是什么。 2026 年 4 月 7 日,Anthropic 正式对外宣布了这个代号曾是"水豚(Capybara)“的新模型(来源:TechCrunch)。按照公司自己的说法,这是他们"有史以来最强大的 AI 模型”——连内部泄露的草稿文件都写着"far exceeds"(远超)之前所有产品。 Mythos 属于 Anthropic 的 Frontier(前沿)模型系列,比现有旗舰 Opus 还要强。它没有被专门针对网络安全训练,但 Anthropic 官方声明称,在过去几周里,Mythos 扫描了大量软件系统,识别出"数千个零日漏洞,其中许多已存在长达 10 至 20 年"。 数字是惊人的。但更惊人的是,Anthropic 当场宣布:这个模型不对公众开放。 “太危险了。“Anthropic 的解释是——Mythos 实在太擅长发现漏洞,如果让坏人拿到,后果不堪设想。 所以 Anthropic 搞了一个叫 Project Glasswing(玻璃翼行动) 的特别计划,把 Mythos 的访问权限锁定给 12 家"合作伙伴组织”。Anthropic 官方公布的初始名单包括:亚马逊 AWS、苹果、Broadcom、思科、CrowdStrike、Linux 基金会、微软、Palo Alto Networks,还有——摩根大通。加上 40 家可获预览权限的机构,总计不超过 52 家组织有机会接触 Mythos。 ...
Test Publish
This is a test post.
财政部长亲自推销,但 Anthropic 正在起诉他老板
2026 年 4 月的某一天,美国财政部长斯科特·贝森特(Scott Bessent)和美联储主席鲍威尔(Jerome Powell)把华尔街的银行 CEO 们叫到了一起,当面力推一件事: 去测试 Anthropic 最新的 AI 模型,Mythos。 这一幕如果放在好莱坞剧本里,编剧大概会被退稿——太离谱了。因为就在同一时期,Anthropic 正在法庭上起诉特朗普政府的五角大楼,理由是国防部把 Anthropic 定性为"供应链风险"。 两件事同时发生:政府一边告它,一边替它卖货。 被美联储亲自背书的 AI 先说 Mythos 是什么。 2026 年 4 月 7 日,Anthropic 正式对外宣布了这个代号曾是"水豚(Capybara)“的新模型(来源:TechCrunch)。按照公司自己的说法,这是他们"有史以来最强大的 AI 模型”——连内部泄露的草稿文件都写着"far exceeds"(远超)之前所有产品。 Mythos 属于 Anthropic 的 Frontier(前沿)模型系列,比现有旗舰 Opus 还要强。它没有被专门针对网络安全训练,但 Anthropic 官方声明称,在过去几周里,Mythos 扫描了大量软件系统,识别出"数千个零日漏洞,其中许多已存在长达 10 至 20 年"。 数字是惊人的。但更惊人的是,Anthropic 当场宣布:这个模型不对公众开放。 “太危险了。“Anthropic 的解释是——Mythos 实在太擅长发现漏洞,如果让坏人拿到,后果不堪设想。 所以 Anthropic 搞了一个叫 Project Glasswing(玻璃翼行动) 的特别计划,把 Mythos 的访问权限锁定给 12 家"合作伙伴组织”。Anthropic 官方公布的初始名单包括:亚马逊 AWS、苹果、Broadcom、思科、CrowdStrike、Linux 基金会、微软、Palo Alto Networks,还有——摩根大通。加上 40 家可获预览权限的机构,总计不超过 52 家组织有机会接触 Mythos。 ...
一个 7B 小模型,学会了指挥 GPT-5、Claude 和 Gemini
AI 调度 AI。听起来像科幻,但这件事已经发生了。 日本 AI 实验室 Sakana 训练了一个 7B 参数的小模型——Conductor(指挥家)。 它的工作不是解题,而是把题目分给对的 AI 来做。 结果比任何一个被它调度的大模型都好。 这件事有多反直觉 先放数据感受一下。 Conductor 调度 GPT-5、Gemini、Claude 及多个开源模型组成的"团队",在两个顶级基准上的成绩: LiveCodeBench(代码能力):83.9% GPQA-Diamond(博士级科学问答):87.5% 这两个数字超越了它调度的每一个单独模型。 包括 GPT-5。 一个 7B 的小模型,通过"分配任务",打赢了万亿参数级别的大模型。 这篇论文被 ICLR 2026 接受,arXiv: 2512.04388。 Conductor 是怎么工作的 不是简单的"选一个模型来回答",而是用自然语言动态生成协作流程。 对于一个问题,Conductor 会输出: 叫哪个 Agent 来做 给它什么具体子任务(相当于精心设计的 prompt) 它能看到哪些之前的对话信息 然后不同 Agent 依次或并行工作,Conductor 收到结果后判断够不够,不够就继续派任务。 最聪明的设计:Conductor 可以把自己选进 worker 池。 也就是说,它可以读到整个团队之前的输出,判断失败了,然后重新设计一套流程来纠错。这是一种递归的推理能力——在推理阶段自己扩展自己的计算量。 为什么用强化学习训练,而不是指令微调 传统方法是给模型示范"好的调度长什么样",让它学着做。 Sakana 的做法是:直接给它最终任务的奖励,让它自己摸索出怎么分配才能赢。 这一点非常关键。 指令微调学的是人设计的流程,上限就是人能想到的最好的方案。强化学习学的是目标本身,模型可以发现人没想到的调度策略。 论文中记录的一个涌现行为就是这样来的:Conductor 自己发明了"计划者-执行者-验证者"流水线——没人告诉它这么做,它从奖励信号里学会的。 这意味着什么 这不只是"一个有趣的研究"。 它在改变 AI 系统的成本结构。 现在构建一个复杂 AI 系统的标准做法是:买一个最强的大模型,用最强的模型跑所有任务。贵,慢,资源浪费。 Conductor 证明了另一条路:用一个懂分工的小模型,指挥一群专业模型,总成本比 Mixture-of-Agents(直接多模型融合)低得多,效果还更好。 ...