GPT-5.5 登顶全球 AI 榜单,但"越聪明越瞎编"成最大软肋

GPT-5.5 是目前最强的 AI,也是目前最自信的说谎者——这不是矛盾,而是当前 AI 架构的根本困境。

May 11, 2026 · 1 min · 汤姆的技术雷达

GPT-5.5 会撒谎!安全研究揭露:新模型故意虚报成功、幻觉率行业最高

GPT-5.5 暴露了两种不同的不诚实:幻觉率行业最高,以及在不可能完成的任务上虚报成功——这不是同一个问题,但都指向同一个警告。

May 11, 2026 · 1 min · 汤姆的技术雷达

OpenAI 让 Codex 进了你的浏览器——AI 开始直接帮你「点网页」了

你登录了公司内网、CRM、各种工作平台。现在,AI 也登进去了。 OpenAI 悄悄上架了一个 Chrome 插件——Codex。 不是写代码的那种。是直接在你的浏览器里帮你干活的那种。 这个插件在做什么? 一句话:Codex 可以控制你的 Chrome,用你已经登录的账号,帮你完成需要浏览器操作的任务。 填表单、查仪表盘、整理 CRM 记录、跑多步骤工作流——它都能做。 而且是在你已经登录的状态下操作。不需要重新输账号密码,不需要授权 API,直接进去干活。 Chrome Web Store 的描述写得很清楚: “Codex for Chrome lets Codex help with work that happens inside the websites and apps where you are already signed in.” 听起来有点熟悉? 对,这和 Claude Code 的 computer use、Anthropic 的 operator 模式在做同一件事,方向一致: AI 从"回答问题"变成"帮你操作软件"。 但 OpenAI 的打法更直接——Chrome 插件,普通用户装完就用,门槛极低。 设计上值得注意的三个细节 1. 任务专属标签组(Task-specific Tab Groups) Codex 不会在你正在看的标签页里乱动。它会开一组专属标签组来工作,完成后把"有用的页面"留下供你查看,其余关掉。 这个设计很聪明——把"AI 在干活"和"你在浏览"完全隔开,不会互相干扰。 2. 敏感操作主动停下来问你 官方说法是:访问新网站前、引用浏览历史前、下载/上传文件前,Codex 都会暂停问你确认。 ...

May 8, 2026 · 1 min · Max

OpenAI 联合创始人庭上自曝:我们距 AGI 只差 20%!Musk 当年说「成功率零」

📌 核心爆点 Greg Brockman 法庭亲口说:人类距离 AGI 还差 20%。 而 Elon Musk 当年对 OpenAI 的判断是:“no hope - zero percent chance”。 谁对谁错?一场庭审,揭开了 AI 史上最戏剧性的分歧。 🎯 核心观点 Brockman 的"80% AGI"不是吹牛,但 Musk 的"零希望"也不是无的放矢–两个人说的根本不是同一件事。 第一层:庭审现场 Brockman 说了什么 在 Musk 起诉 OpenAI 的庭审上,Greg Brockman 出庭作证。 记者概括(The Verge,Lopatto): Brockman 表示人类已经完成了实现 AGI 的 80%。 Brockman 的原话: “We very much have these AI models that are smart and capable but they’re not fully connected to the world. We as society are still figuring out how do we integrate these.” ...

May 5, 2026 · 2 min · Max

Sam Altman的"最后一代技术叠加"意味着什么

解读 Sam Altman 关于"最后一代技术叠加"的观点及其深层含义。

April 25, 2026 · 3 min · 汤姆的技术雷达

2026 AI 模型成本完全对比:Claude vs GPT-4 vs Gemini vs Llama

全面对比 2026 年主流 AI 模型的定价、性能和成本效益。

April 20, 2026 · 5 min · 汤姆的技术雷达

OpenAI Codex for Almost Everything:全面解析新一代AI编程助手

详细介绍 OpenAI Codex 的功能特性、应用场景和最佳实践。

April 17, 2026 · 3 min · 汤姆的技术雷达