· 更新于

GPT-5.5 把模型竞争推向执行型工作

OpenAI 的 GPT-5.5 发布说明,前沿模型正在被长任务执行、工具使用、成本和安全路由共同评估,而不只是比智力分数。

GPT-5.5 把模型竞争推向执行型工作
图 / OpenAI

概述

GPT-5.5 不只是又一张分数表。OpenAI 把它定位成一个面向执行型工作的模型:跨大型系统写代码、使用工具、在线研究、分析数据、生成文档和表格、操作软件、检查自己的工作,并在含糊不清的任务里坚持往前推。真正变了的,是它不再主要被当成一个回答问题的模型,而是被塞进 ChatGPT 和 Codex,作为一层能承担工作的执行能力。

这会改变建设者评估前沿模型的方式。问题不再只是”它比上一代更聪明吗”,而该换成:我能把哪类任务安全地交给它,它需要多少上下文和工具权限,它一直跑下去成本怎么走,我又怎么确认它真的做完了。GPT-5.5 释放的信号是,前沿竞争正从孤立的推理,转向长时间、依赖工具、可被验证的执行。

社区反应也印证了这一点。HN 和 Reddit 的讨论很快从分数转到发布时间、接口可用性、Codex 限制、网络安全防护、输出 token 价格。这些问题问得对。对执行型工作而言,模型的价值和它的可用性、成本控制、安全路由、以及那套把 token 变成完成任务的外壳,是分不开的。

发生了什么

OpenAI 在 2026 年 4 月 23 日发布 GPT-5.5。官方称它是当时最聪明、最直觉的模型,在自主编码、计算机操作、知识工作和早期科学研究上有明显提升。模型开始向 ChatGPT 和 Codex 的 Plus、Pro、Business、Enterprise 用户推送,GPT-5.5 Pro 面向更高层级的 ChatGPT 用户,接口则在附加安全要求下随后开放。

发布列出了 Terminal-Bench 2.0、GDPval、OSWorld-Verified、BrowseComp、CyberGym、FrontierMath,以及遗传学和生物信息学工作流等多项结果。OpenAI 还强调效率:处理更难任务时仍能保持 GPT-5.4 的单 token 延迟,并在 Codex 任务上用更少的 token。

但更有信息量的是用例,不是那张分数表。OpenAI 描述了内部团队和早期用户怎样用 GPT-5.5 处理复杂的代码库变更、表格密集的财务工作、业务周报、演讲邀约的风险分流、研究分析、数学可视化和基础设施优化。这些例子有个共同模式:模型不是给出一个答案,而是在一条工作流里持续移动。

社区反馈也很实际。有人关心它什么时候出现在 ChatGPT、Codex 或接口里;也有人盯着更高的 token 成本、速率限制、以及合法的网络安全工作会不会被安全策略路由或限制。这些才是一个前沿 Agent 模型真正的发布面。

为何重要

GPT-5.5 的分量,在于它把”把活干完”放到了发布的正中心。GPT-4 时代,市场学会问的是模型能不能回答问题、写代码片段、解推理题。进入 Codex 和 ChatGPT 的 Agent 时代,模型必须在时间中工作:读懂含糊的任务,规划路径,挑选工具,检查输出,调整方法,最后留下一个别人敢信的成果。

这已经是另一个产品类别了。一个模型在基准上高出 5%,要是昂贵、脆弱、或者根本不在用户干活的地方可用,价值就很有限;另一个模型在表格里没那么抢眼,但只要更便宜、更稳、装在对的工具里、更容易盯,反而可能更顶用。GPT-5.5 推着市场把能力当成一种系统属性来看。

这次发布还透露出一件事:模型实验室正在用自己的 Agent 改造基础设施。OpenAI 说 Codex 和 GPT-5.5 帮着优化了服务系统,包括流量分片和负载均衡策略。如果属实,这层递归很要紧——模型不再只是被基础设施伺候的产品,也成了改造那套伺候自己的基础设施的工具。

对建设者,这意味着未来的优势会落到能闭环的团队手里:把模型行为、产品遥测、评测和部署连成一圈。单个模型不是产品,这个闭环才是。

技术要点

落到技术上,自主模型的质量至少要从几个方向一起量,而不是只看一个总分。一看持续性:它会不会在含糊任务里轻易停下,或者过早宣布成功。二看工具落地的验证:它检不检查真实输出,比如测试、文件、表格、浏览器状态、日志或源文档。还要看每个已完成任务的成本——算的是整次运行,而不是单价;以及安全路由——安全层在什么时候会悄悄改变用户实际拿到的模型或行为。

GPT-5.5 最核心的主张恰好压在这些方向上。OpenAI 说它更能跨系统保持上下文、读懂含糊的失败、用工具核对假设、把一处改动贯穿整个代码库。这些行为,才是生产环境里的 Agent 真正吃紧的地方。

风险在于,这些质量很难单靠发布材料证实。基准有帮助,但建设者得用私有评测重放自己的任务。代码库 Agent 要拿真实的改动和会失败的测试去测;财务 Agent 要拿乱糟糟的工作簿和来源核对去测;研究 Agent 要拿有歧义的数据去测,而不是只测干净的公开题目。否则,“自主”就只剩一个宽泛的营销词。

对建设者的影响

建设者该把 GPT-5.5 当成升级评测外壳的理由,而不是直接升级产品话术。如果产品里有类似 Codex 的长时间工作流,就补上任务级指标:完成率、人工纠正了几次、工具出错后能否恢复、测试通过率、token 花费、耗时,以及那份最终报告和真实成果对不对得上。

成本得是一等的产品设计。围绕 GPT-5.5 的反馈说明,用户会注意到能力提升是不是伴着更紧的用量或更高的开销。Agent 产品应该在任务开跑前就亮出预算、投入度和停止条件,也该允许用户用低成本档位重跑,或者只把失败的那一步往上升级。

这次发布还提醒建设者分清”生成”和”运营”。GPT-5.5 能生成代码、表格、报告、研究成果,但产品仍然需要权限、版本、来源、回滚、审批、审计日志。模型越自主,这些看着乏味的控制就越值钱。

如果你做的是前沿模型的封装产品,差异化必须挪向工作流所有权。光说”用 GPT-5.5 把活干完”会很脆。真正立得住的,是吃透一个窄领域,能用领域规则去校验输出,并在对的节点把工作交回给人。

对研究者的影响

对研究者,GPT-5.5 说明评测要测过程,而不只是最终答案。很多能力主张说的都是随时间展开的行为:规划、工具使用、上下文保持、自检、持续推进。静态基准只能抓住其中一部分。

科学和专业工作的例子还带来一个验证问题。如果模型写出了有用的分析报告,或者发现了一条数学证明,关键在于过程里哪些部分被独立核查过。OpenAI 对某个数学结果提到了形式化验证,这是对的方向。类似标准也该进入生物医学分析、金融工作流和安全工作。

网络安全能力是另一个研究的压力点。OpenAI 一边把 GPT-5.5 描述成对防守有用的模型,一边部署了更强的防护。难的研究问题不是简单地允许还是拒绝,而是怎么提供有用的防御能力、识别授权信号、防止滥用,并保留足够透明度,让专业用户明白系统为什么改变了行为。

社区信号

HN 和 Reddit 的反应显示用户已经相当成熟。他们问接口什么时候开、Codex 能不能用、用量上限、价格、模型路由、网络安全限制,也问基准上的提升能不能在自己的私有任务上复现。这正是一个严肃市场该问的。

最有用的信号是:模型发布如今就是服务发布。用户不是抽象地体验 GPT-5.5,而是透过 ChatGPT、Codex、命令行版本、速率限制、订阅、安全分类器、工具集成去体验它。任何一层出问题,哪怕底层权重更强,用户感受到的也是产品变差了。

所以建设者该认真看抱怨。关于限制的抱怨,可能暴露的是成本结构;关于拒绝的抱怨,可能暴露的是策略摩擦;关于推送时间的抱怨,可能暴露的是依赖风险。这些不是情绪噪声,而是产品信号。

该忽略什么

别信 GPT-5.5 本身就让 Agent 可靠到能无人值守。它也许是更强的模型,但可靠性仍然取决于任务边界、工具权限、评测、审批和验证。一个更能坚持的 Agent,要是缺了停止条件,也会更坚定地朝错误方向走下去。

别只盯着基准比较、却把成本和外壳撇在一边。执行型工作正确的计量单位是”每个已完成且已验证的任务带来多少价值”。一个模型多完成 10% 的任务,却花费暴涨,未必更划算。

最后,别把防护当成发布稿外的政策脚注。在安全、生物和企业工作流里,防护会塑造产品真实的行为。建设者必须在自己会实际触发的策略下,去测自己真正拿到的那个模型,而不是测发布稿里的那个。

来源

  1. Introducing GPT-5.5 / official
  2. GPT-5.5 discussion on Hacker News / hn
  3. Introducing GPT-5.5 discussion on Reddit / reddit