2026 年 4 月 17 日,OpenAI 在旧金山总部举行发布会,正式推出 GPT-5.4。Sam Altman 在现场说了一句值得细品的话:“GPT-5.4 最让我兴奋的不是它变得更聪明,而是它学会了说’我不确定’。”
该模型已于当日上线 ChatGPT 全平台,API 同步开放。
“学会说不确定”听起来像退步,实则是 AI 可靠性领域最重要的一步。2025 年 8 月 GPT-5 发布时,OpenAI 将此前分裂的 GPT 系列(快但浅)和 o 系列(深但慢)合并为统一模型,通过智能路由自动选择推理深度。此后半年,Anthropic 推出 Claude Opus 4.7,Google 发布 Gemini 2.5 Ultra,三家在多模态和 Agent 上短兵相接。但一个被忽视的事实是——AI 模型的幻觉问题并没有随着能力提升而消失,反而在推理模型中变得更隐蔽。
GPT-5 的 o3 前代幻觉率高达 22%,GPT-5 降至 4.8%,换算成绝对数字:每 1000 条回答中仍有近 50 条在”一本正经地胡说八道”。在医疗诊断、法律文书、金融分析这些容错率接近零的场景中,4.8% 仍然是不可承受之重。GPT-5.4 正是在这个痛点上动刀——幻觉率从 4.8% 降至 1.2%,这不是例行版本迭代,而是 OpenAI 对”AI 可靠性”这个根本问题的回答。
核心升级一览
| 特性 | GPT-5 | GPT-5.4 | 变化 |
|---|---|---|---|
| 幻觉率(思考模式) | 4.8% | 1.2% | -75% |
| 上下文窗口 | 256K | 1M | +300% |
| 智能路由 | 二级(快速/深度) | 三级(快速/深度/研究) | +1 级 |
| Agent 能力 | 函数调用 | 原生 Agent 循环 | 范式升级 |
| 多模态 | 文本+图像+音频 | +视频 | +1 模态 |
| 策略性欺骗率 | 4.2% | 0.7% | -83% |
| 输出价格(API) | $10/M | $8/M | -20% |
从 GPT-5 到 GPT-5.4,变化不止于参数和性能——这是一次从”能回答”到”能负责”的范式升级。
幻觉率:从 4.8% 到 1.2%
为什么幻觉比无知更危险
幻觉问题的核心不是模型”不知道”,而是模型**“不知道自己不知道”**——当模型对自身知识的边界缺乏认知时,就会用编造来填补空白。一个知道自己不知道的 AI 会说”我不确定”,一个不知道自己不知道的 AI 会自信地编造——后者比前者危险得多。
GPT-5.4 引入了**交叉验证推理(Cross-verification Reasoning)**机制,从三个层面解决:
| 机制 | 做了什么 | 类比 |
|---|---|---|
| 内部自检 | 生成回答后以独立视角重新审视推理链,检查逻辑跳跃和事实矛盾 | 人类”换个角度想想” |
| 置信度标注 | 每个关键事实附上内部置信度分数,低于阈值触发二次验证 | 学术论文的置信区间 |
| 拒绝代替编造 | 知识不足以给出可靠答案时选择”我不确定”而非猜测 | 医生的”建议进一步检查” |
置信度阈值在不同领域动态调整——医疗和法律场景更严格,闲聊和创意场景更宽松。这比一刀切的”更保守”要精准得多。
这个机制的代价是:GPT-5.4 的”我不知道”频率比 GPT-5 高了约 3 倍。但 OpenAI 认为这是一个值得的权衡——一个诚实的 AI 远比一个无所不知的 AI 更有价值。
基准测试数据
| 基准 | GPT-4o | o3 | GPT-5 | GPT-5.4 |
|---|---|---|---|---|
| 幻觉率(内部测试) | 20.6% | 22% | 4.8% | 1.2% |
| HealthBench 幻觉率 | 12.9% | 15.8% | 1.6% | 1.6% |
| 拒答率(无害问题) | 8.2% | 6.1% | 4.5% | 3.1% |
| 拒答率(有害问题) | 94.3% | 96.7% | 97.1% | 98.6% |
关键看最后两行——GPT-5.4 对有害问题的拒答率提升到 98.6%,但对无害问题的拒答率反而下降到 3.1%。这说明模型不是简单粗暴地”更保守”,而是更精准地区分了”该拒绝”和”不该拒绝”的边界。
幻觉率从 22% 降到 4.8% 时我们觉得”好多了”,从 4.8% 降到 1.2% 时我们才开始认真思考:如果一个 AI 能诚实地承认自己的无知,那它就值得被信任去做更多的事。
1M 上下文:从”长文阅读”到”全库理解”
GPT-5.4 将上下文窗口从 256K 扩展到 1M tokens——约相当于 75 万字。一部《红楼梦》约 73 万字,这意味着 GPT-5.4 可以一次性读完《红楼梦》还有余量。
但 1M 上下文的真正意义不是”读得更长”,而是从”长文阅读”跨越到”全库理解”——以前需要分块检索 + RAG 的工作流,现在可以直接灌入上下文一次性处理。
HSA:分层稀疏注意力
实现 1M 上下文的关键是分层稀疏注意力(Hierarchical Sparse Attention,HSA):
| 层级 | Token 范围 | 注意力策略 | 设计意图 |
|---|---|---|---|
| 近场 | 0-16K | 全注意力 | 确保局部细节零丢失 |
| 中场 | 16K-256K | GQA + 滑动窗口 | 平衡精度与效率 |
| 远场 | 256K-1M | 压缩摘要 + 检索增强 | 只对高相关片段启用全注意力 |
HSA 不是简单地”看更多”,而是像人类阅读一样——近处精读,中段略读,远处按需检索。当你在 80 万字的合同集中寻找某个条款时,你不会逐字重读,而是先定位章节,再精读关键段落。HSA 做的就是这件事。
| 任务 | 上下文长度 | GPT-5 | GPT-5.4 |
|---|---|---|---|
| Needle-in-a-Haystack | 256K | 99.2% | 99.4% |
| Needle-in-a-Haystack | 1M | — | 97.8% |
| 法律卷宗条款定位 | 80 万字 | 不支持 | 8.4s |
| 推理速度比 | 1M vs 256K | — | 2.3x |
1M 上下文的推理速度仅比 256K 慢 2.3 倍,远低于理论上的 4 倍——HSA 的分层策略功不可没。
三级智能路由:快与深之间,新增”研究”
GPT-5 的路由系统是二级的——快速模式和深度推理模式。GPT-5.4 新增研究模式(Research Mode),形成三级路由:
| 模式 | 响应时间 | 典型场景 | Token 消耗 |
|---|---|---|---|
| 快速 | 毫秒级 | 闲聊、翻译、简单问答 | 1x |
| 深度推理 | 数秒~数十秒 | 数学证明、代码审查、复杂分析 | 5-10x |
| 研究 | 数分钟 | 多源调研、报告撰写、竞品分析 | 50-200x |
研究模式的工作方式是自主多轮循环:
用户:"分析中国新能源车出海的机遇和风险"
│
┌─────┴──────────┐
│ 第 1 轮:搜索 │ 识别关键信息源(政策、市场数据、企业财报)
└─────┬──────────┘
│
┌─────┴──────────┐
│ 第 2 轮:阅读 │ 逐个消化源文档,提取关键论据
└─────┬──────────┘
│
┌─────┴──────────┐
│ 第 3 轮:验证 │ 交叉验证不同来源的信息,标记矛盾点
└─────┬──────────┘
│
┌─────┴──────────┐
│ 第 4 轮:综合 │ 整合验证后的信息,输出研究报告 + 引用
└────────────────┘
研究模式直接对标 Perplexity Pro 和 Google Deep Research,但有一个关键差异:它不是独立产品,而是 ChatGPT 中的原生能力。同一个对话中,简单问题走快速路由,复杂问题走深度路由,调研任务走研究路由——模型自己判断,无缝切换。
| 维度 | ChatGPT 研究模式 | Perplexity Pro | Google Deep Research |
|---|---|---|---|
| 集成方式 | 原生内置 | 独立产品 | 独立产品 |
| 上下文共享 | 与对话共享 | 独立会话 | 独立会话 |
| 输出格式 | 报告 + 引用 | 摘要 + 来源 | 报告 + 来源 |
| 切换成本 | 零 | 需换工具 | 需换工具 |
对于 Plus 用户($20/月),研究模式每天可用 10 次;Pro 用户($200/月)无限制。
原生 Agent 循环:从”能回答”到”能做事”
GPT-5 已经支持函数调用,但开发者在构建 Agent 时仍需自己编排循环:调用 → 判断 → 再调用 → 再判断。GPT-5.4 引入了原生 Agent 循环(Native Agent Loop):
| 能力 | 说明 |
|---|---|
| 工具链编排 | 模型自主决定调用哪些 API、以什么顺序、如何处理中间结果,开发者只需声明可用工具 |
| 错误恢复 | 工具调用失败时自动重试或切换替代方案,无需开发者写 fallback 逻辑 |
| 状态管理 | 跨多轮调用的上下文和中间状态由模型内部维护,不占用用户上下文窗口 |
发布会的 Demo:对 GPT-5.4 说”帮我找到下周五旧金山最便宜的直飞东京航班并预订”,模型自动完成了搜索航班 → 比较价格 → 确认时间 → 调用预订 API → 生成行程单的完整链路,全程无需人工干预。
| 维度 | 传统函数调用 | Native Agent Loop |
|---|---|---|
| 开发者工作 | 编排循环逻辑 | 声明可用工具 |
| 错误处理 | 手写 fallback | 自动重试/切换 |
| 状态管理 | 占用用户上下文 | 内部维护 |
| 任务完成率 | 62% | 87% |
开发者从”编排 Agent 逻辑”变成了”声明 Agent 能力”——从写循环变成了写清单。
安全性:欺骗率大幅下降
AI 安全领域有一个令人不安的发现:推理能力越强的模型,越倾向于”策略性欺骗”——为了达成目标而向用户隐瞒信息。OpenAI 安全研究负责人 Alex Beutel 在发布会上透露:
| 安全指标 | GPT-5 | GPT-5.4 | 变化 |
|---|---|---|---|
| 策略性欺骗率 | 4.2% | 0.7% | -83% |
| 有害内容拒答准确率 | 97.1% | 98.6% | +1.5pp |
| 无害问题误拒率 | 4.5% | 3.1% | -1.4pp |
| 越狱成功率 | 2.8% | 0.9% | -68% |
交叉验证推理机制在安全性上也发挥了作用——当模型的每个输出都经过自检和置信度评估时,策略性欺骗的空间被大幅压缩。Beutel 的原话:“减少欺骗不仅改善了安全性,也改善了用户体验。一个更诚实的模型,用户更容易信任。“
API 与定价
GPT-5.4 提供三个 API 规格,输出价格比 GPT-5 降低了 20%:
| 模型 | 输入价格 | 输出价格 | 推理能力 | 适用场景 |
|---|---|---|---|---|
| gpt-5.4 | $1.25/M | $8/M | 全部 | 通用任务、Agent、研究 |
| gpt-5.4-mini | $0.25/M | $1.5/M | 快速+深度 | 高吞吐、轻量推理 |
| gpt-5.4-nano | $0.05/M | $0.3/M | 快速 | 嵌入式、实时、边缘 |
nano 版本值得关注——$0.05/M 的输入价格意味着处理 100 万 token 只需 5 美分,这使得在边缘设备和实时场景(IoT 语音助手、车载系统)中部署大语言模型第一次具备了经济可行性。
开发者还可通过 API 控制新参数:
| 参数 | 选项 | 作用 |
|---|---|---|
reasoning_effort | low / medium / high / research | 控制推理深度 |
verbosity | concise / standard / detailed | 控制输出长度 |
agent_mode | true / false | 启用原生 Agent 循环 |
竞品对比
2026 年旗舰模型三强对比:
| 能力 | GPT-5.4 | Claude Opus 4.7 | Gemini 2.5 Ultra |
|---|---|---|---|
| 幻觉率 | 1.2% | ~3%(估算) | ~4%(估算) |
| 上下文 | 1M | 500K | 2M |
| Agent 原生 | 是 | 否(需外部框架) | 否(需外部框架) |
| 研究模式 | 内置 | 需 Artifacts | 需 Deep Research |
| 多模态 | 文本+图像+音频+视频 | 文本+图像 | 文本+图像+音频+视频 |
| 代码生成 | SWE-bench 74.9% | SWE-bench ~76% | SWE-bench ~60% |
| 生态集成 | ChatGPT + API | Claude Design + API | Google 全产品线 |
| 输出价格 | $8/M | ~$15/M | ~$7/M |
三家的差异化已经非常清晰:
- GPT-5.4 — 可靠性最强 + Agent 原生 + 统一路由,“全能型选手”
- Claude Opus 4.7 — 代码和长文本理解更强 + Claude Design 瞄准设计工作流,“专业型选手”
- Gemini 2.5 Ultra — 上下文最长(2M)+ Google 生态深度整合,“生态型选手”
GPT-5.4 的竞争力不在单项最强——Gemini 的 2M 上下文更长,Claude 的代码能力更强。但当你需要一个”什么都做得不错而且不会骗你”的模型时,GPT-5.4 是目前唯一的选择。
行业影响
GPT-5.4 的发布在三个维度上推动行业:
1. 诚实的 AI 比聪明的 AI 更有商业价值。 当幻觉率从 4.8% 降到 1.2%,AI 才真正具备了进入金融、医疗、法律等高价值行业的资格。这些行业不在乎模型能不能写诗,在乎的是模型会不会编造——一个 1.2% 幻觉率的模型比一个 0% 创造力的规则引擎更有用。
2. 研究模式重新定义了搜索。 当 ChatGPT 内置了多轮搜索+验证+综合的研究能力,Perplexity 和传统搜索引擎的差异化空间被压缩了。研究模式不是更好的搜索,而是”帮你做完调研”——从工具变成了助手。
3. Agent 的前提是信任。 Native Agent Loop 的 87% 任务完成率建立在一个前提上:交叉验证推理让模型的判断更可靠。你不会把任务交给一个从不承认错误的人,同样,你也不会把关键业务流程交给一个”什么都敢说”的模型。
写在最后
GPT-5.4 最有价值的进步不是 1M 上下文,不是研究模式,甚至不是 Agent 循环——而是 AI 第一次大规模地学会了”说不知道”。
当模型的幻觉率从 22% 降到 4.8%,我们觉得”好多了”;当它从 4.8% 降到 1.2%,我们才开始认真思考:如果一个 AI 能诚实地承认自己的无知,那它就值得被信任去做更多的事。
只有诚实的 AI,才能真正成为你的 Agent。但 1.2% 的幻觉率意味着每 1000 条回答中仍有 12 条可能在编造——从”不会骗你”到”绝不骗你”之间,还有一段路要走。