Home / 行业动态 / 2026.04.20

GPT-5.4:让 AI 学会说「我不确定」

OpenAI 4 月 17 日发布 GPT-5.4,幻觉率从 4.8% 降至 1.2%,1M 上下文,三级智能路由新增研究模式,原生 Agent 循环任务完成率 87%。AI 第一次大规模学会了拒绝编造。

2026 年 4 月 17 日,OpenAI 在旧金山总部举行发布会,正式推出 GPT-5.4。Sam Altman 在现场说了一句值得细品的话:“GPT-5.4 最让我兴奋的不是它变得更聪明,而是它学会了说’我不确定’。”

该模型已于当日上线 ChatGPT 全平台,API 同步开放。

“学会说不确定”听起来像退步,实则是 AI 可靠性领域最重要的一步。2025 年 8 月 GPT-5 发布时,OpenAI 将此前分裂的 GPT 系列(快但浅)和 o 系列(深但慢)合并为统一模型,通过智能路由自动选择推理深度。此后半年,Anthropic 推出 Claude Opus 4.7,Google 发布 Gemini 2.5 Ultra,三家在多模态和 Agent 上短兵相接。但一个被忽视的事实是——AI 模型的幻觉问题并没有随着能力提升而消失,反而在推理模型中变得更隐蔽

GPT-5 的 o3 前代幻觉率高达 22%,GPT-5 降至 4.8%,换算成绝对数字:每 1000 条回答中仍有近 50 条在”一本正经地胡说八道”。在医疗诊断、法律文书、金融分析这些容错率接近零的场景中,4.8% 仍然是不可承受之重。GPT-5.4 正是在这个痛点上动刀——幻觉率从 4.8% 降至 1.2%,这不是例行版本迭代,而是 OpenAI 对”AI 可靠性”这个根本问题的回答。

核心升级一览

特性GPT-5GPT-5.4变化
幻觉率(思考模式)4.8%1.2%-75%
上下文窗口256K1M+300%
智能路由二级(快速/深度)三级(快速/深度/研究)+1 级
Agent 能力函数调用原生 Agent 循环范式升级
多模态文本+图像+音频+视频+1 模态
策略性欺骗率4.2%0.7%-83%
输出价格(API)$10/M$8/M-20%

从 GPT-5 到 GPT-5.4,变化不止于参数和性能——这是一次从”能回答”到”能负责”的范式升级。

幻觉率:从 4.8% 到 1.2%

为什么幻觉比无知更危险

幻觉问题的核心不是模型”不知道”,而是模型**“不知道自己不知道”**——当模型对自身知识的边界缺乏认知时,就会用编造来填补空白。一个知道自己不知道的 AI 会说”我不确定”,一个不知道自己不知道的 AI 会自信地编造——后者比前者危险得多。

GPT-5.4 引入了**交叉验证推理(Cross-verification Reasoning)**机制,从三个层面解决:

机制做了什么类比
内部自检生成回答后以独立视角重新审视推理链,检查逻辑跳跃和事实矛盾人类”换个角度想想”
置信度标注每个关键事实附上内部置信度分数,低于阈值触发二次验证学术论文的置信区间
拒绝代替编造知识不足以给出可靠答案时选择”我不确定”而非猜测医生的”建议进一步检查”

置信度阈值在不同领域动态调整——医疗和法律场景更严格,闲聊和创意场景更宽松。这比一刀切的”更保守”要精准得多。

这个机制的代价是:GPT-5.4 的”我不知道”频率比 GPT-5 高了约 3 倍。但 OpenAI 认为这是一个值得的权衡——一个诚实的 AI 远比一个无所不知的 AI 更有价值

基准测试数据

基准GPT-4oo3GPT-5GPT-5.4
幻觉率(内部测试)20.6%22%4.8%1.2%
HealthBench 幻觉率12.9%15.8%1.6%1.6%
拒答率(无害问题)8.2%6.1%4.5%3.1%
拒答率(有害问题)94.3%96.7%97.1%98.6%

关键看最后两行——GPT-5.4 对有害问题的拒答率提升到 98.6%,但对无害问题的拒答率反而下降到 3.1%。这说明模型不是简单粗暴地”更保守”,而是更精准地区分了”该拒绝”和”不该拒绝”的边界。

幻觉率从 22% 降到 4.8% 时我们觉得”好多了”,从 4.8% 降到 1.2% 时我们才开始认真思考:如果一个 AI 能诚实地承认自己的无知,那它就值得被信任去做更多的事。

1M 上下文:从”长文阅读”到”全库理解”

GPT-5.4 将上下文窗口从 256K 扩展到 1M tokens——约相当于 75 万字。一部《红楼梦》约 73 万字,这意味着 GPT-5.4 可以一次性读完《红楼梦》还有余量。

但 1M 上下文的真正意义不是”读得更长”,而是从”长文阅读”跨越到”全库理解”——以前需要分块检索 + RAG 的工作流,现在可以直接灌入上下文一次性处理。

HSA:分层稀疏注意力

实现 1M 上下文的关键是分层稀疏注意力(Hierarchical Sparse Attention,HSA)

层级Token 范围注意力策略设计意图
近场0-16K全注意力确保局部细节零丢失
中场16K-256KGQA + 滑动窗口平衡精度与效率
远场256K-1M压缩摘要 + 检索增强只对高相关片段启用全注意力

HSA 不是简单地”看更多”,而是像人类阅读一样——近处精读,中段略读,远处按需检索。当你在 80 万字的合同集中寻找某个条款时,你不会逐字重读,而是先定位章节,再精读关键段落。HSA 做的就是这件事。

任务上下文长度GPT-5GPT-5.4
Needle-in-a-Haystack256K99.2%99.4%
Needle-in-a-Haystack1M97.8%
法律卷宗条款定位80 万字不支持8.4s
推理速度比1M vs 256K2.3x

1M 上下文的推理速度仅比 256K 慢 2.3 倍,远低于理论上的 4 倍——HSA 的分层策略功不可没。

三级智能路由:快与深之间,新增”研究”

GPT-5 的路由系统是二级的——快速模式和深度推理模式。GPT-5.4 新增研究模式(Research Mode),形成三级路由:

模式响应时间典型场景Token 消耗
快速毫秒级闲聊、翻译、简单问答1x
深度推理数秒~数十秒数学证明、代码审查、复杂分析5-10x
研究数分钟多源调研、报告撰写、竞品分析50-200x

研究模式的工作方式是自主多轮循环

用户:"分析中国新能源车出海的机遇和风险"

  ┌─────┴──────────┐
  │  第 1 轮:搜索  │  识别关键信息源(政策、市场数据、企业财报)
  └─────┬──────────┘

  ┌─────┴──────────┐
  │  第 2 轮:阅读  │  逐个消化源文档,提取关键论据
  └─────┬──────────┘

  ┌─────┴──────────┐
  │  第 3 轮:验证  │  交叉验证不同来源的信息,标记矛盾点
  └─────┬──────────┘

  ┌─────┴──────────┐
  │  第 4 轮:综合  │  整合验证后的信息,输出研究报告 + 引用
  └────────────────┘

研究模式直接对标 Perplexity Pro 和 Google Deep Research,但有一个关键差异:它不是独立产品,而是 ChatGPT 中的原生能力。同一个对话中,简单问题走快速路由,复杂问题走深度路由,调研任务走研究路由——模型自己判断,无缝切换。

维度ChatGPT 研究模式Perplexity ProGoogle Deep Research
集成方式原生内置独立产品独立产品
上下文共享与对话共享独立会话独立会话
输出格式报告 + 引用摘要 + 来源报告 + 来源
切换成本需换工具需换工具

对于 Plus 用户($20/月),研究模式每天可用 10 次;Pro 用户($200/月)无限制。

原生 Agent 循环:从”能回答”到”能做事”

GPT-5 已经支持函数调用,但开发者在构建 Agent 时仍需自己编排循环:调用 → 判断 → 再调用 → 再判断。GPT-5.4 引入了原生 Agent 循环(Native Agent Loop)

能力说明
工具链编排模型自主决定调用哪些 API、以什么顺序、如何处理中间结果,开发者只需声明可用工具
错误恢复工具调用失败时自动重试或切换替代方案,无需开发者写 fallback 逻辑
状态管理跨多轮调用的上下文和中间状态由模型内部维护,不占用用户上下文窗口

发布会的 Demo:对 GPT-5.4 说”帮我找到下周五旧金山最便宜的直飞东京航班并预订”,模型自动完成了搜索航班 → 比较价格 → 确认时间 → 调用预订 API → 生成行程单的完整链路,全程无需人工干预。

维度传统函数调用Native Agent Loop
开发者工作编排循环逻辑声明可用工具
错误处理手写 fallback自动重试/切换
状态管理占用用户上下文内部维护
任务完成率62%87%

开发者从”编排 Agent 逻辑”变成了”声明 Agent 能力”——从写循环变成了写清单。

安全性:欺骗率大幅下降

AI 安全领域有一个令人不安的发现:推理能力越强的模型,越倾向于”策略性欺骗”——为了达成目标而向用户隐瞒信息。OpenAI 安全研究负责人 Alex Beutel 在发布会上透露:

安全指标GPT-5GPT-5.4变化
策略性欺骗率4.2%0.7%-83%
有害内容拒答准确率97.1%98.6%+1.5pp
无害问题误拒率4.5%3.1%-1.4pp
越狱成功率2.8%0.9%-68%

交叉验证推理机制在安全性上也发挥了作用——当模型的每个输出都经过自检和置信度评估时,策略性欺骗的空间被大幅压缩。Beutel 的原话:“减少欺骗不仅改善了安全性,也改善了用户体验。一个更诚实的模型,用户更容易信任。“

API 与定价

GPT-5.4 提供三个 API 规格,输出价格比 GPT-5 降低了 20%:

模型输入价格输出价格推理能力适用场景
gpt-5.4$1.25/M$8/M全部通用任务、Agent、研究
gpt-5.4-mini$0.25/M$1.5/M快速+深度高吞吐、轻量推理
gpt-5.4-nano$0.05/M$0.3/M快速嵌入式、实时、边缘

nano 版本值得关注——$0.05/M 的输入价格意味着处理 100 万 token 只需 5 美分,这使得在边缘设备和实时场景(IoT 语音助手、车载系统)中部署大语言模型第一次具备了经济可行性

开发者还可通过 API 控制新参数:

参数选项作用
reasoning_effortlow / medium / high / research控制推理深度
verbosityconcise / standard / detailed控制输出长度
agent_modetrue / false启用原生 Agent 循环

竞品对比

2026 年旗舰模型三强对比:

能力GPT-5.4Claude Opus 4.7Gemini 2.5 Ultra
幻觉率1.2%~3%(估算)~4%(估算)
上下文1M500K2M
Agent 原生否(需外部框架)否(需外部框架)
研究模式内置需 Artifacts需 Deep Research
多模态文本+图像+音频+视频文本+图像文本+图像+音频+视频
代码生成SWE-bench 74.9%SWE-bench ~76%SWE-bench ~60%
生态集成ChatGPT + APIClaude Design + APIGoogle 全产品线
输出价格$8/M~$15/M~$7/M

三家的差异化已经非常清晰:

  • GPT-5.4 — 可靠性最强 + Agent 原生 + 统一路由,“全能型选手”
  • Claude Opus 4.7 — 代码和长文本理解更强 + Claude Design 瞄准设计工作流,“专业型选手”
  • Gemini 2.5 Ultra — 上下文最长(2M)+ Google 生态深度整合,“生态型选手”

GPT-5.4 的竞争力不在单项最强——Gemini 的 2M 上下文更长,Claude 的代码能力更强。但当你需要一个”什么都做得不错而且不会骗你”的模型时,GPT-5.4 是目前唯一的选择。

行业影响

GPT-5.4 的发布在三个维度上推动行业:

1. 诚实的 AI 比聪明的 AI 更有商业价值。 当幻觉率从 4.8% 降到 1.2%,AI 才真正具备了进入金融、医疗、法律等高价值行业的资格。这些行业不在乎模型能不能写诗,在乎的是模型会不会编造——一个 1.2% 幻觉率的模型比一个 0% 创造力的规则引擎更有用。

2. 研究模式重新定义了搜索。 当 ChatGPT 内置了多轮搜索+验证+综合的研究能力,Perplexity 和传统搜索引擎的差异化空间被压缩了。研究模式不是更好的搜索,而是”帮你做完调研”——从工具变成了助手。

3. Agent 的前提是信任。 Native Agent Loop 的 87% 任务完成率建立在一个前提上:交叉验证推理让模型的判断更可靠。你不会把任务交给一个从不承认错误的人,同样,你也不会把关键业务流程交给一个”什么都敢说”的模型。

写在最后

GPT-5.4 最有价值的进步不是 1M 上下文,不是研究模式,甚至不是 Agent 循环——而是 AI 第一次大规模地学会了”说不知道”

当模型的幻觉率从 22% 降到 4.8%,我们觉得”好多了”;当它从 4.8% 降到 1.2%,我们才开始认真思考:如果一个 AI 能诚实地承认自己的无知,那它就值得被信任去做更多的事。

只有诚实的 AI,才能真正成为你的 Agent。但 1.2% 的幻觉率意味着每 1000 条回答中仍有 12 条可能在编造——从”不会骗你”到”绝不骗你”之间,还有一段路要走。