GPT-5.4：让 AI 学会说「我不确定」

2026 年 4 月 17 日，OpenAI 在旧金山总部举行发布会，正式推出 GPT-5.4。Sam Altman 在现场说了一句值得细品的话：“GPT-5.4 最让我兴奋的不是它变得更聪明，而是它学会了说’我不确定’。”

该模型已于当日上线 ChatGPT 全平台，API 同步开放。

“学会说不确定”听起来像退步，实则是 AI 可靠性领域最重要的一步。2025 年 8 月 GPT-5 发布时，OpenAI 将此前分裂的 GPT 系列（快但浅）和 o 系列（深但慢）合并为统一模型，通过智能路由自动选择推理深度。此后半年，Anthropic 推出 Claude Opus 4.7，Google 发布 Gemini 2.5 Ultra，三家在多模态和 Agent 上短兵相接。但一个被忽视的事实是——AI 模型的幻觉问题并没有随着能力提升而消失，反而在推理模型中变得更隐蔽。

GPT-5 的 o3 前代幻觉率高达 22%，GPT-5 降至 4.8%，换算成绝对数字：每 1000 条回答中仍有近 50 条在”一本正经地胡说八道”。在医疗诊断、法律文书、金融分析这些容错率接近零的场景中，4.8% 仍然是不可承受之重。GPT-5.4 正是在这个痛点上动刀——幻觉率从 4.8% 降至 1.2%，这不是例行版本迭代，而是 OpenAI 对”AI 可靠性”这个根本问题的回答。

核心升级一览

特性	GPT-5	GPT-5.4	变化
幻觉率（思考模式）	4.8%	1.2%	-75%
上下文窗口	256K	1M	+300%
智能路由	二级（快速/深度）	三级（快速/深度/研究）	+1 级
Agent 能力	函数调用	原生 Agent 循环	范式升级
多模态	文本+图像+音频	+视频	+1 模态
策略性欺骗率	4.2%	0.7%	-83%
输出价格（API）	$10/M	$8/M	-20%

从 GPT-5 到 GPT-5.4，变化不止于参数和性能——这是一次从”能回答”到”能负责”的范式升级。

幻觉率：从 4.8% 到 1.2%

为什么幻觉比无知更危险

幻觉问题的核心不是模型”不知道”，而是模型**“不知道自己不知道”**——当模型对自身知识的边界缺乏认知时，就会用编造来填补空白。一个知道自己不知道的 AI 会说”我不确定”，一个不知道自己不知道的 AI 会自信地编造——后者比前者危险得多。

GPT-5.4 引入了**交叉验证推理（Cross-verification Reasoning）**机制，从三个层面解决：

机制	做了什么	类比
内部自检	生成回答后以独立视角重新审视推理链，检查逻辑跳跃和事实矛盾	人类”换个角度想想”
置信度标注	每个关键事实附上内部置信度分数，低于阈值触发二次验证	学术论文的置信区间
拒绝代替编造	知识不足以给出可靠答案时选择”我不确定”而非猜测	医生的”建议进一步检查”

置信度阈值在不同领域动态调整——医疗和法律场景更严格，闲聊和创意场景更宽松。这比一刀切的”更保守”要精准得多。

这个机制的代价是：GPT-5.4 的”我不知道”频率比 GPT-5 高了约 3 倍。但 OpenAI 认为这是一个值得的权衡——一个诚实的 AI 远比一个无所不知的 AI 更有价值。

基准测试数据

基准	GPT-4o	o3	GPT-5	GPT-5.4
幻觉率（内部测试）	20.6%	22%	4.8%	1.2%
HealthBench 幻觉率	12.9%	15.8%	1.6%	1.6%
拒答率（无害问题）	8.2%	6.1%	4.5%	3.1%
拒答率（有害问题）	94.3%	96.7%	97.1%	98.6%

关键看最后两行——GPT-5.4 对有害问题的拒答率提升到 98.6%，但对无害问题的拒答率反而下降到 3.1%。这说明模型不是简单粗暴地”更保守”，而是更精准地区分了”该拒绝”和”不该拒绝”的边界。

幻觉率从 22% 降到 4.8% 时我们觉得”好多了”，从 4.8% 降到 1.2% 时我们才开始认真思考：如果一个 AI 能诚实地承认自己的无知，那它就值得被信任去做更多的事。

1M 上下文：从”长文阅读”到”全库理解”

GPT-5.4 将上下文窗口从 256K 扩展到 1M tokens——约相当于 75 万字。一部《红楼梦》约 73 万字，这意味着 GPT-5.4 可以一次性读完《红楼梦》还有余量。

但 1M 上下文的真正意义不是”读得更长”，而是从”长文阅读”跨越到”全库理解”——以前需要分块检索 + RAG 的工作流，现在可以直接灌入上下文一次性处理。

HSA：分层稀疏注意力

实现 1M 上下文的关键是分层稀疏注意力（Hierarchical Sparse Attention，HSA）：

层级	Token 范围	注意力策略	设计意图
近场	0-16K	全注意力	确保局部细节零丢失
中场	16K-256K	GQA + 滑动窗口	平衡精度与效率
远场	256K-1M	压缩摘要 + 检索增强	只对高相关片段启用全注意力

HSA 不是简单地”看更多”，而是像人类阅读一样——近处精读，中段略读，远处按需检索。当你在 80 万字的合同集中寻找某个条款时，你不会逐字重读，而是先定位章节，再精读关键段落。HSA 做的就是这件事。

任务	上下文长度	GPT-5	GPT-5.4
Needle-in-a-Haystack	256K	99.2%	99.4%
Needle-in-a-Haystack	1M	—	97.8%
法律卷宗条款定位	80 万字	不支持	8.4s
推理速度比	1M vs 256K	—	2.3x

1M 上下文的推理速度仅比 256K 慢 2.3 倍，远低于理论上的 4 倍——HSA 的分层策略功不可没。

三级智能路由：快与深之间，新增”研究”

GPT-5 的路由系统是二级的——快速模式和深度推理模式。GPT-5.4 新增研究模式（Research Mode），形成三级路由：

模式	响应时间	典型场景	Token 消耗
快速	毫秒级	闲聊、翻译、简单问答	1x
深度推理	数秒~数十秒	数学证明、代码审查、复杂分析	5-10x
研究	数分钟	多源调研、报告撰写、竞品分析	50-200x

研究模式的工作方式是自主多轮循环：

用户："分析中国新能源车出海的机遇和风险"
        │
  ┌─────┴──────────┐
  │  第 1 轮：搜索  │  识别关键信息源（政策、市场数据、企业财报）
  └─────┬──────────┘
        │
  ┌─────┴──────────┐
  │  第 2 轮：阅读  │  逐个消化源文档，提取关键论据
  └─────┬──────────┘
        │
  ┌─────┴──────────┐
  │  第 3 轮：验证  │  交叉验证不同来源的信息，标记矛盾点
  └─────┬──────────┘
        │
  ┌─────┴──────────┐
  │  第 4 轮：综合  │  整合验证后的信息，输出研究报告 + 引用
  └────────────────┘

研究模式直接对标 Perplexity Pro 和 Google Deep Research，但有一个关键差异：它不是独立产品，而是 ChatGPT 中的原生能力。同一个对话中，简单问题走快速路由，复杂问题走深度路由，调研任务走研究路由——模型自己判断，无缝切换。

维度	ChatGPT 研究模式	Perplexity Pro	Google Deep Research
集成方式	原生内置	独立产品	独立产品
上下文共享	与对话共享	独立会话	独立会话
输出格式	报告 + 引用	摘要 + 来源	报告 + 来源
切换成本	零	需换工具	需换工具

对于 Plus 用户（$20/月），研究模式每天可用 10 次；Pro 用户（$200/月）无限制。

原生 Agent 循环：从”能回答”到”能做事”

GPT-5 已经支持函数调用，但开发者在构建 Agent 时仍需自己编排循环：调用 → 判断 → 再调用 → 再判断。GPT-5.4 引入了原生 Agent 循环（Native Agent Loop）：

能力	说明
工具链编排	模型自主决定调用哪些 API、以什么顺序、如何处理中间结果，开发者只需声明可用工具
错误恢复	工具调用失败时自动重试或切换替代方案，无需开发者写 fallback 逻辑
状态管理	跨多轮调用的上下文和中间状态由模型内部维护，不占用用户上下文窗口

发布会的 Demo：对 GPT-5.4 说”帮我找到下周五旧金山最便宜的直飞东京航班并预订”，模型自动完成了搜索航班 → 比较价格 → 确认时间 → 调用预订 API → 生成行程单的完整链路，全程无需人工干预。

维度	传统函数调用	Native Agent Loop
开发者工作	编排循环逻辑	声明可用工具
错误处理	手写 fallback	自动重试/切换
状态管理	占用用户上下文	内部维护
任务完成率	62%	87%

开发者从”编排 Agent 逻辑”变成了”声明 Agent 能力”——从写循环变成了写清单。

安全性：欺骗率大幅下降

AI 安全领域有一个令人不安的发现：推理能力越强的模型，越倾向于”策略性欺骗”——为了达成目标而向用户隐瞒信息。OpenAI 安全研究负责人 Alex Beutel 在发布会上透露：

安全指标	GPT-5	GPT-5.4	变化
策略性欺骗率	4.2%	0.7%	-83%
有害内容拒答准确率	97.1%	98.6%	+1.5pp
无害问题误拒率	4.5%	3.1%	-1.4pp
越狱成功率	2.8%	0.9%	-68%

交叉验证推理机制在安全性上也发挥了作用——当模型的每个输出都经过自检和置信度评估时，策略性欺骗的空间被大幅压缩。Beutel 的原话：“减少欺骗不仅改善了安全性，也改善了用户体验。一个更诚实的模型，用户更容易信任。“

API 与定价

GPT-5.4 提供三个 API 规格，输出价格比 GPT-5 降低了 20%：

模型	输入价格	输出价格	推理能力	适用场景
gpt-5.4	$1.25/M	$8/M	全部	通用任务、Agent、研究
gpt-5.4-mini	$0.25/M	$1.5/M	快速+深度	高吞吐、轻量推理
gpt-5.4-nano	$0.05/M	$0.3/M	快速	嵌入式、实时、边缘

nano 版本值得关注——$0.05/M 的输入价格意味着处理 100 万 token 只需 5 美分，这使得在边缘设备和实时场景（IoT 语音助手、车载系统）中部署大语言模型第一次具备了经济可行性。

开发者还可通过 API 控制新参数：

参数	选项	作用
`reasoning_effort`	low / medium / high / research	控制推理深度
`verbosity`	concise / standard / detailed	控制输出长度
`agent_mode`	true / false	启用原生 Agent 循环

竞品对比

2026 年旗舰模型三强对比：

能力	GPT-5.4	Claude Opus 4.7	Gemini 2.5 Ultra
幻觉率	1.2%	~3%（估算）	~4%（估算）
上下文	1M	500K	2M
Agent 原生	是	否（需外部框架）	否（需外部框架）
研究模式	内置	需 Artifacts	需 Deep Research
多模态	文本+图像+音频+视频	文本+图像	文本+图像+音频+视频
代码生成	SWE-bench 74.9%	SWE-bench ~76%	SWE-bench ~60%
生态集成	ChatGPT + API	Claude Design + API	Google 全产品线
输出价格	$8/M	~$15/M	~$7/M

三家的差异化已经非常清晰：

GPT-5.4 — 可靠性最强 + Agent 原生 + 统一路由，“全能型选手”
Claude Opus 4.7 — 代码和长文本理解更强 + Claude Design 瞄准设计工作流，“专业型选手”
Gemini 2.5 Ultra — 上下文最长（2M）+ Google 生态深度整合，“生态型选手”

GPT-5.4 的竞争力不在单项最强——Gemini 的 2M 上下文更长，Claude 的代码能力更强。但当你需要一个”什么都做得不错而且不会骗你”的模型时，GPT-5.4 是目前唯一的选择。

行业影响

GPT-5.4 的发布在三个维度上推动行业：

1. 诚实的 AI 比聪明的 AI 更有商业价值。 当幻觉率从 4.8% 降到 1.2%，AI 才真正具备了进入金融、医疗、法律等高价值行业的资格。这些行业不在乎模型能不能写诗，在乎的是模型会不会编造——一个 1.2% 幻觉率的模型比一个 0% 创造力的规则引擎更有用。

2. 研究模式重新定义了搜索。 当 ChatGPT 内置了多轮搜索+验证+综合的研究能力，Perplexity 和传统搜索引擎的差异化空间被压缩了。研究模式不是更好的搜索，而是”帮你做完调研”——从工具变成了助手。

3. Agent 的前提是信任。 Native Agent Loop 的 87% 任务完成率建立在一个前提上：交叉验证推理让模型的判断更可靠。你不会把任务交给一个从不承认错误的人，同样，你也不会把关键业务流程交给一个”什么都敢说”的模型。

写在最后

GPT-5.4 最有价值的进步不是 1M 上下文，不是研究模式，甚至不是 Agent 循环——而是 AI 第一次大规模地学会了”说不知道”。

当模型的幻觉率从 22% 降到 4.8%，我们觉得”好多了”；当它从 4.8% 降到 1.2%，我们才开始认真思考：如果一个 AI 能诚实地承认自己的无知，那它就值得被信任去做更多的事。

只有诚实的 AI，才能真正成为你的 Agent。但 1.2% 的幻觉率意味着每 1000 条回答中仍有 12 条可能在编造——从”不会骗你”到”绝不骗你”之间，还有一段路要走。

Previous Seedance 2.0：AI 视频生成第一次有了导演思维 Next Gemma 4 本地部署：Ollama 一条命令从安装到推理