4 月 21 日,OpenAI 发布 ChatGPT Images 2.0。4 月 22 日,所有用户可用。
在 AI 图像的进化史上,这一天会被记住 — 不是因为画得更美了,而是因为 AI 画的图终于能用了。
TechCrunch 做了经典对比:同一个墨西哥餐厅菜单提示词,DALL-E 3 拼错五个菜名 — enchuita、churiros、burrto;Images 2.0 全对,拼写正确、价格格式统一、排版干净,拿去打印就能贴餐厅门口。
这不是”又进步了一点”,这是 AI 图像从”看着酷”变成”真能出活”的分水岭。
核心升级:八项能力质变
Images 2.0 不是在 DALL-E 3 上修修补补,而是一次从”能不能画”到”画出来能不能用”的维度跃迁。
| 能力 | 之前(DALL-E 3) | Images 2.0 | 为什么重要 |
|---|---|---|---|
| 文字渲染(中英日韩) | 大量拼写错误 | 基本零错误 | 海报、菜单、招牌终于能用了 |
| 分辨率 | 1024×1024 | 最高 2K | 打印、投屏不再是短板 |
| 单次生成 | 1 张 | 多张 + 多尺寸 | 一条提示词覆盖全平台 |
| 信息准确性 | 瞎画 | 搜索网页 + 自检 | 涉及真实品牌不再翻车 |
| 多格漫画 | 不支持 | 一条提示词整页 | 连环画、分镜图一键出 |
| 技术图表 | 不支持 | 架构图/流程图/工程手稿 | 程序员终于有用了 |
| 细节一致性 | 手指畸形、结构错乱 | 大幅改善 | Latent Diffusion 算法改进 |
| 长上下文 | 不支持 | 关联多轮对话 | ”把宇航服换成红色” — 只改局部 |
AI 图像的文字渲染经历了三个阶段:
| 阶段 | 特征 | 代表 |
|---|---|---|
| 看着不像字 | 文字是彩色斑块 | Stable Diffusion 早期 |
| 看着像但不能用 | 像文字,拼出来不对 | DALL-E 3 |
| 能用了 | 拼写基本正确,可直接出活 | Images 2.0 |
技术机制:先想再画
为什么 Images 2.0 突然就能写字了?为什么手指不再畸形了?
答案是:它不是纯扩散模型了。
之前的 Diffusion Model 从噪声中重建图像 — 学的是像素模式,不是”字母”和”含义”。文字在一张图里只占极少数像素,模型没动力学拼写。手指出现五根、六根、七根 — 因为它不知道”手有五根手指”这个事实,它只知道”这里有个像手指的像素团”。
Images 2.0 换了个思路:先想再画。 生成前搜索网页确认信息、规划整体布局,生成后自检文字和结构。一条提示词出多张图,它会把全局想清楚再动手。
| 阶段 | 传统扩散模型 | Images 2.0 |
|---|---|---|
| 生成前 | 直接从噪声开始 | 搜索网页确认信息 + 规划布局 |
| 生成中 | 逐像素去噪 | 推测:自回归规划 + 扩散生成 |
| 生成后 | 无 | 自检文字拼写和结构一致性 |
| 多图生成 | 逐张独立 | 全局规划后统一生成 |
OpenAI 拒绝透露底层架构,但业内普遍推测走了自回归 + 扩散的混合路线 — 先用 LLM 的方式”想”出图像的结构和内容,再用扩散模型”画”出像素。就像写文章:先列大纲,再填内容。
“打字就能画出能用的图”的背后,是把图像生成从像素空间搬到了语义空间。用户不需要调参数,只需要描述意图。
生产力的革命:从赛博玩具到出活工具
Images 2.0 重新定义了 AI 图像的使用场景 — 从”看一眼就过”变成”下载下来用”。
| 场景 | 之前 | Images 2.0 | 效率提升 |
|---|---|---|---|
| 广告创意 | 找设计师半小时/版 | 一条提示词秒出多版 | 沟通成本断崖下降 |
| 电商运营 | 小团队分工做图 | 一个人出全尺寸素材 | 产品图/Banner/详情页一条龙 |
| 分镜草图 | 一格一格画再拼 | 多格漫画一次生成 | 叙事连贯性有保障 |
| 技术图表 | 拖 draw.io 手动画 | 自然语言描述即出 | 线条不乱、标注清楚 |
| 装修设计 | 找效果图公司 | 生成北欧风效果图 | 能当装修参考的精度 |
| 个性化教育 | 找近似风格图 | 根据故事内容定制画面 | 童话插画实时匹配 |
这不是”又多了几个功能”,而是使用场景从”灵感参考”扩展到”直接交付”。以前 AI 图像生成是”给我个感觉”,现在是”给我个能用的东西”。
基准数据:文字渲染的代际碾压
Images 2.0 最核心的突破是文字渲染。以下是基于公开测试的对比数据:
| 测试项 | DALL-E 3 | Images 2.0 | 提升 |
|---|---|---|---|
| 英文拼写正确率 | ~60% | ~98% | 从”经常翻车”到”基本零错误” |
| 中文拼写正确率 | ~40% | ~90% | 大幅改善,复杂排版仍有短板 |
| 手指生成准确率 | 频繁多指/少指 | 大幅改善 | Latent Diffusion 算法改进 |
| 单次生成耗时 | 5-10 秒 | 30 秒 - 几分钟 | 速度换质量 |
| 信息准确性(品牌/实体) | 经常幻觉 | 搜索网页确认 | 涉及真实实体不再翻车 |
速度是代价。复杂图(多格漫画、高分辨率营销素材)要几分钟,不再是秒出。急着要图的时候,DALL-E 3 还是更快。
竞品对比
| 维度 | Images 2.0 | Google Nano Banana | SeedReam | Midjourney v7 |
|---|---|---|---|---|
| 文字渲染 | 最强(中英日韩) | 不错 | 中文更强 | 差一截 |
| 画面质量 | 专业级 | 不如 Images 2.0 | 专业级 | 艺术性最强 |
| 信息准确性 | 搜索 + 自检 | 无 | 无 | 无 |
| 技术图表 | ✅ | ❌ | ❌ | ❌ |
| 多格漫画 | ✅ | ❌ | ❌ | 有限 |
| 生态 | ChatGPT 全家桶 | Google 生态 | 字节生态 | 独立社区 |
| 定位 | 全能型选手 | 像素级细节待提升 | 中文场景有优势 | 艺术家首选 |
Images 2.0 的优势不是某一单点比别人强 — 文字对了 + 分辨率够了 + 尺寸有了 + 信息查了 + 图表能画了 — 叠在一起,量变引起质变。
但竞争者在追。Google Nano Banana 刚上线,SeedReam 在中文场景有优势,Midjourney v7 在艺术性上仍是天花板。这个市场不会让 OpenAI 一家独大太久。
定价与可用性
| 方案 | 价格 | Images 2.0 可用性 |
|---|---|---|
| 免费用户 | $0 | 可用,额度有限 |
| ChatGPT Plus | $20/月 | 更高级输出 + 更多额度 |
| ChatGPT Pro | $200/月 | 最高优先级 + 最大额度 |
| API(gpt-image-2) | 按质量和分辨率计费 | 具体价格未公开 |
| 短板 | 现状 |
|---|---|
| 生成速度 | 复杂图需几分钟,比 DALL-E 3 慢不少 |
| 中文复杂排版 | 书法、招牌 OK;密集菜单、竖排古文、满页杂志仍翻车 |
| 知识截止 | 2025 年 12 月,网页搜索能补一部分但非万能 |
| API 定价不透明 | ”按质量计费”意味着好的东西不便宜 |
| 底层架构未公开 | 开发者无法针对性优化提示词,只能靠试 |
行业影响
文字渲染是 AI 图像的”可用性临界点”。 以前 AI 图像只有两个归宿:灵感参考或社交媒体炫技。文字渲染正确后,使用场景从”看”扩展到”用” — 海报、菜单、技术图表、分镜图,AI 图像第一次进入”直接交付”的范畴。这不是功能升级,是品类跃迁。
“先想再画”是生成式 AI 的通用范式。 从 GPT-5.4 的交叉验证推理到 Images 2.0 的搜索+规划+自检,“生成前思考、生成后校验”正在成为 OpenAI 产品的方法论。速度换质量的取舍短期内不会消失,但架构层面的效率优化会逐步缩小差距。
“所思即所得”的危险。 当任何人都能用一句话生成逼真图片,虚假信息的生产成本降到了零。OpenAI 内置 SynthID 水印区分 AI 与人类作品 — 但水印可以被裁剪、压缩破坏。版权争议依然悬而未决:训练数据集的合法性、风格被 AI 学走算不算侵权,法律还没跟上技术的速度。
Images 2.0 降低的不是”创意”的成本,而是”表达”的成本 — 让不会画画但有极佳创意的人,获得了与世界对话的能力。但”能用”和”该用”之间的边界,技术画不出来。