4 月 24 日,DeepSeek 发布 V4。V3.2 → V4-Pro 跳了 88 Elo — 约等于排行榜 #3 和 #13 之间的差距。这不是小版本刷新,是代际跨越。
两个模型同发:V4-Pro(1.6T/49B 激活)和 V4-Flash(284B/13B 激活),1M tokens 上下文,384K 最大输出,Apache 2.0 全开源。Bloomberg 称其为”最具野心的新旗舰”。
这不是开源模型追赶闭源,是开源在代码和知识上追平闭源后,把价格打到了闭源的 1/18。
双模型同发,Flash 不是 Pro 的裁剪版
| 规格 | V4-Pro | V4-Flash |
|---|---|---|
| 总参数 / 激活参数 | 1.6T / 49B | 284B / 13B |
| 上下文 / 最大输出 | 1M / 384K | 1M / 384K |
| 开源协议 | Apache 2.0 | Apache 2.0 |
| 定位 | 旗舰推理 | 高性价比 |
Flash 是独立训练的 MoE 模型,不是 Pro 的裁剪版。多数基准与 Pro 差距仅 1-2 分,但 API 成本降低约 12 倍。分档思路类似 Claude 的 Sonnet/Opus — 高端打精度,Flash 打吞吐。
与上一代的对比更能说明问题:V3.2 的 Arena Code Elo 是 1368(#12),V4-Pro 跳到 1456(#3)。更关键的是效率 — 1M 上下文下,V4-Pro 的推理 FLOPs 仅为 V3.2 的 27%,KV 缓存仅为 10%。参数变多了,推理反而变便宜了。
Hybrid Attention:1M 上下文不是靠暴力堆显存
1M 上下文的核心难题是 KV 缓存爆炸 — 显存需求随序列长度线性甚至超线性增长。V4 的解法是两种压缩注意力层交错使用:CSA(每 4 个 token 压一个 entry,Top-k 稀疏选择,负责长距离依赖)和 HCA(每 128 个 token 压一个,稠密注意力,负责超长压缩),加上 sliding window 处理近邻 token 和 attention sink 技巧。
类比人类阅读:近处精读(sliding window),中间看摘要(CSA),远处只记标题(HCA)。不是什么都记住,而是该记的记、该压的压。
这是 V4 最核心的架构创新,效果立竿见影:1M 上下文下,V4-Pro 推理 FLOPs 降到 V3.2 的 27%,KV 缓存降到 10%。V4-Flash 更激进 — FLOPs 降到 10%,KV 缓存降到 7%。这意味着 1M 上下文不再是土豪专属,而是消费级显卡也能跑。
另外两个架构升级值得一提:mHC(流形约束超连接)解决了极深网络的梯度退化问题 — 将残差映射约束在双随机矩阵流形上,深层堆叠不跑飞,这是该技术首次进入旗舰模型;Muon 优化器替代 AdamW,用 Newton-Schulz 迭代做矩阵正交化,收敛更快、训练更稳,对 1.6T 参数模型至关重要。
代码开源最强,但 1M 上下文”支持”不等于”好用”
V4-Pro Max 的核心基准:
| 基准 | 得分 | 意义 |
|---|---|---|
| LiveCodeBench | 93.5 | 全部参评模型最高,超越 GPT-5.4 |
| Codeforces Rating | 3206 | 前 0.03%,超越 GPT-5.4 的 3168 |
| Putnam-2025 | 120/120 满分 | 数学竞赛天花板 |
| GPQA Diamond | 90.1 | 博士级科学推理 |
| SWE Verified | 80.6 | 真实 GitHub Issue 修复 |
| MRCR 1M | 83.5 | 1M 长上下文检索 |
代码是 V4 的绝对长板。LiveCodeBench 93.5 和 Codeforces 3206 两项都是所有参评模型最高 — 不是开源最高,是所有模型最高。Putnam 满分说明数学推理也到了天花板级别。
但短板同样明显:HLE(无工具)37.7 vs Gemini 3.1 Pro 的 44.4,MRCR 1M 的 83.5 vs Opus 4.6 的 92.9,GDPval-AA Elo 1554 vs GPT-5.4 的 1674。极限推理和长上下文检索与闭源前沿仍有差距。
更值得警惕的是长上下文检索的衰减曲线:8K 时 0.94,128K 时 0.92,512K 时 0.85,到 1M 只剩 0.66。200K 以下基本不丢信息,但 1M 上下文下检索准确率跌到 2/3 — “支持 1M”和”1M 好用”之间还有很远的路。
竞品定位:代码打平,知识稍逊,价格碾压
| 维度 | V4-Pro | GPT-5.4/5.5 | Opus 4.6/4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| 代码 | 最强 | 接近 | 稍逊 | 稍逊 |
| 极限推理 | 有差距 | Agent 最强 | 长上下文最强 | HLE 最强 |
| 开源 | ✅ Apache 2.0 | ❌ | ❌ | ❌ |
| 输出价格/M token | $3.48 | $30 | $75 | — |
V4-Pro 的竞争力不在”每一项都比闭源强”,而在”代码打平 + 知识稍逊 + 价格是闭源的 1/8 到 1/21”。当开源模型能力追到 90% 以上,10 倍以上的价差就不叫”性价比”了,叫”为什么不用”。V4-Flash 更极端 — 基准仅差 Pro 1-2 分,输出价格 $0.28/M,是高吞吐场景的降维打击。
定价与注意事项
| 项目 | V4-Pro | V4-Flash |
|---|---|---|
| 输入(缓存命中) | ¥1 /M tokens | ¥0.2 /M tokens |
| 输入(未命中) | ¥12 /M tokens | ¥1 /M tokens |
| 输出 | ¥24 /M tokens | ¥2 /M tokens |
| 限时折扣 | 75% off(截止 05-05) | 75% off |
V4-Pro 输出 $3.48/M vs Opus 4.7 的 $75/M — 1/21。V4-Flash 输出 $0.28/M,这个价格在同级模型中没有对手。API 同时兼容 OpenAI 和 Anthropic 接口。
但有几个注意事项:V4 目前不含多模态,待 V4-VL 单独发布;采样参数推荐 temperature=1.0、top_p=1.0,与一般 LLM 不同;没有 Jinja template,必须使用官方 encoding_dsv4.py 编码;华为昇腾零日适配但仅限推理侧,训练仍依赖美国芯片。小字提示:受限于高端算力,Pro 吞吐有限,昇腾 950 上市后价格会大幅下调。
行业影响
Hybrid Attention 是长上下文的工程解法。 纯暴力扩展 KV 缓存的路走不通,V4 用 CSA+HCA 把 KV 缓存压到 10%,证明长上下文可以靠架构创新而非堆硬件。这个思路会被其他模型跟进。
On-Policy Distillation 是后训练的方法论升级。 V3.2 的 mixed RL 被 OPD 替代 — 学生在自己生成的 trajectory 上学多个 teacher 的分布,比传统 SFT 更接近 RL 精神。领域专家培育 → OPD 融合的两步法,会成为大模型后训练的标准流程。
1/21 的价差不是”性价比”,是”为什么不用”。 当开源模型在代码上超越了所有闭源模型,价格又是闭源的 1/21,闭源模型必须回答一个问题:你的 21 倍溢价,到底在为什么买单?
V4 证明了开源不是闭源的廉价替代品 — 但 1M 上下文下 0.66 的检索准确率也提醒我们:追平不等于超越,“支持”和”好用”之间的距离,才是下一个要解决的问题。