DeepSeek-V4：开源追平闭源后，把价格打到 1/21

4 月 24 日，DeepSeek 发布 V4。V3.2 → V4-Pro 跳了 88 Elo — 约等于排行榜 #3 和 #13 之间的差距。这不是小版本刷新，是代际跨越。

两个模型同发：V4-Pro（1.6T/49B 激活）和 V4-Flash（284B/13B 激活），1M tokens 上下文，384K 最大输出，Apache 2.0 全开源。Bloomberg 称其为”最具野心的新旗舰”。

这不是开源模型追赶闭源，是开源在代码和知识上追平闭源后，把价格打到了闭源的 1/18。

双模型同发，Flash 不是 Pro 的裁剪版

规格	V4-Pro	V4-Flash
总参数 / 激活参数	1.6T / 49B	284B / 13B
上下文 / 最大输出	1M / 384K	1M / 384K
开源协议	Apache 2.0	Apache 2.0
定位	旗舰推理	高性价比

Flash 是独立训练的 MoE 模型，不是 Pro 的裁剪版。多数基准与 Pro 差距仅 1-2 分，但 API 成本降低约 12 倍。分档思路类似 Claude 的 Sonnet/Opus — 高端打精度，Flash 打吞吐。

与上一代的对比更能说明问题：V3.2 的 Arena Code Elo 是 1368（#12），V4-Pro 跳到 1456（#3）。更关键的是效率 — 1M 上下文下，V4-Pro 的推理 FLOPs 仅为 V3.2 的 27%，KV 缓存仅为 10%。参数变多了，推理反而变便宜了。

Hybrid Attention：1M 上下文不是靠暴力堆显存

1M 上下文的核心难题是 KV 缓存爆炸 — 显存需求随序列长度线性甚至超线性增长。V4 的解法是两种压缩注意力层交错使用：CSA（每 4 个 token 压一个 entry，Top-k 稀疏选择，负责长距离依赖）和 HCA（每 128 个 token 压一个，稠密注意力，负责超长压缩），加上 sliding window 处理近邻 token 和 attention sink 技巧。

类比人类阅读：近处精读（sliding window），中间看摘要（CSA），远处只记标题（HCA）。不是什么都记住，而是该记的记、该压的压。

这是 V4 最核心的架构创新，效果立竿见影：1M 上下文下，V4-Pro 推理 FLOPs 降到 V3.2 的 27%，KV 缓存降到 10%。V4-Flash 更激进 — FLOPs 降到 10%，KV 缓存降到 7%。这意味着 1M 上下文不再是土豪专属，而是消费级显卡也能跑。

另外两个架构升级值得一提：mHC（流形约束超连接）解决了极深网络的梯度退化问题 — 将残差映射约束在双随机矩阵流形上，深层堆叠不跑飞，这是该技术首次进入旗舰模型；Muon 优化器替代 AdamW，用 Newton-Schulz 迭代做矩阵正交化，收敛更快、训练更稳，对 1.6T 参数模型至关重要。

代码开源最强，但 1M 上下文”支持”不等于”好用”

V4-Pro Max 的核心基准：

基准	得分	意义
LiveCodeBench	93.5	全部参评模型最高，超越 GPT-5.4
Codeforces Rating	3206	前 0.03%，超越 GPT-5.4 的 3168
Putnam-2025	120/120 满分	数学竞赛天花板
GPQA Diamond	90.1	博士级科学推理
SWE Verified	80.6	真实 GitHub Issue 修复
MRCR 1M	83.5	1M 长上下文检索

代码是 V4 的绝对长板。LiveCodeBench 93.5 和 Codeforces 3206 两项都是所有参评模型最高 — 不是开源最高，是所有模型最高。Putnam 满分说明数学推理也到了天花板级别。

但短板同样明显：HLE（无工具）37.7 vs Gemini 3.1 Pro 的 44.4，MRCR 1M 的 83.5 vs Opus 4.6 的 92.9，GDPval-AA Elo 1554 vs GPT-5.4 的 1674。极限推理和长上下文检索与闭源前沿仍有差距。

更值得警惕的是长上下文检索的衰减曲线：8K 时 0.94，128K 时 0.92，512K 时 0.85，到 1M 只剩 0.66。200K 以下基本不丢信息，但 1M 上下文下检索准确率跌到 2/3 — “支持 1M”和”1M 好用”之间还有很远的路。

竞品定位：代码打平，知识稍逊，价格碾压

维度	V4-Pro	GPT-5.4/5.5	Opus 4.6/4.7	Gemini 3.1 Pro
代码	最强	接近	稍逊	稍逊
极限推理	有差距	Agent 最强	长上下文最强	HLE 最强
开源	✅ Apache 2.0	❌	❌	❌
输出价格/M token	$3.48	$30	$75	—

V4-Pro 的竞争力不在”每一项都比闭源强”，而在”代码打平 + 知识稍逊 + 价格是闭源的 1/8 到 1/21”。当开源模型能力追到 90% 以上，10 倍以上的价差就不叫”性价比”了，叫”为什么不用”。V4-Flash 更极端 — 基准仅差 Pro 1-2 分，输出价格 $0.28/M，是高吞吐场景的降维打击。

定价与注意事项

项目	V4-Pro	V4-Flash
输入（缓存命中）	¥1 /M tokens	¥0.2 /M tokens
输入（未命中）	¥12 /M tokens	¥1 /M tokens
输出	¥24 /M tokens	¥2 /M tokens
限时折扣	75% off（截止 05-05）	75% off

V4-Pro 输出 $3.48/M vs Opus 4.7 的 $75/M — 1/21。V4-Flash 输出 $0.28/M，这个价格在同级模型中没有对手。API 同时兼容 OpenAI 和 Anthropic 接口。

但有几个注意事项：V4 目前不含多模态，待 V4-VL 单独发布；采样参数推荐 temperature=1.0、top_p=1.0，与一般 LLM 不同；没有 Jinja template，必须使用官方 encoding_dsv4.py 编码；华为昇腾零日适配但仅限推理侧，训练仍依赖美国芯片。小字提示：受限于高端算力，Pro 吞吐有限，昇腾 950 上市后价格会大幅下调。

行业影响

Hybrid Attention 是长上下文的工程解法。 纯暴力扩展 KV 缓存的路走不通，V4 用 CSA+HCA 把 KV 缓存压到 10%，证明长上下文可以靠架构创新而非堆硬件。这个思路会被其他模型跟进。

On-Policy Distillation 是后训练的方法论升级。 V3.2 的 mixed RL 被 OPD 替代 — 学生在自己生成的 trajectory 上学多个 teacher 的分布，比传统 SFT 更接近 RL 精神。领域专家培育 → OPD 融合的两步法，会成为大模型后训练的标准流程。

1/21 的价差不是”性价比”，是”为什么不用”。 当开源模型在代码上超越了所有闭源模型，价格又是闭源的 1/21，闭源模型必须回答一个问题：你的 21 倍溢价，到底在为什么买单？

V4 证明了开源不是闭源的廉价替代品 — 但 1M 上下文下 0.66 的检索准确率也提醒我们：追平不等于超越，“支持”和”好用”之间的距离，才是下一个要解决的问题。

Previous MiniMax M2.7：让模型第一次参与了自身的进化 Next MiniMax Music 2.6：AI 音乐第一次拥有了翻唱能力