Home / 前沿动态 / 2026.04.27

DeepSeek-V4:开源追平闭源后,把价格打到 1/21

DeepSeek-V4 双模型同发:V4-Pro 1.6T 参数旗舰 + V4-Flash 284B 高性价比。Hybrid Attention 把 1M 上下文的 KV 缓存压到 V3.2 的 10%,代码基准全面超越 GPT-5.4,输出价格仅为 Opus 4.7 的 1/21。开源不再等于将就。

4 月 24 日,DeepSeek 发布 V4。V3.2 → V4-Pro 跳了 88 Elo — 约等于排行榜 #3 和 #13 之间的差距。这不是小版本刷新,是代际跨越。

两个模型同发:V4-Pro(1.6T/49B 激活)和 V4-Flash(284B/13B 激活),1M tokens 上下文,384K 最大输出,Apache 2.0 全开源。Bloomberg 称其为”最具野心的新旗舰”。

这不是开源模型追赶闭源,是开源在代码和知识上追平闭源后,把价格打到了闭源的 1/18。

双模型同发,Flash 不是 Pro 的裁剪版

规格V4-ProV4-Flash
总参数 / 激活参数1.6T / 49B284B / 13B
上下文 / 最大输出1M / 384K1M / 384K
开源协议Apache 2.0Apache 2.0
定位旗舰推理高性价比

Flash 是独立训练的 MoE 模型,不是 Pro 的裁剪版。多数基准与 Pro 差距仅 1-2 分,但 API 成本降低约 12 倍。分档思路类似 Claude 的 Sonnet/Opus — 高端打精度,Flash 打吞吐。

与上一代的对比更能说明问题:V3.2 的 Arena Code Elo 是 1368(#12),V4-Pro 跳到 1456(#3)。更关键的是效率 — 1M 上下文下,V4-Pro 的推理 FLOPs 仅为 V3.2 的 27%,KV 缓存仅为 10%。参数变多了,推理反而变便宜了。

Hybrid Attention:1M 上下文不是靠暴力堆显存

1M 上下文的核心难题是 KV 缓存爆炸 — 显存需求随序列长度线性甚至超线性增长。V4 的解法是两种压缩注意力层交错使用:CSA(每 4 个 token 压一个 entry,Top-k 稀疏选择,负责长距离依赖)和 HCA(每 128 个 token 压一个,稠密注意力,负责超长压缩),加上 sliding window 处理近邻 token 和 attention sink 技巧。

类比人类阅读:近处精读(sliding window),中间看摘要(CSA),远处只记标题(HCA)。不是什么都记住,而是该记的记、该压的压。

这是 V4 最核心的架构创新,效果立竿见影:1M 上下文下,V4-Pro 推理 FLOPs 降到 V3.2 的 27%,KV 缓存降到 10%。V4-Flash 更激进 — FLOPs 降到 10%,KV 缓存降到 7%。这意味着 1M 上下文不再是土豪专属,而是消费级显卡也能跑。

另外两个架构升级值得一提:mHC(流形约束超连接)解决了极深网络的梯度退化问题 — 将残差映射约束在双随机矩阵流形上,深层堆叠不跑飞,这是该技术首次进入旗舰模型;Muon 优化器替代 AdamW,用 Newton-Schulz 迭代做矩阵正交化,收敛更快、训练更稳,对 1.6T 参数模型至关重要。

代码开源最强,但 1M 上下文”支持”不等于”好用”

V4-Pro Max 的核心基准:

基准得分意义
LiveCodeBench93.5全部参评模型最高,超越 GPT-5.4
Codeforces Rating3206前 0.03%,超越 GPT-5.4 的 3168
Putnam-2025120/120 满分数学竞赛天花板
GPQA Diamond90.1博士级科学推理
SWE Verified80.6真实 GitHub Issue 修复
MRCR 1M83.51M 长上下文检索

代码是 V4 的绝对长板。LiveCodeBench 93.5 和 Codeforces 3206 两项都是所有参评模型最高 — 不是开源最高,是所有模型最高。Putnam 满分说明数学推理也到了天花板级别。

但短板同样明显:HLE(无工具)37.7 vs Gemini 3.1 Pro 的 44.4,MRCR 1M 的 83.5 vs Opus 4.6 的 92.9,GDPval-AA Elo 1554 vs GPT-5.4 的 1674。极限推理和长上下文检索与闭源前沿仍有差距。

更值得警惕的是长上下文检索的衰减曲线:8K 时 0.94,128K 时 0.92,512K 时 0.85,到 1M 只剩 0.66。200K 以下基本不丢信息,但 1M 上下文下检索准确率跌到 2/3 — “支持 1M”和”1M 好用”之间还有很远的路。

竞品定位:代码打平,知识稍逊,价格碾压

维度V4-ProGPT-5.4/5.5Opus 4.6/4.7Gemini 3.1 Pro
代码最强接近稍逊稍逊
极限推理有差距Agent 最强长上下文最强HLE 最强
开源✅ Apache 2.0
输出价格/M token$3.48$30$75

V4-Pro 的竞争力不在”每一项都比闭源强”,而在”代码打平 + 知识稍逊 + 价格是闭源的 1/8 到 1/21”。当开源模型能力追到 90% 以上,10 倍以上的价差就不叫”性价比”了,叫”为什么不用”。V4-Flash 更极端 — 基准仅差 Pro 1-2 分,输出价格 $0.28/M,是高吞吐场景的降维打击。

定价与注意事项

项目V4-ProV4-Flash
输入(缓存命中)¥1 /M tokens¥0.2 /M tokens
输入(未命中)¥12 /M tokens¥1 /M tokens
输出¥24 /M tokens¥2 /M tokens
限时折扣75% off(截止 05-05)75% off

V4-Pro 输出 $3.48/M vs Opus 4.7 的 $75/M — 1/21。V4-Flash 输出 $0.28/M,这个价格在同级模型中没有对手。API 同时兼容 OpenAI 和 Anthropic 接口。

但有几个注意事项:V4 目前不含多模态,待 V4-VL 单独发布;采样参数推荐 temperature=1.0、top_p=1.0,与一般 LLM 不同;没有 Jinja template,必须使用官方 encoding_dsv4.py 编码;华为昇腾零日适配但仅限推理侧,训练仍依赖美国芯片。小字提示:受限于高端算力,Pro 吞吐有限,昇腾 950 上市后价格会大幅下调。

行业影响

Hybrid Attention 是长上下文的工程解法。 纯暴力扩展 KV 缓存的路走不通,V4 用 CSA+HCA 把 KV 缓存压到 10%,证明长上下文可以靠架构创新而非堆硬件。这个思路会被其他模型跟进。

On-Policy Distillation 是后训练的方法论升级。 V3.2 的 mixed RL 被 OPD 替代 — 学生在自己生成的 trajectory 上学多个 teacher 的分布,比传统 SFT 更接近 RL 精神。领域专家培育 → OPD 融合的两步法,会成为大模型后训练的标准流程。

1/21 的价差不是”性价比”,是”为什么不用”。 当开源模型在代码上超越了所有闭源模型,价格又是闭源的 1/21,闭源模型必须回答一个问题:你的 21 倍溢价,到底在为什么买单?

V4 证明了开源不是闭源的廉价替代品 — 但 1M 上下文下 0.66 的检索准确率也提醒我们:追平不等于超越,“支持”和”好用”之间的距离,才是下一个要解决的问题。