腾讯 Hy3 Preview：295B 做减法，到底是选择还是无奈

4 月 23 日，腾讯发布 Hy3 Preview — 295B 总参数、21B 激活。后一天，DeepSeek 就发布了 1.6T 的 V4。

这不是巧合。两家中国模型公司的旗舰产品前后脚发布，代表了两种路线的正面交锋：堆参数 vs 做减法。

这是姚顺雨 2025 年 12 月加入腾讯任首席 AI 科学家后的首个模型。距 2026 年 2 月推倒重建预训练和 RL 基础设施，只过去了不到三个月。

头部厂商中少见的做减法 — 从上一代 HY 2.0 的 400B+ 反向降到 295B，靠”单位智能密度”而非参数规模取胜。

做减法的逻辑：295B 是分水岭

为什么是 295B 而不是更大？核心论点是成本：300B 级 MoE 量化后单机部署（8× H20-3e），1T+ 必须跨节点 — 延迟、吞吐、运维成本数倍之差。推理单价不是线性增长，是在 300B → 1T 之间有个台阶。

腾讯没有明说的是：这个选择到底是”追得起但选择不追”还是”追不起所以不追”。腾讯 2025 年 AI 资本开支远低于字节和阿里，姚顺雨团队从 400B+ 缩到 295B，战略选择和资源约束的成分各占多少，外人不得而知。

但 295B 的工程优势是实实在在的：量化后单机跑，私有化部署门槛低，微调成本低。对腾讯来说，大部分场景可以通过 RAG + Agent 工程手段缩小与顶级模型的差距 — 不需要模型最强，需要”够用且便宜”。

Agent 能力：一代之内的质变

Hy3 Preview 提升最显著的是代码和智能体方向：

基准	Hy3 Preview	HY 2.0	提升
SWE-bench Verified	74.4%	53.0%	+21.4pp
Terminal-Bench 2.0	54.4%	23.2%	+31.2pp
BrowseComp	67.1%	28.7%	+38.4pp

Terminal-Bench 从 23.2% 跳到 54.4%，BrowseComp 从 28.7% 跳到 67.1% — 这不是渐进提升，是一代之内的质变。搜索智能体从”基本不可用”跳到”有竞争力”，Agent 能力是姚顺雨重建后最明显的成果。

但要注意：Hy3 Preview 遗漏了 AIME、GPQA Diamond、HLE 等头部模型必跑的公开基准，用自建评测集（Hy-Backend、Hy-Vibe Bench、Hy-SWE Max）替代。跳出刷榜的初衷是好的，但”我不跑这个基准”和”我跑不了这个基准”之间的区别，外人分不清。社区已开 GitHub Issue #2 要求公开。

快慢思考 + Co-Design：腾讯的差异化

Hy3 Preview 的核心设计是快慢思考融合的 MoE — 三档推理深度：no_think（直觉式）、low（轻度）、high（深度）。类似 Anthropic 的 extended thinking，但融合在 MoE 架构内。腾讯的三个设计原则 — 能力体系化、评测真实性、极致性价比 — 翻译一下：不追 ELO 排名，追落地账本。

但 Hy3 真正的差异化不是模型本身，而是 Co-Design — 从第一天就和腾讯产品联合迭代。元宝主打”人味儿”语境回答，腾讯新闻的 no-think 模式对齐了原深度思考模式且响应时间仅 1/5，和平精英 NPC 的角色扮演稳定性高，腾讯文档 AI PPT 生成成功率升 20% 且耗时降 20%，CodeBuddy 首 Token 延迟降 54%、端到端耗时降 47%、稳定驱动最长 495 步 Agent 流。

模型不是腾讯的全部，微信 + 元宝 + 腾讯文档 + 游戏生态才是。Hy3 的竞争力不在于基准跑分，在于”已经跑在 10 亿用户的产品里”。

但 Co-Design 的天花板也很明显：模型能力受限于产品需求，而不是受限于技术前沿。“听话的打工人”和”最聪明的打工人”不是一回事。当产品需要的是”不犯错”而非”能推理”，模型的天花板就被产品定义了。

竞品定位：性价比路线，但开源协议打了折扣

维度	Hy3 Preview	DeepSeek V4-Pro	DeepSeek V4-Flash
参数 / 激活	295B / 21B	1.6T / 49B	284B / 13B
SWE-bench	74.4%	80.6%	79.0%
输出价格/M token	¥4	¥24	¥2
开源协议	商用受限	Apache 2.0	Apache 2.0

Hy3 vs V4-Pro：参数 1/5，SWE-bench 差 6pp，输出价格 1/6 — 性价比路线。Hy3 vs V4-Flash：参数相近但 Hy3 激活更多（21B vs 13B），能力更强但更贵。V4-Flash ¥2/M 的输出价是高吞吐场景的降维打击，Hy3 的 ¥4/M 夹在中间 — 比 Pro 便宜但比 Flash 贵一倍。

更关键的是开源协议。Tencent Hy Community License 不是 Apache 2.0：MAU > 1 亿需另行申请，不能用其输出训练其他模型，EU/UK/韩国不适用。和 DeepSeek V4 的零门槛商用相比，腾讯的”开源”打了折扣。

定价与可用性

项目	Hy3 Preview	V4-Pro	V4-Flash
输入/百万 token	¥1.2	¥12（折扣 ¥3）	¥1（折扣 ¥0.25）
缓存命中/百万 token	¥0.4	¥1（折扣 ¥0.25）	¥0.2（折扣 ¥0.05）
输出/百万 token	¥4	¥24（折扣 ¥6）	¥2（折扣 ¥0.5）

API 上架腾讯云 TokenHub 和 OpenRouter（限免至 5 月 8 日），开源权重在 HuggingFace / GitHub，Token Plan 个人版 ¥28/月含 35M tokens。推理框架 vLLM / SGLang Day-0 支持，推荐硬件 8× H20-3e。

行业影响

做减法是理性选择，但理性不等于正确。 295B 单机部署、成本低、门槛低 — 这是工程事实。但大模型竞赛不是只比性价比，还在比智能上限。当 DeepSeek 用 1.6T 跑出 SWE-bench 80.6% 时，Hy3 的 74.4% 在”够用”和”最好”之间选了前者。这个选择在当下是理性的，但当下一个 1T+ 开源模型把 SWE-bench 推到 85%+ 时，295B 的天花板就不再是”选择”，而是”限制”。

Co-Design 是腾讯的护城河，也是天花板。 元宝、ima、腾讯文档、和平精英 — Hy3 从出生就在产品里跑，纯模型公司做不到。但”听话的打工人”和”最聪明的打工人”不是一回事，当产品定义了模型的天花板，模型就很难突破产品的天花板。

自建评测的公信力差距。 跳出刷榜的初衷是好的，但在竞争激烈的市场中，“我不跑这个基准”和”我跑不了这个基准”之间，外人分不清。Hy3 Preview 的下一个版本需要用公开基准证明自己 — 不是为了刷榜，是为了让人信服。

刘炽平说”担心的不是进入得晚，而是创新得不够快”。Hy3 Preview 验证了一条路线：不卷参数卷性价比，不刷榜单刷落地。但 295B 做减法的底气，最终要靠下一个版本来证明 — 到底是”选择不做”，还是”做不到”。

Previous REALITY：不需要域名和证书的下一代代理协议，5 分钟一键部署 Next MiniMax M2.7：让模型第一次参与了自身的进化