4 月 23 日,腾讯发布 Hy3 Preview — 295B 总参数、21B 激活。后一天,DeepSeek 就发布了 1.6T 的 V4。
这不是巧合。两家中国模型公司的旗舰产品前后脚发布,代表了两种路线的正面交锋:堆参数 vs 做减法。
这是姚顺雨 2025 年 12 月加入腾讯任首席 AI 科学家后的首个模型。距 2026 年 2 月推倒重建预训练和 RL 基础设施,只过去了不到三个月。
头部厂商中少见的做减法 — 从上一代 HY 2.0 的 400B+ 反向降到 295B,靠”单位智能密度”而非参数规模取胜。
做减法的逻辑:295B 是分水岭
为什么是 295B 而不是更大?核心论点是成本:300B 级 MoE 量化后单机部署(8× H20-3e),1T+ 必须跨节点 — 延迟、吞吐、运维成本数倍之差。推理单价不是线性增长,是在 300B → 1T 之间有个台阶。
腾讯没有明说的是:这个选择到底是”追得起但选择不追”还是”追不起所以不追”。腾讯 2025 年 AI 资本开支远低于字节和阿里,姚顺雨团队从 400B+ 缩到 295B,战略选择和资源约束的成分各占多少,外人不得而知。
但 295B 的工程优势是实实在在的:量化后单机跑,私有化部署门槛低,微调成本低。对腾讯来说,大部分场景可以通过 RAG + Agent 工程手段缩小与顶级模型的差距 — 不需要模型最强,需要”够用且便宜”。
Agent 能力:一代之内的质变
Hy3 Preview 提升最显著的是代码和智能体方向:
| 基准 | Hy3 Preview | HY 2.0 | 提升 |
|---|---|---|---|
| SWE-bench Verified | 74.4% | 53.0% | +21.4pp |
| Terminal-Bench 2.0 | 54.4% | 23.2% | +31.2pp |
| BrowseComp | 67.1% | 28.7% | +38.4pp |
Terminal-Bench 从 23.2% 跳到 54.4%,BrowseComp 从 28.7% 跳到 67.1% — 这不是渐进提升,是一代之内的质变。搜索智能体从”基本不可用”跳到”有竞争力”,Agent 能力是姚顺雨重建后最明显的成果。
但要注意:Hy3 Preview 遗漏了 AIME、GPQA Diamond、HLE 等头部模型必跑的公开基准,用自建评测集(Hy-Backend、Hy-Vibe Bench、Hy-SWE Max)替代。跳出刷榜的初衷是好的,但”我不跑这个基准”和”我跑不了这个基准”之间的区别,外人分不清。社区已开 GitHub Issue #2 要求公开。
快慢思考 + Co-Design:腾讯的差异化
Hy3 Preview 的核心设计是快慢思考融合的 MoE — 三档推理深度:no_think(直觉式)、low(轻度)、high(深度)。类似 Anthropic 的 extended thinking,但融合在 MoE 架构内。腾讯的三个设计原则 — 能力体系化、评测真实性、极致性价比 — 翻译一下:不追 ELO 排名,追落地账本。
但 Hy3 真正的差异化不是模型本身,而是 Co-Design — 从第一天就和腾讯产品联合迭代。元宝主打”人味儿”语境回答,腾讯新闻的 no-think 模式对齐了原深度思考模式且响应时间仅 1/5,和平精英 NPC 的角色扮演稳定性高,腾讯文档 AI PPT 生成成功率升 20% 且耗时降 20%,CodeBuddy 首 Token 延迟降 54%、端到端耗时降 47%、稳定驱动最长 495 步 Agent 流。
模型不是腾讯的全部,微信 + 元宝 + 腾讯文档 + 游戏生态才是。Hy3 的竞争力不在于基准跑分,在于”已经跑在 10 亿用户的产品里”。
但 Co-Design 的天花板也很明显:模型能力受限于产品需求,而不是受限于技术前沿。“听话的打工人”和”最聪明的打工人”不是一回事。当产品需要的是”不犯错”而非”能推理”,模型的天花板就被产品定义了。
竞品定位:性价比路线,但开源协议打了折扣
| 维度 | Hy3 Preview | DeepSeek V4-Pro | DeepSeek V4-Flash |
|---|---|---|---|
| 参数 / 激活 | 295B / 21B | 1.6T / 49B | 284B / 13B |
| SWE-bench | 74.4% | 80.6% | 79.0% |
| 输出价格/M token | ¥4 | ¥24 | ¥2 |
| 开源协议 | 商用受限 | Apache 2.0 | Apache 2.0 |
Hy3 vs V4-Pro:参数 1/5,SWE-bench 差 6pp,输出价格 1/6 — 性价比路线。Hy3 vs V4-Flash:参数相近但 Hy3 激活更多(21B vs 13B),能力更强但更贵。V4-Flash ¥2/M 的输出价是高吞吐场景的降维打击,Hy3 的 ¥4/M 夹在中间 — 比 Pro 便宜但比 Flash 贵一倍。
更关键的是开源协议。Tencent Hy Community License 不是 Apache 2.0:MAU > 1 亿需另行申请,不能用其输出训练其他模型,EU/UK/韩国不适用。和 DeepSeek V4 的零门槛商用相比,腾讯的”开源”打了折扣。
定价与可用性
| 项目 | Hy3 Preview | V4-Pro | V4-Flash |
|---|---|---|---|
| 输入/百万 token | ¥1.2 | ¥12(折扣 ¥3) | ¥1(折扣 ¥0.25) |
| 缓存命中/百万 token | ¥0.4 | ¥1(折扣 ¥0.25) | ¥0.2(折扣 ¥0.05) |
| 输出/百万 token | ¥4 | ¥24(折扣 ¥6) | ¥2(折扣 ¥0.5) |
API 上架腾讯云 TokenHub 和 OpenRouter(限免至 5 月 8 日),开源权重在 HuggingFace / GitHub,Token Plan 个人版 ¥28/月含 35M tokens。推理框架 vLLM / SGLang Day-0 支持,推荐硬件 8× H20-3e。
行业影响
做减法是理性选择,但理性不等于正确。 295B 单机部署、成本低、门槛低 — 这是工程事实。但大模型竞赛不是只比性价比,还在比智能上限。当 DeepSeek 用 1.6T 跑出 SWE-bench 80.6% 时,Hy3 的 74.4% 在”够用”和”最好”之间选了前者。这个选择在当下是理性的,但当下一个 1T+ 开源模型把 SWE-bench 推到 85%+ 时,295B 的天花板就不再是”选择”,而是”限制”。
Co-Design 是腾讯的护城河,也是天花板。 元宝、ima、腾讯文档、和平精英 — Hy3 从出生就在产品里跑,纯模型公司做不到。但”听话的打工人”和”最聪明的打工人”不是一回事,当产品定义了模型的天花板,模型就很难突破产品的天花板。
自建评测的公信力差距。 跳出刷榜的初衷是好的,但在竞争激烈的市场中,“我不跑这个基准”和”我跑不了这个基准”之间,外人分不清。Hy3 Preview 的下一个版本需要用公开基准证明自己 — 不是为了刷榜,是为了让人信服。
刘炽平说”担心的不是进入得晚,而是创新得不够快”。Hy3 Preview 验证了一条路线:不卷参数卷性价比,不刷榜单刷落地。但 295B 做减法的底气,最终要靠下一个版本来证明 — 到底是”选择不做”,还是”做不到”。