2026 年 4 月 10 日,阿里云在杭州云栖小镇举办通义千问技术开放日,正式发布 Qwen3.6-Plus 模型。首席技术官周靖人在现场的原话:“Qwen3.6-Plus 是首个内置深度推理能力的开源中文大模型,我们希望让每一位开发者都能用上’会思考’的 AI。”
“会思考”三个字不是修辞——2026 年以来,开源大模型进入”推理能力”竞赛阶段,DeepSeek-V3 和 Claude 3.5 均在推理深度上发力,但都是在闭源或半闭源体系内。Qwen3.6-Plus 做了一件不同的事:把深度推理能力放进了开源模型里,而且用的是最宽松的 Apache 2.0 许可证。从 Qwen2.5 到 Qwen3.6,不是版本号的递增,是推理范式的一次跃迁。
核心升级一览
| 特性 | Qwen2.5-72B | Qwen3.6-Plus | 变化 |
|---|---|---|---|
| 架构 | Dense | MoE(混合专家) | 架构换代 |
| 总参数 | 72B | 305B | +324% |
| 活跃参数 | 72B | 38B | -47% |
| 上下文 | 128K | 200K | +56% |
| 推理模式 | 标准生成 | 标准 + 深度推理 | 范式跃迁 |
| 多模态 | 文本 | 文本 + 视觉 + 音频 | +2 模态 |
| 开源协议 | Apache 2.0 | Apache 2.0 | 无商业限制 |
最引人注目的数字是活跃参数仅 38B——实际推理时的计算成本接近一个 38B Dense 模型,但效果远超此规模。MoE 架构的核心魔法:用参数量换能力,用稀疏激活换效率。
MoE 架构:128 专家 + Top-8 路由
Qwen3.6-Plus 采用细粒度 MoE 架构,这不是简单地把模型做大——是把模型做”专”:
| 组件 | 规格 | 作用 |
|---|---|---|
| 专家数量 | 128 个 | 每个 FFN 层包含 128 个并行专家网络 |
| 路由策略 | Top-8 | 每个 token 激活 8 个专家,激活率 6.25% |
| 共享专家 | 4 个 | 始终激活,保证基础能力不丢失 |
| 负载均衡 | 辅助损失函数 | 确保专家利用率均匀,避免”路由坍缩” |
设计的精妙之处:128 个专家各自专注于不同类型的知识和技能,Top-8 路由让每个 token 都能获得足够的专家协作。共享专家则像”通识教育”,确保模型不会因为过度专业化而丧失基础能力。
| 对比 | Dense 架构(Qwen2.5) | MoE 架构(Qwen3.6) |
|---|---|---|
| 参数利用 | 全部激活,每个 token 用全部参数 | 稀疏激活,每个 token 只用 6.25% |
| 推理成本 | 与参数量成正比 | 与活跃参数成正比 |
| 知识容量 | 受限于参数量 | 128 专家 = 128 种专业技能 |
| 风险 | 无 | 路由坍缩(某些专家永不激活) |
深度推理模式:想清楚再回答
这是 Qwen3.6-Plus 最大的创新。传统模型面对复杂问题要么一步给答案(容易出错),要么依赖 few-shot 示例引导推理(依赖 prompt 工程)。Qwen3.6-Plus 引入了两种模式:
标准模式 — 快速生成,适合简单问答、翻译、摘要,响应速度优先。
深度推理模式 — 模型在内部自动展开推理链:
- 问题分解 — 将复杂问题拆分为子问题
- 假设生成 — 对每个子问题提出候选假设
- 验证与修正 — 自我验证推理步骤的正确性
- 路径回溯 — 发现错误时自动回退到上一个正确节点
用户:一个水池有两个进水管和一个出水管...
│
┌─────┴──────┐
│ 问题分解 │ 标准模式直接算
│ 1. 各管速率 │ 深度模式先分解
│ 2. 净流量 │ → 验证每步
│ 3. 填满时间 │ → 发现矛盾时回溯
└─────┬──────┘
│
最终答案(含推理过程)
实测数据——深度推理模式在数学和逻辑题上的提升是代际级别的:
| 基准 | 标准模式 | 深度推理模式 | 提升 |
|---|---|---|---|
| MATH-500 | 74.2 | 86.8 | +12.6 |
| GPQA Diamond | 52.1 | 61.3 | +9.2 |
| ARC-Challenge | 93.4 | 96.7 | +3.3 |
| LiveCodeBench | 58.7 | 69.4 | +10.7 |
代价是推理时间增加约 3-5 倍。但对于需要准确性的场景——法律分析、金融计算、医疗问答——这是值得的权衡。一个 3 秒给出错误答案的模型,不如一个 15 秒给出正确答案的模型。
触发方式极简——在提示词前加 think: 即可。不需要复杂的 prompt 工程,不需要换模型。
| 维度 | 标准模式 | 深度推理模式 |
|---|---|---|
| 推理链 | 单步直出 | 多步分解 + 自验证 |
| 延迟 | 快(1x) | 慢(3-5x) |
| 准确率 | 基准 | +3~13pp |
| 适用场景 | 日常对话、翻译 | 数学、逻辑、代码、法律 |
| 触发方式 | 默认 | 提示词加 think: |
深度推理模式的意义不在于”又快了多少”,而在于它第一次让开源模型具备了”知错能改”的能力。路径回溯意味着模型不是一路走到黑,而是能在推理过程中自我修正——这比单纯堆参数更接近”思考”的本质。
中文能力:原生优势的延续
作为国产模型,Qwen3.6-Plus 在中文场景上的表现是最大的卖点:
| 能力维度 | 指标 | 对比 |
|---|---|---|
| 古文理解 | 古籍问答准确率 91.3% | 同规模开源模型最高 |
| 成语使用 | 正确率 96.8% | — |
| 典故引用 | 准确率 89.2% | — |
| 法律文本 | LawBench 78.6 | 超过所有同规模开源模型 |
| 多方言 | 粤语/吴语/闽南语基本理解与翻译 | 首次支持 |
训练数据中中文语料占比从 Qwen2.5 的 18% 提升到 Qwen3.6 的 31%——不是简单的数量堆叠,而是覆盖了更广泛的中文互联网内容和专业文献。
200K 上下文:不是更长,是更准
Qwen3.6-Plus 将上下文窗口扩展到 200K,但更关键的是优化了长文本的信息利用效率:
| 测试 | 指标 | 结果 |
|---|---|---|
| Needle-in-a-Haystack | 200K 窗口信息检索准确率 | 99.1% |
| 多轮对话记忆 | 50 轮以上长对话引用准确率 | 保持稳定 |
| 文档级理解 | 全局性问答 vs 逐段检索 | 显著优于逐段 |
200K 上下文的真正价值不是”能塞更多文字”,而是文档级理解——能对整本技术文档进行全局性问答,而非逐段检索后拼凑答案。配合官方 RAG 框架,Qwen3.6-Plus 可以实现离线索引 → 检索相关片段 → 在 200K 窗口内整合多源信息 → 输出带引用的答案。
多模态能力
Qwen3.6-Plus 原生支持三种模态:
| 模态 | 输入方式 | 核心能力 | 技术方案 |
|---|---|---|---|
| 文本 | 文本 | 问答、推理、代码、创作 | 原生 |
| 视觉 | 图片 | 图像描述、OCR、图表分析、UI 理解 | ViT + Adapter |
| 音频 | 语音 | 语音识别、语音翻译、情感分析 | Whisper 编码器 + Adapter |
视觉方案采用 ViT + Adapter 架构,视觉 token 经过 Adapter 映射后与文本 token 拼接进入主 Transformer。比从头训练多模态更高效,且保持了纯文本能力的完整性。
音频方面,中文语音识别准确率达到 97.2%,中英混合场景 93.8%——这个数字在开源模型中是顶级水平。
代码能力
Qwen3.6-Plus 在代码领域进行了专项强化:
- 训练数据 — 吸收 GitHub 上 3.2 亿个代码文件,覆盖 87 种编程语言
- SFT 阶段 — 使用 Verified 数据集监督微调,确保代码正确性
- RLHF 阶段 — 引入代码执行反馈,模型能从运行结果中学习
| 基准 | Qwen3.6-Plus | DeepSeek-V3 | Claude 3.5 Sonnet |
|---|---|---|---|
| HumanEval | 89.6 | 87.1 | 92.0 |
| MBPP | 82.3 | 80.4 | 84.7 |
| LiveCodeBench | 69.4 | 66.8 | 72.1 |
| SWE-Bench Lite | 28.4 | 25.7 | 33.2 |
开源模型中代码能力稳居第一梯队,与闭源顶级模型差距持续缩小。但 SWE-Bench Lite 28.4 vs Claude 3.5 的 33.2 仍有差距——在复杂工程任务上,闭源模型的优势依然明显。
部署与效率
MoE 架构的部署有天然优势——总参数 305B,但推理时只激活 38B:
| 部署方案 | 硬件 | 精度 | 吞吐 | 适用场景 |
|---|---|---|---|---|
| 单机 4×A100 | 320GB 显存 | BF16 | ~1800 token/s | 生产环境 |
| 单机 2×A100 | 160GB 显存 | INT4 | ~1200 token/s | 中等负载 |
| 单张 A100 | 80GB 显存 | INT4 + offload | ~400 token/s | 开发测试 |
阿里同时发布优化推理框架 QServe 2.0:
| 优化项 | 效果 |
|---|---|
| MoE 专用批处理调度器 | 减少专家切换开销 |
| KV Cache 压缩 | 200K 上下文内存占用降低 40% |
| 前缀缓存 | 重复 prompt 场景首 token 延迟降低 70% |
38B 活跃参数 + INT4 量化 = 一张 A100 就能跑 305B 参数的模型。这不是魔法,是 MoE 架构的天然优势——你只为你用到的专家付费。
竞品对比
2026 年开源模型市场,主要玩家各有侧重:
| 维度 | Qwen3.6-Plus | Llama 4 17B | Gemma 4 27B | DeepSeek-V3 |
|---|---|---|---|---|
| 总参数 | 305B | 17B | 27B | 685B |
| 活跃参数 | 38B | 17B | 27B | 37B |
| 上下文 | 200K | 128K | 128K | 128K |
| 深度推理 | ✓ 原生 | ✗ | ✗ | ✓(闭源) |
| 多模态 | 文本+视觉+音频 | 文本 | 文本+视觉 | 文本 |
| 中文能力 | 最强 | 一般 | 一般 | 强 |
| 开源协议 | Apache 2.0 | Llama License | Gemma License | Apache 2.0 |
| 商用限制 | 无 | 月活 > 7 亿需申请 | 月活 > 1 亿需申请 | 无 |
| 最佳定位 | 中文+推理+开放 | 英文轻量 | 全能轻量 | 代码+推理 |
Qwen3.6-Plus 的差异化非常清晰:中文场景 + 深度推理 + Apache 2.0。三个维度中任何一个都不是独家,但三者组合在开源模型中独一无二。
行业影响
Qwen3.6-Plus 的发布在三个维度上推动行业:
1. 深度推理从闭源特权变为开源标配。 当 OpenAI 的 o3 和 Anthropic 的 Claude 3.5 把深度推理作为闭源模型的护城河时,Qwen3.6-Plus 用 Apache 2.0 把这个能力开源了。这不只是技术民主化,更是商业策略——当开源模型也能”想清楚再回答”时,闭源模型的推理溢价就站不住了。
2. MoE 架构证明了自己。 305B 总参 / 38B 激活的配置,让 Qwen3.6-Plus 在效果上超越 72B Dense 模型,在成本上却更低。MoE 不再是实验性架构,而是大模型部署的成熟选择。
3. Apache 2.0 是最强的竞争力。 在 Llama 和 Gemma 都设有商用门槛的 2026 年,Qwen3.6-Plus 的无限制 Apache 2.0 许可证是企业选型的决定性因素。不是模型不好,是协议不好——这个问题 Qwen 替你解决了。
写在最后
Qwen3.6-Plus 最大的贡献不是某个基准分数的刷新,而是深度推理模式的引入。当开源模型不再只是”快速给出一个答案”,而是能”想清楚再回答”时,AI 应用的可靠性就上了一个台阶。
对于中文开发者来说,Qwen3.6-Plus 几乎是目前最均衡的选择——中文理解最强、推理能力最新、部署成本可控、许可证最自由。但从”能用”到”好用”之间,38B 活跃参数在复杂工程任务上与闭源模型的差距仍然存在。想清楚再回答是对的,但想清楚了也不一定答对——这是开源模型接下来要解决的问题。