Home / 前沿动态 / 2026.04.17

Qwen3.6-Plus:开源模型第一次学会「想清楚再回答」

阿里通义千问发布 Qwen3.6-Plus,MoE 架构 305B 总参仅 38B 激活,首创深度推理模式让 MATH-500 提升 12.6 分,200K 上下文 Needle-in-a-Haystack 99.1%,Apache 2.0 无商业限制。

2026 年 4 月 10 日,阿里云在杭州云栖小镇举办通义千问技术开放日,正式发布 Qwen3.6-Plus 模型。首席技术官周靖人在现场的原话:“Qwen3.6-Plus 是首个内置深度推理能力的开源中文大模型,我们希望让每一位开发者都能用上’会思考’的 AI。”

“会思考”三个字不是修辞——2026 年以来,开源大模型进入”推理能力”竞赛阶段,DeepSeek-V3 和 Claude 3.5 均在推理深度上发力,但都是在闭源或半闭源体系内。Qwen3.6-Plus 做了一件不同的事:把深度推理能力放进了开源模型里,而且用的是最宽松的 Apache 2.0 许可证。从 Qwen2.5 到 Qwen3.6,不是版本号的递增,是推理范式的一次跃迁。

核心升级一览

特性Qwen2.5-72BQwen3.6-Plus变化
架构DenseMoE(混合专家)架构换代
总参数72B305B+324%
活跃参数72B38B-47%
上下文128K200K+56%
推理模式标准生成标准 + 深度推理范式跃迁
多模态文本文本 + 视觉 + 音频+2 模态
开源协议Apache 2.0Apache 2.0无商业限制

最引人注目的数字是活跃参数仅 38B——实际推理时的计算成本接近一个 38B Dense 模型,但效果远超此规模。MoE 架构的核心魔法:用参数量换能力,用稀疏激活换效率。

MoE 架构:128 专家 + Top-8 路由

Qwen3.6-Plus 采用细粒度 MoE 架构,这不是简单地把模型做大——是把模型做”专”:

组件规格作用
专家数量128 个每个 FFN 层包含 128 个并行专家网络
路由策略Top-8每个 token 激活 8 个专家,激活率 6.25%
共享专家4 个始终激活,保证基础能力不丢失
负载均衡辅助损失函数确保专家利用率均匀,避免”路由坍缩”

设计的精妙之处:128 个专家各自专注于不同类型的知识和技能,Top-8 路由让每个 token 都能获得足够的专家协作。共享专家则像”通识教育”,确保模型不会因为过度专业化而丧失基础能力。

对比Dense 架构(Qwen2.5)MoE 架构(Qwen3.6)
参数利用全部激活,每个 token 用全部参数稀疏激活,每个 token 只用 6.25%
推理成本与参数量成正比与活跃参数成正比
知识容量受限于参数量128 专家 = 128 种专业技能
风险路由坍缩(某些专家永不激活)

深度推理模式:想清楚再回答

这是 Qwen3.6-Plus 最大的创新。传统模型面对复杂问题要么一步给答案(容易出错),要么依赖 few-shot 示例引导推理(依赖 prompt 工程)。Qwen3.6-Plus 引入了两种模式:

标准模式 — 快速生成,适合简单问答、翻译、摘要,响应速度优先。

深度推理模式 — 模型在内部自动展开推理链:

  1. 问题分解 — 将复杂问题拆分为子问题
  2. 假设生成 — 对每个子问题提出候选假设
  3. 验证与修正 — 自我验证推理步骤的正确性
  4. 路径回溯 — 发现错误时自动回退到上一个正确节点
用户:一个水池有两个进水管和一个出水管...

  ┌─────┴──────┐
  │  问题分解    │  标准模式直接算
  │  1. 各管速率  │  深度模式先分解
  │  2. 净流量   │  → 验证每步
  │  3. 填满时间  │  → 发现矛盾时回溯
  └─────┬──────┘

   最终答案(含推理过程)

实测数据——深度推理模式在数学和逻辑题上的提升是代际级别的:

基准标准模式深度推理模式提升
MATH-50074.286.8+12.6
GPQA Diamond52.161.3+9.2
ARC-Challenge93.496.7+3.3
LiveCodeBench58.769.4+10.7

代价是推理时间增加约 3-5 倍。但对于需要准确性的场景——法律分析、金融计算、医疗问答——这是值得的权衡。一个 3 秒给出错误答案的模型,不如一个 15 秒给出正确答案的模型。

触发方式极简——在提示词前加 think: 即可。不需要复杂的 prompt 工程,不需要换模型。

维度标准模式深度推理模式
推理链单步直出多步分解 + 自验证
延迟快(1x)慢(3-5x)
准确率基准+3~13pp
适用场景日常对话、翻译数学、逻辑、代码、法律
触发方式默认提示词加 think:

深度推理模式的意义不在于”又快了多少”,而在于它第一次让开源模型具备了”知错能改”的能力。路径回溯意味着模型不是一路走到黑,而是能在推理过程中自我修正——这比单纯堆参数更接近”思考”的本质。

中文能力:原生优势的延续

作为国产模型,Qwen3.6-Plus 在中文场景上的表现是最大的卖点:

能力维度指标对比
古文理解古籍问答准确率 91.3%同规模开源模型最高
成语使用正确率 96.8%
典故引用准确率 89.2%
法律文本LawBench 78.6超过所有同规模开源模型
多方言粤语/吴语/闽南语基本理解与翻译首次支持

训练数据中中文语料占比从 Qwen2.5 的 18% 提升到 Qwen3.6 的 31%——不是简单的数量堆叠,而是覆盖了更广泛的中文互联网内容和专业文献。

200K 上下文:不是更长,是更准

Qwen3.6-Plus 将上下文窗口扩展到 200K,但更关键的是优化了长文本的信息利用效率:

测试指标结果
Needle-in-a-Haystack200K 窗口信息检索准确率99.1%
多轮对话记忆50 轮以上长对话引用准确率保持稳定
文档级理解全局性问答 vs 逐段检索显著优于逐段

200K 上下文的真正价值不是”能塞更多文字”,而是文档级理解——能对整本技术文档进行全局性问答,而非逐段检索后拼凑答案。配合官方 RAG 框架,Qwen3.6-Plus 可以实现离线索引 → 检索相关片段 → 在 200K 窗口内整合多源信息 → 输出带引用的答案。

多模态能力

Qwen3.6-Plus 原生支持三种模态:

模态输入方式核心能力技术方案
文本文本问答、推理、代码、创作原生
视觉图片图像描述、OCR、图表分析、UI 理解ViT + Adapter
音频语音语音识别、语音翻译、情感分析Whisper 编码器 + Adapter

视觉方案采用 ViT + Adapter 架构,视觉 token 经过 Adapter 映射后与文本 token 拼接进入主 Transformer。比从头训练多模态更高效,且保持了纯文本能力的完整性。

音频方面,中文语音识别准确率达到 97.2%,中英混合场景 93.8%——这个数字在开源模型中是顶级水平。

代码能力

Qwen3.6-Plus 在代码领域进行了专项强化:

  • 训练数据 — 吸收 GitHub 上 3.2 亿个代码文件,覆盖 87 种编程语言
  • SFT 阶段 — 使用 Verified 数据集监督微调,确保代码正确性
  • RLHF 阶段 — 引入代码执行反馈,模型能从运行结果中学习
基准Qwen3.6-PlusDeepSeek-V3Claude 3.5 Sonnet
HumanEval89.687.192.0
MBPP82.380.484.7
LiveCodeBench69.466.872.1
SWE-Bench Lite28.425.733.2

开源模型中代码能力稳居第一梯队,与闭源顶级模型差距持续缩小。但 SWE-Bench Lite 28.4 vs Claude 3.5 的 33.2 仍有差距——在复杂工程任务上,闭源模型的优势依然明显。

部署与效率

MoE 架构的部署有天然优势——总参数 305B,但推理时只激活 38B:

部署方案硬件精度吞吐适用场景
单机 4×A100320GB 显存BF16~1800 token/s生产环境
单机 2×A100160GB 显存INT4~1200 token/s中等负载
单张 A10080GB 显存INT4 + offload~400 token/s开发测试

阿里同时发布优化推理框架 QServe 2.0

优化项效果
MoE 专用批处理调度器减少专家切换开销
KV Cache 压缩200K 上下文内存占用降低 40%
前缀缓存重复 prompt 场景首 token 延迟降低 70%

38B 活跃参数 + INT4 量化 = 一张 A100 就能跑 305B 参数的模型。这不是魔法,是 MoE 架构的天然优势——你只为你用到的专家付费。

竞品对比

2026 年开源模型市场,主要玩家各有侧重:

维度Qwen3.6-PlusLlama 4 17BGemma 4 27BDeepSeek-V3
总参数305B17B27B685B
活跃参数38B17B27B37B
上下文200K128K128K128K
深度推理✓ 原生✓(闭源)
多模态文本+视觉+音频文本文本+视觉文本
中文能力最强一般一般
开源协议Apache 2.0Llama LicenseGemma LicenseApache 2.0
商用限制月活 > 7 亿需申请月活 > 1 亿需申请
最佳定位中文+推理+开放英文轻量全能轻量代码+推理

Qwen3.6-Plus 的差异化非常清晰:中文场景 + 深度推理 + Apache 2.0。三个维度中任何一个都不是独家,但三者组合在开源模型中独一无二。

行业影响

Qwen3.6-Plus 的发布在三个维度上推动行业:

1. 深度推理从闭源特权变为开源标配。 当 OpenAI 的 o3 和 Anthropic 的 Claude 3.5 把深度推理作为闭源模型的护城河时,Qwen3.6-Plus 用 Apache 2.0 把这个能力开源了。这不只是技术民主化,更是商业策略——当开源模型也能”想清楚再回答”时,闭源模型的推理溢价就站不住了。

2. MoE 架构证明了自己。 305B 总参 / 38B 激活的配置,让 Qwen3.6-Plus 在效果上超越 72B Dense 模型,在成本上却更低。MoE 不再是实验性架构,而是大模型部署的成熟选择。

3. Apache 2.0 是最强的竞争力。 在 Llama 和 Gemma 都设有商用门槛的 2026 年,Qwen3.6-Plus 的无限制 Apache 2.0 许可证是企业选型的决定性因素。不是模型不好,是协议不好——这个问题 Qwen 替你解决了。

写在最后

Qwen3.6-Plus 最大的贡献不是某个基准分数的刷新,而是深度推理模式的引入。当开源模型不再只是”快速给出一个答案”,而是能”想清楚再回答”时,AI 应用的可靠性就上了一个台阶。

对于中文开发者来说,Qwen3.6-Plus 几乎是目前最均衡的选择——中文理解最强、推理能力最新、部署成本可控、许可证最自由。但从”能用”到”好用”之间,38B 活跃参数在复杂工程任务上与闭源模型的差距仍然存在。想清楚再回答是对的,但想清楚了也不一定答对——这是开源模型接下来要解决的问题。