Qwen3.6-Plus：开源模型第一次学会「想清楚再回答」

2026 年 4 月 10 日，阿里云在杭州云栖小镇举办通义千问技术开放日，正式发布 Qwen3.6-Plus 模型。首席技术官周靖人在现场的原话：“Qwen3.6-Plus 是首个内置深度推理能力的开源中文大模型，我们希望让每一位开发者都能用上’会思考’的 AI。”

“会思考”三个字不是修辞——2026 年以来，开源大模型进入”推理能力”竞赛阶段，DeepSeek-V3 和 Claude 3.5 均在推理深度上发力，但都是在闭源或半闭源体系内。Qwen3.6-Plus 做了一件不同的事：把深度推理能力放进了开源模型里，而且用的是最宽松的 Apache 2.0 许可证。从 Qwen2.5 到 Qwen3.6，不是版本号的递增，是推理范式的一次跃迁。

核心升级一览

特性	Qwen2.5-72B	Qwen3.6-Plus	变化
架构	Dense	MoE（混合专家）	架构换代
总参数	72B	305B	+324%
活跃参数	72B	38B	-47%
上下文	128K	200K	+56%
推理模式	标准生成	标准 + 深度推理	范式跃迁
多模态	文本	文本 + 视觉 + 音频	+2 模态
开源协议	Apache 2.0	Apache 2.0	无商业限制

最引人注目的数字是活跃参数仅 38B——实际推理时的计算成本接近一个 38B Dense 模型，但效果远超此规模。MoE 架构的核心魔法：用参数量换能力，用稀疏激活换效率。

MoE 架构：128 专家 + Top-8 路由

Qwen3.6-Plus 采用细粒度 MoE 架构，这不是简单地把模型做大——是把模型做”专”：

组件	规格	作用
专家数量	128 个	每个 FFN 层包含 128 个并行专家网络
路由策略	Top-8	每个 token 激活 8 个专家，激活率 6.25%
共享专家	4 个	始终激活，保证基础能力不丢失
负载均衡	辅助损失函数	确保专家利用率均匀，避免”路由坍缩”

设计的精妙之处：128 个专家各自专注于不同类型的知识和技能，Top-8 路由让每个 token 都能获得足够的专家协作。共享专家则像”通识教育”，确保模型不会因为过度专业化而丧失基础能力。

对比	Dense 架构（Qwen2.5）	MoE 架构（Qwen3.6）
参数利用	全部激活，每个 token 用全部参数	稀疏激活，每个 token 只用 6.25%
推理成本	与参数量成正比	与活跃参数成正比
知识容量	受限于参数量	128 专家 = 128 种专业技能
风险	无	路由坍缩（某些专家永不激活）

深度推理模式：想清楚再回答

这是 Qwen3.6-Plus 最大的创新。传统模型面对复杂问题要么一步给答案（容易出错），要么依赖 few-shot 示例引导推理（依赖 prompt 工程）。Qwen3.6-Plus 引入了两种模式：

标准模式 — 快速生成，适合简单问答、翻译、摘要，响应速度优先。

深度推理模式 — 模型在内部自动展开推理链：

问题分解 — 将复杂问题拆分为子问题
假设生成 — 对每个子问题提出候选假设
验证与修正 — 自我验证推理步骤的正确性
路径回溯 — 发现错误时自动回退到上一个正确节点

用户：一个水池有两个进水管和一个出水管...
        │
  ┌─────┴──────┐
  │  问题分解    │  标准模式直接算
  │  1. 各管速率  │  深度模式先分解
  │  2. 净流量   │  → 验证每步
  │  3. 填满时间  │  → 发现矛盾时回溯
  └─────┬──────┘
        │
   最终答案（含推理过程）

实测数据——深度推理模式在数学和逻辑题上的提升是代际级别的：

基准	标准模式	深度推理模式	提升
MATH-500	74.2	86.8	+12.6
GPQA Diamond	52.1	61.3	+9.2
ARC-Challenge	93.4	96.7	+3.3
LiveCodeBench	58.7	69.4	+10.7

代价是推理时间增加约 3-5 倍。但对于需要准确性的场景——法律分析、金融计算、医疗问答——这是值得的权衡。一个 3 秒给出错误答案的模型，不如一个 15 秒给出正确答案的模型。

触发方式极简——在提示词前加 think: 即可。不需要复杂的 prompt 工程，不需要换模型。

维度	标准模式	深度推理模式
推理链	单步直出	多步分解 + 自验证
延迟	快（1x）	慢（3-5x）
准确率	基准	+3~13pp
适用场景	日常对话、翻译	数学、逻辑、代码、法律
触发方式	默认	提示词加 `think:`

深度推理模式的意义不在于”又快了多少”，而在于它第一次让开源模型具备了”知错能改”的能力。路径回溯意味着模型不是一路走到黑，而是能在推理过程中自我修正——这比单纯堆参数更接近”思考”的本质。

中文能力：原生优势的延续

作为国产模型，Qwen3.6-Plus 在中文场景上的表现是最大的卖点：

能力维度	指标	对比
古文理解	古籍问答准确率 91.3%	同规模开源模型最高
成语使用	正确率 96.8%	—
典故引用	准确率 89.2%	—
法律文本	LawBench 78.6	超过所有同规模开源模型
多方言	粤语/吴语/闽南语基本理解与翻译	首次支持

训练数据中中文语料占比从 Qwen2.5 的 18% 提升到 Qwen3.6 的 31%——不是简单的数量堆叠，而是覆盖了更广泛的中文互联网内容和专业文献。

200K 上下文：不是更长，是更准

Qwen3.6-Plus 将上下文窗口扩展到 200K，但更关键的是优化了长文本的信息利用效率：

测试	指标	结果
Needle-in-a-Haystack	200K 窗口信息检索准确率	99.1%
多轮对话记忆	50 轮以上长对话引用准确率	保持稳定
文档级理解	全局性问答 vs 逐段检索	显著优于逐段

200K 上下文的真正价值不是”能塞更多文字”，而是文档级理解——能对整本技术文档进行全局性问答，而非逐段检索后拼凑答案。配合官方 RAG 框架，Qwen3.6-Plus 可以实现离线索引 → 检索相关片段 → 在 200K 窗口内整合多源信息 → 输出带引用的答案。

多模态能力

Qwen3.6-Plus 原生支持三种模态：

模态	输入方式	核心能力	技术方案
文本	文本	问答、推理、代码、创作	原生
视觉	图片	图像描述、OCR、图表分析、UI 理解	ViT + Adapter
音频	语音	语音识别、语音翻译、情感分析	Whisper 编码器 + Adapter

视觉方案采用 ViT + Adapter 架构，视觉 token 经过 Adapter 映射后与文本 token 拼接进入主 Transformer。比从头训练多模态更高效，且保持了纯文本能力的完整性。

音频方面，中文语音识别准确率达到 97.2%，中英混合场景 93.8%——这个数字在开源模型中是顶级水平。

代码能力

Qwen3.6-Plus 在代码领域进行了专项强化：

训练数据 — 吸收 GitHub 上 3.2 亿个代码文件，覆盖 87 种编程语言
SFT 阶段 — 使用 Verified 数据集监督微调，确保代码正确性
RLHF 阶段 — 引入代码执行反馈，模型能从运行结果中学习

基准	Qwen3.6-Plus	DeepSeek-V3	Claude 3.5 Sonnet
HumanEval	89.6	87.1	92.0
MBPP	82.3	80.4	84.7
LiveCodeBench	69.4	66.8	72.1
SWE-Bench Lite	28.4	25.7	33.2

开源模型中代码能力稳居第一梯队，与闭源顶级模型差距持续缩小。但 SWE-Bench Lite 28.4 vs Claude 3.5 的 33.2 仍有差距——在复杂工程任务上，闭源模型的优势依然明显。

部署与效率

MoE 架构的部署有天然优势——总参数 305B，但推理时只激活 38B：

部署方案	硬件	精度	吞吐	适用场景
单机 4×A100	320GB 显存	BF16	~1800 token/s	生产环境
单机 2×A100	160GB 显存	INT4	~1200 token/s	中等负载
单张 A100	80GB 显存	INT4 + offload	~400 token/s	开发测试

阿里同时发布优化推理框架 QServe 2.0：

优化项	效果
MoE 专用批处理调度器	减少专家切换开销
KV Cache 压缩	200K 上下文内存占用降低 40%
前缀缓存	重复 prompt 场景首 token 延迟降低 70%

38B 活跃参数 + INT4 量化 = 一张 A100 就能跑 305B 参数的模型。这不是魔法，是 MoE 架构的天然优势——你只为你用到的专家付费。

竞品对比

2026 年开源模型市场，主要玩家各有侧重：

维度	Qwen3.6-Plus	Llama 4 17B	Gemma 4 27B	DeepSeek-V3
总参数	305B	17B	27B	685B
活跃参数	38B	17B	27B	37B
上下文	200K	128K	128K	128K
深度推理	✓ 原生	✗	✗	✓（闭源）
多模态	文本+视觉+音频	文本	文本+视觉	文本
中文能力	最强	一般	一般	强
开源协议	Apache 2.0	Llama License	Gemma License	Apache 2.0
商用限制	无	月活 > 7 亿需申请	月活 > 1 亿需申请	无
最佳定位	中文+推理+开放	英文轻量	全能轻量	代码+推理

Qwen3.6-Plus 的差异化非常清晰：中文场景 + 深度推理 + Apache 2.0。三个维度中任何一个都不是独家，但三者组合在开源模型中独一无二。

行业影响

Qwen3.6-Plus 的发布在三个维度上推动行业：

1. 深度推理从闭源特权变为开源标配。 当 OpenAI 的 o3 和 Anthropic 的 Claude 3.5 把深度推理作为闭源模型的护城河时，Qwen3.6-Plus 用 Apache 2.0 把这个能力开源了。这不只是技术民主化，更是商业策略——当开源模型也能”想清楚再回答”时，闭源模型的推理溢价就站不住了。

2. MoE 架构证明了自己。 305B 总参 / 38B 激活的配置，让 Qwen3.6-Plus 在效果上超越 72B Dense 模型，在成本上却更低。MoE 不再是实验性架构，而是大模型部署的成熟选择。

3. Apache 2.0 是最强的竞争力。 在 Llama 和 Gemma 都设有商用门槛的 2026 年，Qwen3.6-Plus 的无限制 Apache 2.0 许可证是企业选型的决定性因素。不是模型不好，是协议不好——这个问题 Qwen 替你解决了。

写在最后

Qwen3.6-Plus 最大的贡献不是某个基准分数的刷新，而是深度推理模式的引入。当开源模型不再只是”快速给出一个答案”，而是能”想清楚再回答”时，AI 应用的可靠性就上了一个台阶。

对于中文开发者来说，Qwen3.6-Plus 几乎是目前最均衡的选择——中文理解最强、推理能力最新、部署成本可控、许可证最自由。但从”能用”到”好用”之间，38B 活跃参数在复杂工程任务上与闭源模型的差距仍然存在。想清楚再回答是对的，但想清楚了也不一定答对——这是开源模型接下来要解决的问题。

Previous Zorin OS 18：Windows 10 停更后最好的 Linux 替代方案 Next Seedance 2.0：AI 视频生成第一次有了导演思维