跳转到主要内容
Home / 前沿动态 / 2026.06.15

智谱 GLM-5.2:744B MoE 与真正可用的 1M 上下文

智谱于 2026 年 6 月 15 日发布 GLM-5.2,744B MoE 架构(40B 激活),1M 真实可用上下文,MIT 协议开源。LLM Benchmark Code V3 全球第三,编程能力对标 Claude Opus 4.8,在 Claude Fable 5 被禁后成为最强开源平替。

2026 年 6 月 15 日,智谱通过港交所公告确认推出最新一代旗舰模型 GLM-5.2。这是智谱自 2 月发布 GLM-5 以来的又一次重要迭代——744B 总参数的 MoE 架构,1M 真实可用的上下文窗口,MIT 协议全面开源。

发布时机耐人寻味。6 月 12 日,美国商务部一纸禁令要求 Anthropic 暂停向所有境外用户开放 Claude Fable 5 和 Mythos 5 模型——连 Anthropic 自己的外籍员工都被禁止使用。72 小时后,智谱全量开放 GLM-5.2,并在公告中强调:

"前沿智能不应只属于少数人,也不应被少数规则随时收回。"

这不是一次普通的版本更新,而是国产开源模型第一次在编程实战场景摸到第一梯队门槛。

核心规格

维度 GLM-5.2
架构 Mixture of Experts (MoE)
总参数量 744B
激活参数 40B
专家数量 256 个,每 token 动态路由至 8 个
注意力机制 DSA(DeepSeek Sparse Attention)升级版
训练算法 异步 Agent RL(新强化学习算法)
训练规模 10,000+ 可验证环境,覆盖 9 种编程语言
训练数据 28.5 万亿 token
知识截止 2025 年 11 月
上下文窗口 1M token(从 5.1 的 200K 提升 5 倍)
支持模态 纯文本 / 代码(不含多模态)
开源协议 MIT(可商用、可修改、可自部署)
训练硬件 华为昇腾 910B + MindSpore 框架

值得注意的几个工程决策:

  • MoE + DSA 路线延续:稀疏注意力机制做了大幅升级,这是支撑 1M 上下文真实可用的关键
  • 异步 Agent RL:专为长推理链和 Agent 动作设计的强化学习算法,让模型在数千步工具调用后仍保持状态一致
  • 昇腾全栈训练:全程基于华为昇腾 910B 芯片与 MindSpore 框架训练,无 NVIDIA 依赖,在国内大模型中较为罕见

1M 上下文:真正可用,不只是参数表数字

从 GLM-5.1 的 200K 到 5.2 的 1M,5 倍提升。但行业里"标称百万"的模型不少,"真正可用"的却不多——GPT-5.5 在 50 万到 100 万 token 区间出现能力腰斩,DeepSeek V4 Pro 在多针检索测试中仅有约 60% 通过率。

GLM-5.2 依赖升级后的 DSA 稀疏注意力机制,在长序列下依然能保持推理精度。官方给出的实测验证场景:

测试场景 上下文量 结果
74 万条服务器日志根因分析 ~500K+ token 准确定位 25 天前的连接池警告行号
4 份合同交叉分析 ~300K token 揪出跨文档条款冲突
工具调用正确率 正确率、JSON 格式合法性 100% 通过

社区实测反馈:在 400-500K 上下文长度下,"准确性和指令遵循跟 Claude 差距不是很大,非常的稳"。

20 万 token 大概能装下几篇长文档,100 万 token 意味着你可以把一整个中型代码仓库——所有源文件、配置、测试用例、提交记录——一股脑全丢进去,模型一次性就能完整理解。

编程能力:对标 Claude Opus 4.8

代码能力是 GLM-5.2 最能打的地方,也是 Claude 的基本盘。

LLM Benchmark Code V3 评测

在第三方独立测评 LLM Benchmark Code V3 中,GLM-5.2(Max 档)综合排名全球第三,仅次于 GPT-5.5 和 Claude Opus 4.8。

排名 模型 综合得分
1 GPT-5.5
2 Claude Opus 4.8 87.14
3 GLM-5.2 81.43
Fable 5 88.57(已被禁)

工程场景评级

在 Flutter 开发、Web 前端、游戏开发等五个工程场景里,GLM-5.2 拿了三个 A 档,而上一代 GLM-5.1 连全部任务都跑不完。

实测案例

  • 机械天文钟:一次性生成包含五大同心圆层、七颗齿轮的机械天文钟,产出 925 行无外部依赖的纯前端代码
  • 寻路算法可视化:处理 A*、Dijkstra 与 BFS 三种寻路算法的可视化时,模型能自主实现优先队列组件而非调用库函数
  • 依赖管理:主动拒绝越界方案,建议保持 pip 依赖关系

High / Max 双档思考强度

模型引入 High 与 Max 两档思考强度设定:

  • High 档:日常编程任务,平衡速度与深度
  • Max 档:复杂编码任务,确保架构级逻辑严谨

价格:碾压级的性价比

订阅价格对比

方案 GLM-5.2 (Coding Plan) Claude Max GPT Pro
Lite ¥49/月,~80 prompts/5h $20/月 $20/月
Pro ¥50/月,~400 prompts/5h $50/月 $50/月
Max ¥96/月,~1600 prompts/5h $200/月 (Max 20x) $200/月

GLM Max 仅 ¥96/月,不到 Claude Max $200/月 的一半。且所有套餐同权使用完整 GLM-5.2 + 1M 上下文,无阉割版。

API 价格对比

模型 输入 ($/1M) 输出 ($/1M) 倍率 (vs GLM)
GLM-5.2 (估) ~$1.40 ~$4.40 1x
DeepSeek V4 Pro ~$0.44 ~$0.88 0.25x
Claude Opus 4.6 ~$15.00 ~$75.00 ~14x
GPT-5.2 Pro $21.00 $168.00 ~28x
Kimi K2.6 ~$0.95 ~$3.80 ~0.78x

GLM-5.2 定位精准:比 Claude/GPT 便宜一个数量级,比 DeepSeek 贵但能力明显更强——性价比甜点区

已知短板

GLM-5.2 并非完美,几个明显短板需要客观看待:

1. 推理速度问题。 在相同复杂任务中,GLM-5.2 耗时 45 分钟,而 Claude Opus 4.8 仅用 33 分钟完成。有用户反馈其响应速度打破了 DeepSeek 此前的最慢记录。

2. 指令遵循分化。 盲测显示 GLM-5.2 在多步指令执行中偶尔缺失分隔符,否定约束下首次调用输出为空,暴露出"过度思考挤占输出空间"的倾向。

3. 复杂推理仍有差距。 HLE(人类终极考试)与 GPQA 等测试中,与顶尖模型存在约 5% 的差距。

4. 第三方基准缺失。 智谱官方未公布 GLM-5.2 在 SWE-bench 等标准化基准上的官方评测数据,第三方验证需要等待 API 正式上线后展开。

开源生态:MIT 协议的战略意义

GLM-5.2 坚持 MIT 协议开源——这是目前最宽松的开源协议之一:

  • 用户可以免费下载、修改、二次训练
  • 开发者能够把它私有化部署在自己的服务器上
  • 不用担心哪天被远程关闭

这正好戳中了当前企业用户最大的痛点。在 Claude Fable 5 因出口管制对美国境外用户暂停访问的背景下,智谱此举被部分开发者视为国产替代方案的重要补充

开源权重已发布至 HuggingFace,支持本地部署与商用修改。

行业影响

1. 国产模型从"追赶海外"进入"巅峰内竞"。 GLM-5.2 与 Kimi K2.7 Code 同周发布,两款模型均聚焦编程领域,却在技术路线上差异显著——这标志着国产大模型已进入内部竞争阶段。

2. 1M 上下文成为旗舰模型标配入场券。 Anthropic Claude Opus 4.8、OpenAI GPT-5.5、DeepSeek V4 Pro 均标称百万级窗口。但"标称"与"有效可用"之间存在明显距离,GLM-5.2 是少数强调"真正可用"的玩家。

3. 大模型从参数竞赛走向算账时代。 2026 年以来,成本效率取代参数规模成为厂商对外竞争的新卖点。中国日均 Token 调用量已突破 140 万亿次,较 2024 年初增长超千倍。编程场景率先跑通商业化路径——Anthropic 凭借编程订阅实现年化经营性收入 440 亿美元并首次盈利。

4. 资本加速向头部集中。 智谱股价半年翻 13 倍,市值突破 7000 亿港元;DeepSeek 估值推高至 450 亿美元以上;Kimi 完成 20 亿美元融资。

GLM-5.2 的意义不在于又一次跑分上涨,而在于它证明了开源模型可以在编程实战场景摸到第一梯队门槛——当 Claude 被禁用,开发者第一次有了一个真正能用的开源平替。