跳转到主要内容
Home / 前沿动态 / 2026.06.01

MiniMax M3:MSA 稀疏注意力让 1M 上下文真正可用

MiniMax M3 于 2026 年 6 月 1 日发布,428B MoE 架构,原生多模态,1M 上下文窗口。核心创新 MSA 稀疏注意力将百万 token 的每 token 计算量降至上一代的 1/20,SWE-Bench Pro 59.0% 超越 GPT-5.5 与 Gemini 3.1 Pro。

2026 年 6 月 1 日,MiniMax 发布 M3——这不是一次常规的参数堆叠,而是一次注意力机制的结构性创新。M3 搭载全新 MSA(MiniMax Sparse Attention)稀疏注意力架构,将上下文窗口从 M2.7 的 200K 直接拉到 1M token,同时把百万 token 下的每 token 计算量压到上一代的 1/20

长上下文的瓶颈从来不是"能不能装下",而是"装下之后算不算得动"——M3 用 MSA 给出了第一个工程上成立的答案。

M3 已上线 MiniMax Code、Token Plan 和 API 平台,428B 权重同步开源至 HuggingFaceGitHub

核心规格

维度 参数
总参数量 428B(MoE)
激活参数 22B
视觉编码器 600M
专家数量 128 个,每 token 激活 4 个
上下文窗口 1M token(512K 保底下限)
输入模态 文本、图像、视频(原生训练)
精度格式 BF16 / MXFP8
开源协议 开源权重可商用

M3 是国内第一个同时具备前沿 Coding 能力 + 1M 上下文 + 原生多模态的模型,也是目前唯一具备这三要素的开源模型。

MSA:让 1M 上下文真正算得动

问题:全注意力的平方级诅咒

M2.7 时代使用全注意力(Full Attention)——每个 token 都要和其他所有 token 计算注意力。这在 200K 以内尚可承受,但一旦冲向 1M,计算复杂度按平方级爆炸,长上下文变成"装得下但算不起"的奢侈品。

解法:MSA 块级稀疏注意力

M3 引入的 MSA(MiniMax Sparse Attention)遵循奥卡姆剃刀原则——只保留最本质的组件:

  • Index Branch(索引分支):一个超轻量级头对全部 KV 块打分,为每个 GQA 组独立选出 Top-k 最相关的 KV 块
  • Main Branch(主分支):仅对选中的块执行精确的块稀疏注意力
  • 本地块始终保留:无论得分高低,当前局部上下文块永远参与计算

与 DSA、MoBA 等方案相比,MSA 能更精确地为 KV 分块,实现更高的有效上下文覆盖。

算子层协同优化

光有算法不够,M3 在算子层做了深度优化:

  • 以 KV 块为外层聚合命中 query 的 KV outer gather Q
  • 每块只读一次、访存连续
  • 在 M3 的 head 配比下,计算访存比显著优于通行方法
  • 比开源的 Flash-Sparse-Attention、flash-moba 快 4 倍以上

实测收益

指标 M3 vs M2.7(1M 上下文)
每 token 计算量 1/20
Prefill 加速 9 倍
Decoding 加速 15 倍
能力损失 多数对照实验中与全注意力打平

在 109B 参数的原生多模态模型上,MSA 在 1M 上下文下将每 token 注意力计算量降低 28.4 倍,配合协同设计的 kernel,在 H800 上实现 14.2× prefill、7.6× decoding 的 wall-clock 加速。

前沿 Coding 与 Agentic 能力

Coding 与 Agent 是 M3 的重点提升方向,在多个国际权威评测中达到领先水平:

基准 M3 得分 说明
SWE-Bench Pro 59.0% 超越 GPT-5.5、Gemini 3.1 Pro
Terminal Bench 2.1 66.0% 终端执行能力
SWE-fficiency 34.8% 工程效率
KernelBench Hard 28.8% 内核级编程
MCP Atlas 74.2% 工具链协作

SWE-Bench Pro 59.0% 是一个值得单独解读的数字——M2.7 是 56.2%,M3 提升到 59.0%,直接把 GPT-5.5 和 Gemini 3.1 Pro 甩在身后

交互式用户模拟器:缩小 Benchmark 与真实体验的差距

当前大多数代码 Agent 的训练与评测都建立在单轮任务假设上。但真实开发场景并非如此——用户会在同一 Session 中持续协作:澄清需求、调整方案、交叉派发任务、根据中间结果多轮迭代。

M3 团队构建了交互式用户模拟器框架,模拟真实开发者的协作行为:

  • 需求补充
  • 方案讨论
  • 反馈修正
  • 连续任务切换
  • 复杂项目迭代

这让 Agent 不再只是被动执行指令,而是能主动与用户协同完成任务。下一代 Agent Coding 比的不仅是代码生成,更是长期协作能力、规划能力与人机协同效率

原生多模态:从 Step 0 开始

M3 是一个从训练第一步就进行多模态混合训练的模型。这种原生多模态路线让不同模态数据的语义空间更天然、更高度地融合。

关键工程决策:

  • 大量实验显示 Interleaved data(交错数据) 相比合成类数据更容易 scale
  • M3 周期重构了整套文本预训练数据管线
  • 产生大量 interleaved data 并用于训练
  • 总训练规模约 100 万亿交错 token

实际任务:独立复现 ICLR 论文

M3 团队做了一个真正"前沿模型三要素"同时发挥的测试——把 1M 超长上下文、顶级编程/Agent 能力、原生多模态同时丢进一个长线程复杂任务。

任务:让 M3 独立复现 ICLR 2025 Outstanding Paper Award 获奖论文 Learning Dynamics of LLM Finetuning

这篇论文研究大语言模型微调的学习动力学,复现需要:

  • 完整理解论文方法(多模态输入:PDF + 图表)
  • 长上下文保持论文细节不丢失
  • 编程实现实验代码并调试
  • Agent 式地迭代优化实验结果

M3 完成了独立复现——这是第一次有开源模型在长上下文 + 编程 + 多模态三个维度同时发力,解决一个真实的科研复现任务。

部署与可用性

项目 说明
API 平台 platform.minimaxi.com
开源权重 HuggingFace
本地部署 SGLang / vLLM / TensorRT-LLM / Transformers
NVIDIA NIM 已上线 NVIDIA NIM Endpoint
硬件支持 NVIDIA Blackwell / H100 / H800
Token Plan 包月畅用,全模态共享
Agent 体验 agent.minimax.io

SGLang 部署示例(8 GPU 节点)

python -m sglang.launch_server \
    --model-path MiniMaxAI/MiniMax-M3 \
    --dtype bfloat16 \
    --tp-size 8 \
    --ep-size 8 \
    --trust-remote-code \
    --mem-fraction-static 0.8 \
    --enable-multimodal \
    --quantization mxfp8 \
    --attention-backend flashinfer \
    --mm-attention-backend flashinfer_cudnn \
    --moe-runner-backend deep_gemm \
    --chunked-prefill-size 8192 \
    --reasoning-parser minimax-m3 \
    --tool-call-parser minimax-m3-nom

行业影响

M3 的发布在三方面改变了行业认知:

1. 长上下文从"参数表数字"变成"工程现实"。 此前多家厂商标称百万上下文,但实际可用区间往往在 300K 以内。MSA 让 1M 上下文的每 token 计算量降到 1/20,这意味着长上下文不再是营销话术,而是可部署的生产能力。

2. 开源模型首次在 Coding 上反超闭源旗舰。 SWE-Bench Pro 59.0% 超越 GPT-5.5 和 Gemini 3.1 Pro——这不是学术基准上的微弱领先,而是真实 GitHub issue 修复任务上的实战超越。开源与闭源的差距在工程场景中急剧缩小。

3. 多模态从"后训练拼接"走向"原生融合"。 M3 从 Step 0 就进行多模态混合训练,配合 interleaved data 的 scale 路线,让多模态不再是"文本模型 + 视觉模块"的缝合产物。

M3 的意义不在于又一次跑分上涨,而在于它证明了稀疏注意力可以既简洁又高效——当 1M 上下文的计算成本降到 1/20,长上下文终于从"实验室能力"变成了"生产线能力"。