MiniMax M2.7：让模型第一次参与了自身的进化

2026 年 4 月，MiniMax 发布 M2.7——这不是一次常规的模型升级，而是第一次有语言模型深度参与了自身的进化过程。M2.7 在开发阶段自主更新记忆、构建技能、优化学习流程，甚至独自完成 100+ 轮代码脚本的迭代优化，最终将性能提升 30%。

如果模型能优化自己，那模型迭代的瓶颈就从人力转向了算力——这是 M2.7 最重要的行业信号。

M2.7 已上线 MiniMax Agent 和 API 平台，229B 参数权重同步开源至 HuggingFace 和 GitHub。

核心升级

M2.7 的核心能力可以从四个维度概括：

维度	能力	关键数据
自我进化	Agent Harness 闭环	100+ 轮自主优化，性能提升 30%
软件工程	理解生产系统	SWE-Pro 56.22%，匹配 GPT-5.3-Codex
办公自动化	Excel/Word/PPT 多轮编辑	GDPval-AA ELO 1495，开源最高
Agent 协作	Agent Teams 多角色协作	MM Claw 端到端 62.7%，接近 Sonnet 4.6

M2.7 参数量 229B，与 M2.5 一致，架构不变但能力质变。这说明模型能力的瓶颈已经不是参数量，而是训练方法论。

Agent Harness：自我进化的闭环

M2.7 的核心突破是 Agent Harness——一个让模型自主构建、维护和改进技能系统的框架。据官方介绍，模型在开发中被允许：

更新自身记忆
为强化学习实验构建数十个复杂技能
根据实验结果改进自身学习过程

最直接的证据：一个内部版本的 M2.7 自主完成了一项编程脚本的 100+ 轮优化——分析失败轨迹、修改代码、运行评估、决定保留或回滚——最终性能提升 30%。

这种能力的本质是将人类工程师的调试经验内化为模型的自我迭代能力。类比：传统 RL 训练是”考试刷题”，Agent Harness 是”边工作边总结方法论”——前者只提升特定题型，后者提升的是通用解决问题的能力。

强工程与 Coding 能力

M2.7 不只是写代码，而是理解生产系统。官方称它能关联监控指标、执行链路追踪、在数据库中验证根因、做出 SRE 级别的决策，MiniMax 内部使用 M2.7 后多次将生产事故恢复时间压缩到 3 分钟以内。

在工程基准上的表现：

基准	M2.7 得分	参考对标
SWE-Pro	56.22%	匹配 GPT-5.3-Codex
SWE Multilingual	76.5	开源模型最高
Multi SWE Bench	52.7	开源模型最高
VIBE-Pro	55.6%	接近 Opus 4.6
Terminal Bench 2	57.0%	—
NL2Repo	39.8%	—

SWE-Pro 56.22% 是一个值得单独解读的数字——这意味着在真实 GitHub issue 修复任务上，M2.7 和 GPT-5.3-Codex 打平，而后者是 OpenAI 专门为代码优化的模型。

复杂 Office 自动化

M2.7 支持 Excel、Word、PPT 的高保真多轮编辑，产出的是可直接交付的可编辑文档。在办公场景的基准上：

基准	M2.7 得分	说明
GDPval-AA ELO	1495	开源模型最高，超越 GPT-5.3
Toolathon	46.3%	全球顶-tier
MM Claw（40+ 技能）	97% 合规率	—
MM Claw 端到端	62.7%	接近 Sonnet 4.6

娱乐与角色扮演

M2.7 还加强了角色一致性和情感智能。MiniMax 同步开源了 OpenRoom——一个将 AI 交互置于 Web GUI 空间中的交互式演示，支持实时视觉反馈和场景交互。

技术机制

Forge：可扩展的 Agent RL 框架

M2.7 的自我进化能力来自 MiniMax 自研的 Forge 框架——一个专为 Agent 强化学习设计的可扩展训练系统（Tech Blog）。

目前公开的细节有限，已知 Forge 的核心机制包括：

模型在真实任务环境中通过自主探索 + 自动验证完成训练闭环
传统 RLHF 依赖人类标注，Forge 让模型自行构建技能并从失败中学习
MiniMax 在 M2.5 的技术博客中将 Forge 描述为 “Scalable Agent RL Framework and Algorithm”

具体的技术实现（如奖励设计、技能注册机制、记忆更新算法）官方尚未公开，有待后续技术报告补充。

Agent Teams：多角色协作

M2.7 原生支持多 Agent 协作，每个 Agent 拥有稳定的角色身份和自主决策能力。官方描述为”stable role identity and autonomous decision-making”。这不是简单的任务分发，而是每个 Agent 维护自己的上下文和状态，在共享工作空间中协调行动。

推理参数

官方推荐配置：

参数	推荐值
temperature	1.0
top_p	0.95
top_k	40

注意 top_k=40 低于许多模型的默认值（通常 64-100），这意味着 M2.7 在采样时更保守，倾向于高概率词——这可能与其 Agent 任务中需要确定性输出的设计目标相关。

基准表现

基准	M2.7	排名参考
MLE Bench Lite（22 项 ML 竞赛）	66.6% 奖牌率	仅次于 Opus 4.6、GPT-5.4
GDPval-AA ELO	1495	开源最高，超 GPT-5.3
SWE-Pro	56.22%	匹配 GPT-5.3-Codex
SWE Multilingual	76.5	开源最高
VIBE-Pro	55.6%	接近 Opus 4.6
MM Claw 端到端	62.7%	接近 Sonnet 4.6
Toolathon	46.3%	全球顶-tier
Terminal Bench 2	57.0%	—

MLE Bench Lite 的 66.6% 奖牌率值得特别关注——这是一个由 22 项真实 ML 竞赛组成的基准，M2.7 的排名仅次于 Opus 4.6 和 GPT-5.4。这意味着M2.7 不只是”能写代码”，而是”能做机器学习工程”。

竞品对比

维度	M2.7	Claude Opus 4.6	GPT-5.4	Qwen 3
定位	自进化 Agent 模型	通用推理	可靠性优先	开源通用
开源	✅ 229B	❌	❌	✅
自我进化	✅ Forge	❌	❌	❌
多 Agent	✅ 原生 Agent Teams	✅	✅	部分
本地部署	SGLang / vLLM / Transformers	不可	不可	Ollama / vLLM

M2.7 的差异化定位很明确：唯一具备自我进化能力的开源模型。 竞品在 SWE-Pro 等基准上的具体分数多数未公开，但从 M2.7 匹配 GPT-5.3-Codex 的结果来看，工程实战能力已进入闭源顶级区间。229B 的开源权重意味着企业可以私有化部署——这是 Opus 4.6 和 GPT-5.4 无法提供的。

定价与可用性

项目	说明
API 平台	platform.minimaxi.com
开源权重	HuggingFace / ModelScope
本地部署	SGLang / vLLM / Transformers
NVIDIA NIM	已上线 NVIDIA NIM Endpoint
Token Plan	包月畅用，全模态共享
Agent 体验	agent.minimax.io

MiniMax 采用 Token Plan 包月制，229B 模型开源意味着企业可以自行部署，数据不离开内网。

行业影响 + 写在最后

M2.7 的发布在三方面改变了行业认知：

1. 模型迭代的范式转移。 当模型能参与自身优化，迭代的瓶颈从”人类工程师的标注速度”变成了”算力投入”。这意味着拥有算力的玩家在模型进化上的优势将被进一步放大。

2. Agent 闭环从概念走向工程。 此前 Agent 的”自我反思”大多是 prompt engineering 的结果，M2.7 的 Agent Harness 则是训练层面的机制——让模型真正学会了”从失败中提取信号”。

3. 开源与闭源的差距在实战场景中急剧缩小。 M2.7 在 SWE-Pro 上匹配 GPT-5.3-Codex，在 MLE Bench 上仅次于 Opus 4.6 和 GPT-5.4——这些不是学术基准，而是工程实战。“开源 + 私有部署 + 接近闭源水平”对企业而言是一个极具吸引力的组合。

M2.7 的意义不在于又一次跑分上涨，而在于它证明了模型可以成为自身进化的参与者——当 AI 学会了改进自己，迭代的增速将不再是线性的。

Previous 腾讯 Hy3 Preview：295B 做减法，到底是选择还是无奈 Next DeepSeek-V4：开源追平闭源后，把价格打到 1/21