2026 年 6 月 12 日,月之暗面发布并开源 Kimi K2.7 Code——这是 K2 系列的第五个模型,也是第一个明确以"Code"命名的版本。
参数表上看,1.1 万亿 MoE、256K 上下文、代码基准提升 21.8%,这似乎又是一场模型军备竞赛的常规更新。但 K2.7 Code 最反直觉的升级藏在代码能力之外——平均思考 token 消耗减少了 30%。
过去两年 AI 编程有个怪现象:模型越聪明,越喜欢"炫技式推理"。 你让它写个简单脚本,它能先给你分析需求背景、技术选型、架构设计,最后才慢悠悠输出三行代码。这种"过度思考"本质上是一种隐形成本——开发者付的钱,很大一部分是为模型那段冗长的自我表演买单,代码反而成了副产品。
K2.7 Code 直接把这毛病改了。官方说法叫"大幅改善长程任务中的过度思考倾向",简单说就是:模型学会了闭嘴干活。
核心规格
| 维度 | 参数 |
|---|---|
| 架构 | MoE(Mixture of Experts) |
| 总参数量 | 约 1.1 万亿(1T) |
| 每 token 激活参数 | 320 亿(32B) |
| 专家数量 | 384(每 token 选 8 个 + 1 个共享专家) |
| 层数 | 61 层(含 1 个 dense 层) |
| 注意力机制 | MLA(Multi-Latent Attention),KV-cache 压缩 |
| 上下文窗口 | 256K token |
| 视觉编码器 | MoonViT(4 亿参数),支持图片和视频输入 |
| 量化 | Native INT4 原生量化 |
| 开源协议 | Modified MIT |
| 思考模式 | 强制开启(不支持关闭) |
MLA 注意力机制
MLA(Multi-Latent Attention)是 K2 系列的关键设计——通过学习到的潜在投影压缩 KV-cache,使得 256K 上下文窗口在实际推理中不会占用过多显存。
与 K2.6 的关系
K2.7 Code 基于 K2.6 构建,核心 MoE 与 K2.6 基本一致,更像在 K2.6 之上做 coding-focused agentic tuning——强化长上下文编程、长程 Agent 工具调用与工程任务完成率,而不是推倒重来。MoonViT、图像与视频输入能力均保留。
官方口径很直白:非编程任务请继续用 K2.6。 在通用对话、办公写作等场景,专用 Coding 模型反而可能倒退。
对比 K2.6:思考量省 30%,所有基准全面提升
月之暗面官方公布的基准对比(Thinking 模式,temperature=1.0,top_p=0.95):
| 基准测试 | K2.6 | K2.7 Code | 提升 |
|---|---|---|---|
| Kimi Code Bench v2 | 50.9 | 62.0 | +21.8% |
| Program Bench | 48.3 | 53.6 | +11.0% |
| MLS Bench Lite | 26.7 | 35.1 | +31.5% |
| Kimi Claw 24/7 Bench | 42.9 | 46.9 | +9.3% |
| MCP Atlas | 69.4 | 76.0 | +9.5% |
| MCP Mark Verified | 72.8 | 81.1 | +11.4% |
最值得关注的是 MCP Atlas 和 MCP Mark Verified 两项——这两个基准测试的是模型在 MCP(Model Context Protocol)工具调用场景下的表现。K2.7 Code 在 MCP Mark Verified 上拿到 81.1 分,高于 Claude Opus 4.8 在同口径下的 76.4 分。
绝对分对比:接近 Opus 4.8,仍落后 GPT-5.5
| 基准 | K2.6 | K2.7 Code | GPT-5.5 | Opus 4.8 |
|---|---|---|---|---|
| Kimi Code Bench v2 | 50.9 | 62.0 | 69.0 | 67.4 |
| Program Bench | 48.3 | 53.6 | 69.1 | 63.8 |
| MLS Bench Lite | 26.7 | 35.1 | 35.5 | 42.8 |
| Kimi Claw 24/7 Bench | 42.9 | 46.9 | 52.8 | 50.4 |
| MCP Atlas | 69.4 | 76.0 | 79.4 | 81.3 |
| MCP Mark Verified | 72.8 | 81.1 | 92.9 | 76.4 |
读表要点:
- Kimi Code Bench v2 上 K2.7(62.0)已逼近 Opus 4.8(67.4),但仍明显低于 GPT-5.5(69.0)
- Program Bench / MLS 上与北美顶流仍有差距
- MCP Mark Verified 上 K2.7(81.1)已超过 Opus 4.8(76.4),Agent 工具链场景值得实测
诚实的差距
月之暗面在发布会上主动公布了与 GPT-5.5 和 Opus 4.8 的对比差距——不是"我们超越了 XXX",而是"我们和顶级模型还有差距"。
如果 GPT-5.5 和 Opus 4.8 在编程上做到 70 分,K2.6 大约是 50 分,K2.7 Code 提升到了 60 分以上。这是一个诚实的分数。
"过度思考":被忽视的隐形成本
问题本质
过去两年,AI 编程有个怪现象:模型越聪明,越喜欢"炫技式推理"。你让它写个简单脚本,它能先给你分析需求背景、技术选型、架构设计,最后才慢悠悠输出三行代码。
这种"过度思考"本质上是一种隐形成本:
- 开发者付的钱,很大一部分是为模型那段冗长的自我表演买单
- 代码反而成了副产品
- 长代码生成场景下,token 消耗像流水一样走账
- 算下来有时比招程序员还贵
K2.7 Code 的解法
K2.7 Code 的改进方向很明确:
- 降低 Token 消耗:平均减少 30%,不是通过压缩模型实现,而是优化推理路径。模型学会了在合适的时候"停止思考,直接动手"
- 提升指令遵循能力:编程任务往往有复杂的需求描述,K2.6 在长程任务中容易丢失关键约束。K2.7 Code 的指令遵循能力显著增强
- 改善过度思考:核心卖点。月之暗面在发布会上没有回避这个问题,甚至专门花大篇幅解释"什么是过度思考、为什么它会影响用户体验"
把问题坦诚说出来再解决,比 PPT 上写"性能大幅提升"要诚实得多。
技术逻辑
K2.7 Code 采用 MoE 架构,相当于"专家会诊"——遇到不同问题,只激活最相关的专家模块(320 亿参数),而非每次调用全部 1.1 万亿参数。
而"思考 token"可以理解为模型的"脑力消耗":过去模型解题前要先写长篇"草稿",K2.7 Code 直接跳过无效草稿,省下的 30% 脑力全用在刀刃上。
性能数据同步上涨:Kimi Code Bench v2 提升 21.8%,Program Bench 提升 11%,MLS Bench Lite 提升 31.5%。内核其实是"更划算"——花更少的钱,办更靠谱的事,"更聪明"只是顺带的结果。
强制思考模式:一个明确的产品信号
K2.7 Code 默认开启思考,且不支持关闭——月之暗面认为这对编程任务的准确性至关重要。
如果手动关闭思考模式:
- API 会报错
- Kimi Code 会自动回退到 K2.6
这是一个明确的信号:K2.7 Code 不是要取代 K2.6,而是在编程这个细分场景做到极致。 非编程任务,K2.6 仍然是首选。
"无脑快"不是这款模型的追求,"聪明地快"才是。
定价与部署
API 定价
| 类型 | 价格 |
|---|---|
| 标准输入(1M token) | ¥6.5($0.95) |
| 标准输出(1M token) | ¥27($4.00) |
| 缓存命中输入 | ¥1.3 |
| 模型 ID | kimi-k2.7-code |
对比 Claude Fable 5 的 $10/$50 定价,K2.7 Code 的 API 成本大约是其十分之一。
高速版
6 月 15 日,Kimi K2.7 Code 高速版(kimi-k2.7-code-highspeed)开放调用:
| 场景 | 输出速度 |
|---|---|
| 常规编程场景 | 约 180 Token/s |
| 短上下文场景 | 最高 260 Token/s |
| 价格 | 普通版的 2 倍 |
这是明确的产品分层策略:普通版满足日常需求,高速版为高强度编程场景准备。
本地部署
- 推荐引擎:vLLM、SGLang、KTransformers
- INT4 量化版:可用(unsloth/Kimi-K2.7-Code-GGUF)
- 显存需求:Q4 量化需要约 639GB 显存,推荐 DGX H100 级别硬件
- API 兼容:完全兼容 OpenAI 格式,可直接通过 OpenAI SDK 调用,也能无缝接入 Aider、Claude Code、OpenCode 等主流编程工具
实测案例
macOS 风格前端 demo
任务是让 K2.7 Code 用单个 HTML 文件复刻一个 macOS 风格的操作系统 demo,包含开机动画、便签、浏览器等基本功能。
结果:K2.7 Code 的响应速度明显快于前代。模型"更果断"——在简单任务上不再反复自我质疑、长篇大论地思考然后再动手。由于生成耗时短,迭代速度也更快。最终效果:demo 完成度不错,开机动画、基本功能都能正常运行。
"智能体小镇"开发
智能体小镇(Agent Town)是斯坦福大学与谷歌合作推出的多智能体交互实验项目。
K2.7 Code 先输出了一份 PRD 文档,包含产品定位、市场背景、功能架构、技术方案等细节。然后在 PRD 指导下开发最小可行版本(MVP)。one-shot 生成结果存在一些 bug,画面无法正常渲染。经多次迭代优化,30 分钟后交付了完整可用版本。接入大模型后可正常与智能体对话。
AI 编程模型的迭代速度正在无限逼近"人类程序员的速度"。当模型学会果断行动而非反复思考,效率提升是指数级的。
已知限制
- 强制思考模式无法关闭:对简单任务来说可能产生不必要的延迟和成本
- Modified MIT 许可证:包含非商业限制,商用需要额外授权
- 本地部署门槛高:Q4 量化仍需 639GB 显存
- 第三方基准缺失:月之暗面尚未将 K2.7 Code 提交到 SWE-bench、GPQA 等独立基准测试,目前的数字来自官方自测
- LLM Benchmark Code V3:只有 K2.6 的老数据,K2.7 还没入榜
- DeepSWE 等 Agent 工程榜:官方、社区都没放出 K2.7 分数
行业影响
1. AI 编程从"做题家"转向"项目经理"。 K2.7 Code 同步发布的还有能调度 300 个子 Agent 的桌面 Agent 应用。300 个 Agent 并行协作,自主创建、自主协调,形成一个"数字团队"——这超出了"帮你工作"的范畴,直接接管你的工作流。
2. "开源 + 闭源"的组合拳。 K2.7 Code 模型本身开源,权重放在 HuggingFace 上,谁都能下载、微调、部署。但商业逻辑是:开源模型用来吸引开发者,真正的收入来自桌面 Agent。这相当于 Google 把 Android 开源了,但 GMS 牢牢攥在手里。
3. 资本买的是生态位。 月之暗面这半年的融资节奏堪称疯狂:2025 年 12 月 C 轮估值 43 亿美元,2026 年 2 月破 100 亿,5 月 D 轮 200 亿(美团龙珠领投),6 月再启 300 亿融资。半年累计融资超 39 亿美元,ARR 从 3 月的 1 亿美元飙到 4 月的 2 亿美元,一个月翻倍。
4. 国产 Coding 模型进入巅峰内竞。 GLM-5.2 与 K2.7 Code 同周发布,一款主打 1M 上下文 + 综合编程能力,一款主打成本效率 + Agent 工具调用——共同推动国产 AI 编程能力迈向全球第一梯队。
K2.7 Code 的意义不在于又一次跑分上涨,而在于它把"过度思考"这个被忽视的隐形成本摆上了台面——当模型学会闭嘴干活,AI 编程才真正从"炫技"走向"生产"。