跳转到主要内容
Home / 前沿动态 / 2026.06.12

Kimi K2.7 Code:让 AI 学会闭嘴干活的开源编程模型

月之暗面于 2026 年 6 月 12 日发布并开源 Kimi K2.7 Code,1.1T MoE 架构(32B 激活),256K 上下文。核心突破是解决长程任务中的'过度思考'问题,思考 token 消耗直降 30%,Kimi Code Bench v2 提升 21.8%。Modified MIT 协议开源,6 月 15 日上线 5-6 倍速高速版。

2026 年 6 月 12 日,月之暗面发布并开源 Kimi K2.7 Code——这是 K2 系列的第五个模型,也是第一个明确以"Code"命名的版本。

参数表上看,1.1 万亿 MoE、256K 上下文、代码基准提升 21.8%,这似乎又是一场模型军备竞赛的常规更新。但 K2.7 Code 最反直觉的升级藏在代码能力之外——平均思考 token 消耗减少了 30%

过去两年 AI 编程有个怪现象:模型越聪明,越喜欢"炫技式推理"。 你让它写个简单脚本,它能先给你分析需求背景、技术选型、架构设计,最后才慢悠悠输出三行代码。这种"过度思考"本质上是一种隐形成本——开发者付的钱,很大一部分是为模型那段冗长的自我表演买单,代码反而成了副产品。

K2.7 Code 直接把这毛病改了。官方说法叫"大幅改善长程任务中的过度思考倾向",简单说就是:模型学会了闭嘴干活。

核心规格

维度 参数
架构 MoE(Mixture of Experts)
总参数量 约 1.1 万亿(1T)
每 token 激活参数 320 亿(32B)
专家数量 384(每 token 选 8 个 + 1 个共享专家)
层数 61 层(含 1 个 dense 层)
注意力机制 MLA(Multi-Latent Attention),KV-cache 压缩
上下文窗口 256K token
视觉编码器 MoonViT(4 亿参数),支持图片和视频输入
量化 Native INT4 原生量化
开源协议 Modified MIT
思考模式 强制开启(不支持关闭)

MLA 注意力机制

MLA(Multi-Latent Attention)是 K2 系列的关键设计——通过学习到的潜在投影压缩 KV-cache,使得 256K 上下文窗口在实际推理中不会占用过多显存。

与 K2.6 的关系

K2.7 Code 基于 K2.6 构建,核心 MoE 与 K2.6 基本一致,更像在 K2.6 之上做 coding-focused agentic tuning——强化长上下文编程、长程 Agent 工具调用与工程任务完成率,而不是推倒重来。MoonViT、图像与视频输入能力均保留。

官方口径很直白:非编程任务请继续用 K2.6。 在通用对话、办公写作等场景,专用 Coding 模型反而可能倒退。

对比 K2.6:思考量省 30%,所有基准全面提升

月之暗面官方公布的基准对比(Thinking 模式,temperature=1.0,top_p=0.95):

基准测试 K2.6 K2.7 Code 提升
Kimi Code Bench v2 50.9 62.0 +21.8%
Program Bench 48.3 53.6 +11.0%
MLS Bench Lite 26.7 35.1 +31.5%
Kimi Claw 24/7 Bench 42.9 46.9 +9.3%
MCP Atlas 69.4 76.0 +9.5%
MCP Mark Verified 72.8 81.1 +11.4%

最值得关注的是 MCP AtlasMCP Mark Verified 两项——这两个基准测试的是模型在 MCP(Model Context Protocol)工具调用场景下的表现。K2.7 Code 在 MCP Mark Verified 上拿到 81.1 分,高于 Claude Opus 4.8 在同口径下的 76.4 分

绝对分对比:接近 Opus 4.8,仍落后 GPT-5.5

基准 K2.6 K2.7 Code GPT-5.5 Opus 4.8
Kimi Code Bench v2 50.9 62.0 69.0 67.4
Program Bench 48.3 53.6 69.1 63.8
MLS Bench Lite 26.7 35.1 35.5 42.8
Kimi Claw 24/7 Bench 42.9 46.9 52.8 50.4
MCP Atlas 69.4 76.0 79.4 81.3
MCP Mark Verified 72.8 81.1 92.9 76.4

读表要点:

  • Kimi Code Bench v2 上 K2.7(62.0)已逼近 Opus 4.8(67.4),但仍明显低于 GPT-5.5(69.0)
  • Program Bench / MLS 上与北美顶流仍有差距
  • MCP Mark Verified 上 K2.7(81.1)已超过 Opus 4.8(76.4),Agent 工具链场景值得实测

诚实的差距

月之暗面在发布会上主动公布了与 GPT-5.5 和 Opus 4.8 的对比差距——不是"我们超越了 XXX",而是"我们和顶级模型还有差距"。

如果 GPT-5.5 和 Opus 4.8 在编程上做到 70 分,K2.6 大约是 50 分,K2.7 Code 提升到了 60 分以上。这是一个诚实的分数。

"过度思考":被忽视的隐形成本

问题本质

过去两年,AI 编程有个怪现象:模型越聪明,越喜欢"炫技式推理"。你让它写个简单脚本,它能先给你分析需求背景、技术选型、架构设计,最后才慢悠悠输出三行代码。

这种"过度思考"本质上是一种隐形成本:

  • 开发者付的钱,很大一部分是为模型那段冗长的自我表演买单
  • 代码反而成了副产品
  • 长代码生成场景下,token 消耗像流水一样走账
  • 算下来有时比招程序员还贵

K2.7 Code 的解法

K2.7 Code 的改进方向很明确:

  1. 降低 Token 消耗:平均减少 30%,不是通过压缩模型实现,而是优化推理路径。模型学会了在合适的时候"停止思考,直接动手"
  2. 提升指令遵循能力:编程任务往往有复杂的需求描述,K2.6 在长程任务中容易丢失关键约束。K2.7 Code 的指令遵循能力显著增强
  3. 改善过度思考:核心卖点。月之暗面在发布会上没有回避这个问题,甚至专门花大篇幅解释"什么是过度思考、为什么它会影响用户体验"

把问题坦诚说出来再解决,比 PPT 上写"性能大幅提升"要诚实得多。

技术逻辑

K2.7 Code 采用 MoE 架构,相当于"专家会诊"——遇到不同问题,只激活最相关的专家模块(320 亿参数),而非每次调用全部 1.1 万亿参数。

而"思考 token"可以理解为模型的"脑力消耗":过去模型解题前要先写长篇"草稿",K2.7 Code 直接跳过无效草稿,省下的 30% 脑力全用在刀刃上。

性能数据同步上涨:Kimi Code Bench v2 提升 21.8%,Program Bench 提升 11%,MLS Bench Lite 提升 31.5%。内核其实是"更划算"——花更少的钱,办更靠谱的事,"更聪明"只是顺带的结果。

强制思考模式:一个明确的产品信号

K2.7 Code 默认开启思考,且不支持关闭——月之暗面认为这对编程任务的准确性至关重要。

如果手动关闭思考模式:

  • API 会报错
  • Kimi Code 会自动回退到 K2.6

这是一个明确的信号:K2.7 Code 不是要取代 K2.6,而是在编程这个细分场景做到极致。 非编程任务,K2.6 仍然是首选。

"无脑快"不是这款模型的追求,"聪明地快"才是。

定价与部署

API 定价

类型 价格
标准输入(1M token) ¥6.5($0.95)
标准输出(1M token) ¥27($4.00)
缓存命中输入 ¥1.3
模型 ID kimi-k2.7-code

对比 Claude Fable 5 的 $10/$50 定价,K2.7 Code 的 API 成本大约是其十分之一

高速版

6 月 15 日,Kimi K2.7 Code 高速版(kimi-k2.7-code-highspeed)开放调用:

场景 输出速度
常规编程场景 约 180 Token/s
短上下文场景 最高 260 Token/s
价格 普通版的 2 倍

这是明确的产品分层策略:普通版满足日常需求,高速版为高强度编程场景准备。

本地部署

  • 推荐引擎:vLLM、SGLang、KTransformers
  • INT4 量化版:可用(unsloth/Kimi-K2.7-Code-GGUF)
  • 显存需求:Q4 量化需要约 639GB 显存,推荐 DGX H100 级别硬件
  • API 兼容:完全兼容 OpenAI 格式,可直接通过 OpenAI SDK 调用,也能无缝接入 Aider、Claude Code、OpenCode 等主流编程工具

实测案例

macOS 风格前端 demo

任务是让 K2.7 Code 用单个 HTML 文件复刻一个 macOS 风格的操作系统 demo,包含开机动画、便签、浏览器等基本功能。

结果:K2.7 Code 的响应速度明显快于前代。模型"更果断"——在简单任务上不再反复自我质疑、长篇大论地思考然后再动手。由于生成耗时短,迭代速度也更快。最终效果:demo 完成度不错,开机动画、基本功能都能正常运行。

"智能体小镇"开发

智能体小镇(Agent Town)是斯坦福大学与谷歌合作推出的多智能体交互实验项目。

K2.7 Code 先输出了一份 PRD 文档,包含产品定位、市场背景、功能架构、技术方案等细节。然后在 PRD 指导下开发最小可行版本(MVP)。one-shot 生成结果存在一些 bug,画面无法正常渲染。经多次迭代优化,30 分钟后交付了完整可用版本。接入大模型后可正常与智能体对话。

AI 编程模型的迭代速度正在无限逼近"人类程序员的速度"。当模型学会果断行动而非反复思考,效率提升是指数级的。

已知限制

  • 强制思考模式无法关闭:对简单任务来说可能产生不必要的延迟和成本
  • Modified MIT 许可证:包含非商业限制,商用需要额外授权
  • 本地部署门槛高:Q4 量化仍需 639GB 显存
  • 第三方基准缺失:月之暗面尚未将 K2.7 Code 提交到 SWE-bench、GPQA 等独立基准测试,目前的数字来自官方自测
  • LLM Benchmark Code V3:只有 K2.6 的老数据,K2.7 还没入榜
  • DeepSWE 等 Agent 工程榜:官方、社区都没放出 K2.7 分数

行业影响

1. AI 编程从"做题家"转向"项目经理"。 K2.7 Code 同步发布的还有能调度 300 个子 Agent 的桌面 Agent 应用。300 个 Agent 并行协作,自主创建、自主协调,形成一个"数字团队"——这超出了"帮你工作"的范畴,直接接管你的工作流。

2. "开源 + 闭源"的组合拳。 K2.7 Code 模型本身开源,权重放在 HuggingFace 上,谁都能下载、微调、部署。但商业逻辑是:开源模型用来吸引开发者,真正的收入来自桌面 Agent。这相当于 Google 把 Android 开源了,但 GMS 牢牢攥在手里。

3. 资本买的是生态位。 月之暗面这半年的融资节奏堪称疯狂:2025 年 12 月 C 轮估值 43 亿美元,2026 年 2 月破 100 亿,5 月 D 轮 200 亿(美团龙珠领投),6 月再启 300 亿融资。半年累计融资超 39 亿美元,ARR 从 3 月的 1 亿美元飙到 4 月的 2 亿美元,一个月翻倍。

4. 国产 Coding 模型进入巅峰内竞。 GLM-5.2 与 K2.7 Code 同周发布,一款主打 1M 上下文 + 综合编程能力,一款主打成本效率 + Agent 工具调用——共同推动国产 AI 编程能力迈向全球第一梯队。

K2.7 Code 的意义不在于又一次跑分上涨,而在于它把"过度思考"这个被忽视的隐形成本摆上了台面——当模型学会闭嘴干活,AI 编程才真正从"炫技"走向"生产"。