Kimi K2.7 Code：让 AI 学会闭嘴干活的开源编程模型

2026 年 6 月 12 日，月之暗面发布并开源 Kimi K2.7 Code——这是 K2 系列的第五个模型，也是第一个明确以"Code"命名的版本。

参数表上看，1.1 万亿 MoE、256K 上下文、代码基准提升 21.8%，这似乎又是一场模型军备竞赛的常规更新。但 K2.7 Code 最反直觉的升级藏在代码能力之外——平均思考 token 消耗减少了 30%。

过去两年 AI 编程有个怪现象：模型越聪明，越喜欢"炫技式推理"。 你让它写个简单脚本，它能先给你分析需求背景、技术选型、架构设计，最后才慢悠悠输出三行代码。这种"过度思考"本质上是一种隐形成本——开发者付的钱，很大一部分是为模型那段冗长的自我表演买单，代码反而成了副产品。

K2.7 Code 直接把这毛病改了。官方说法叫"大幅改善长程任务中的过度思考倾向"，简单说就是：模型学会了闭嘴干活。

核心规格

维度	参数
架构	MoE（Mixture of Experts）
总参数量	约 1.1 万亿（1T）
每 token 激活参数	320 亿（32B）
专家数量	384（每 token 选 8 个 + 1 个共享专家）
层数	61 层（含 1 个 dense 层）
注意力机制	MLA（Multi-Latent Attention），KV-cache 压缩
上下文窗口	256K token
视觉编码器	MoonViT（4 亿参数），支持图片和视频输入
量化	Native INT4 原生量化
开源协议	Modified MIT
思考模式	强制开启（不支持关闭）

MLA 注意力机制

MLA（Multi-Latent Attention）是 K2 系列的关键设计——通过学习到的潜在投影压缩 KV-cache，使得 256K 上下文窗口在实际推理中不会占用过多显存。

与 K2.6 的关系

K2.7 Code 基于 K2.6 构建，核心 MoE 与 K2.6 基本一致，更像在 K2.6 之上做 coding-focused agentic tuning——强化长上下文编程、长程 Agent 工具调用与工程任务完成率，而不是推倒重来。MoonViT、图像与视频输入能力均保留。

官方口径很直白：非编程任务请继续用 K2.6。 在通用对话、办公写作等场景，专用 Coding 模型反而可能倒退。

对比 K2.6：思考量省 30%，所有基准全面提升

月之暗面官方公布的基准对比（Thinking 模式，temperature=1.0，top_p=0.95）：

基准测试	K2.6	K2.7 Code	提升
Kimi Code Bench v2	50.9	62.0	+21.8%
Program Bench	48.3	53.6	+11.0%
MLS Bench Lite	26.7	35.1	+31.5%
Kimi Claw 24/7 Bench	42.9	46.9	+9.3%
MCP Atlas	69.4	76.0	+9.5%
MCP Mark Verified	72.8	81.1	+11.4%

最值得关注的是 MCP Atlas 和 MCP Mark Verified 两项——这两个基准测试的是模型在 MCP（Model Context Protocol）工具调用场景下的表现。K2.7 Code 在 MCP Mark Verified 上拿到 81.1 分，高于 Claude Opus 4.8 在同口径下的 76.4 分。

绝对分对比：接近 Opus 4.8，仍落后 GPT-5.5

基准	K2.6	K2.7 Code	GPT-5.5	Opus 4.8
Kimi Code Bench v2	50.9	62.0	69.0	67.4
Program Bench	48.3	53.6	69.1	63.8
MLS Bench Lite	26.7	35.1	35.5	42.8
Kimi Claw 24/7 Bench	42.9	46.9	52.8	50.4
MCP Atlas	69.4	76.0	79.4	81.3
MCP Mark Verified	72.8	81.1	92.9	76.4

读表要点：

Kimi Code Bench v2 上 K2.7（62.0）已逼近 Opus 4.8（67.4），但仍明显低于 GPT-5.5（69.0）
Program Bench / MLS 上与北美顶流仍有差距
MCP Mark Verified 上 K2.7（81.1）已超过 Opus 4.8（76.4），Agent 工具链场景值得实测

诚实的差距

月之暗面在发布会上主动公布了与 GPT-5.5 和 Opus 4.8 的对比差距——不是"我们超越了 XXX"，而是"我们和顶级模型还有差距"。

如果 GPT-5.5 和 Opus 4.8 在编程上做到 70 分，K2.6 大约是 50 分，K2.7 Code 提升到了 60 分以上。这是一个诚实的分数。

"过度思考"：被忽视的隐形成本

问题本质

过去两年，AI 编程有个怪现象：模型越聪明，越喜欢"炫技式推理"。你让它写个简单脚本，它能先给你分析需求背景、技术选型、架构设计，最后才慢悠悠输出三行代码。

这种"过度思考"本质上是一种隐形成本：

开发者付的钱，很大一部分是为模型那段冗长的自我表演买单
代码反而成了副产品
长代码生成场景下，token 消耗像流水一样走账
算下来有时比招程序员还贵

K2.7 Code 的解法

K2.7 Code 的改进方向很明确：

降低 Token 消耗：平均减少 30%，不是通过压缩模型实现，而是优化推理路径。模型学会了在合适的时候"停止思考，直接动手"
提升指令遵循能力：编程任务往往有复杂的需求描述，K2.6 在长程任务中容易丢失关键约束。K2.7 Code 的指令遵循能力显著增强
改善过度思考：核心卖点。月之暗面在发布会上没有回避这个问题，甚至专门花大篇幅解释"什么是过度思考、为什么它会影响用户体验"

把问题坦诚说出来再解决，比 PPT 上写"性能大幅提升"要诚实得多。

技术逻辑

K2.7 Code 采用 MoE 架构，相当于"专家会诊"——遇到不同问题，只激活最相关的专家模块（320 亿参数），而非每次调用全部 1.1 万亿参数。

而"思考 token"可以理解为模型的"脑力消耗"：过去模型解题前要先写长篇"草稿"，K2.7 Code 直接跳过无效草稿，省下的 30% 脑力全用在刀刃上。

性能数据同步上涨：Kimi Code Bench v2 提升 21.8%，Program Bench 提升 11%，MLS Bench Lite 提升 31.5%。内核其实是"更划算"——花更少的钱，办更靠谱的事，"更聪明"只是顺带的结果。

强制思考模式：一个明确的产品信号

K2.7 Code 默认开启思考，且不支持关闭——月之暗面认为这对编程任务的准确性至关重要。

如果手动关闭思考模式：

API 会报错
Kimi Code 会自动回退到 K2.6

这是一个明确的信号：K2.7 Code 不是要取代 K2.6，而是在编程这个细分场景做到极致。 非编程任务，K2.6 仍然是首选。

"无脑快"不是这款模型的追求，"聪明地快"才是。

定价与部署

API 定价

类型	价格
标准输入（1M token）	¥6.5（$0.95）
标准输出（1M token）	¥27（$4.00）
缓存命中输入	¥1.3
模型 ID	kimi-k2.7-code

对比 Claude Fable 5 的 $10/$50 定价，K2.7 Code 的 API 成本大约是其十分之一。

高速版

6 月 15 日，Kimi K2.7 Code 高速版（kimi-k2.7-code-highspeed）开放调用：

场景	输出速度
常规编程场景	约 180 Token/s
短上下文场景	最高 260 Token/s
价格	普通版的 2 倍

这是明确的产品分层策略：普通版满足日常需求，高速版为高强度编程场景准备。

本地部署

推荐引擎：vLLM、SGLang、KTransformers
INT4 量化版：可用（unsloth/Kimi-K2.7-Code-GGUF）
显存需求：Q4 量化需要约 639GB 显存，推荐 DGX H100 级别硬件
API 兼容：完全兼容 OpenAI 格式，可直接通过 OpenAI SDK 调用，也能无缝接入 Aider、Claude Code、OpenCode 等主流编程工具

实测案例

macOS 风格前端 demo

任务是让 K2.7 Code 用单个 HTML 文件复刻一个 macOS 风格的操作系统 demo，包含开机动画、便签、浏览器等基本功能。

结果：K2.7 Code 的响应速度明显快于前代。模型"更果断"——在简单任务上不再反复自我质疑、长篇大论地思考然后再动手。由于生成耗时短，迭代速度也更快。最终效果：demo 完成度不错，开机动画、基本功能都能正常运行。

"智能体小镇"开发

智能体小镇（Agent Town）是斯坦福大学与谷歌合作推出的多智能体交互实验项目。

K2.7 Code 先输出了一份 PRD 文档，包含产品定位、市场背景、功能架构、技术方案等细节。然后在 PRD 指导下开发最小可行版本（MVP）。one-shot 生成结果存在一些 bug，画面无法正常渲染。经多次迭代优化，30 分钟后交付了完整可用版本。接入大模型后可正常与智能体对话。

AI 编程模型的迭代速度正在无限逼近"人类程序员的速度"。当模型学会果断行动而非反复思考，效率提升是指数级的。

已知限制

强制思考模式无法关闭：对简单任务来说可能产生不必要的延迟和成本
Modified MIT 许可证：包含非商业限制，商用需要额外授权
本地部署门槛高：Q4 量化仍需 639GB 显存
第三方基准缺失：月之暗面尚未将 K2.7 Code 提交到 SWE-bench、GPQA 等独立基准测试，目前的数字来自官方自测
LLM Benchmark Code V3：只有 K2.6 的老数据，K2.7 还没入榜
DeepSWE 等 Agent 工程榜：官方、社区都没放出 K2.7 分数

行业影响

1. AI 编程从"做题家"转向"项目经理"。 K2.7 Code 同步发布的还有能调度 300 个子 Agent 的桌面 Agent 应用。300 个 Agent 并行协作，自主创建、自主协调，形成一个"数字团队"——这超出了"帮你工作"的范畴，直接接管你的工作流。

2. "开源 + 闭源"的组合拳。 K2.7 Code 模型本身开源，权重放在 HuggingFace 上，谁都能下载、微调、部署。但商业逻辑是：开源模型用来吸引开发者，真正的收入来自桌面 Agent。这相当于 Google 把 Android 开源了，但 GMS 牢牢攥在手里。

3. 资本买的是生态位。 月之暗面这半年的融资节奏堪称疯狂：2025 年 12 月 C 轮估值 43 亿美元，2026 年 2 月破 100 亿，5 月 D 轮 200 亿（美团龙珠领投），6 月再启 300 亿融资。半年累计融资超 39 亿美元，ARR 从 3 月的 1 亿美元飙到 4 月的 2 亿美元，一个月翻倍。

4. 国产 Coding 模型进入巅峰内竞。 GLM-5.2 与 K2.7 Code 同周发布，一款主打 1M 上下文 + 综合编程能力，一款主打成本效率 + Agent 工具调用——共同推动国产 AI 编程能力迈向全球第一梯队。

K2.7 Code 的意义不在于又一次跑分上涨，而在于它把"过度思考"这个被忽视的隐形成本摆上了台面——当模型学会闭嘴干活，AI 编程才真正从"炫技"走向"生产"。

Previous Holo 3.1：消费级显卡跑 Computer Use Agent，法国 H Company 把「本地部署」做成了核心卖点 Next Claude Fable 5 上线 3 天被美国政府紧急封禁：Anthropic 说「我们不同意」，但必须执行