2026-06-15

Kimi K2.7-Code 开源：开放编码模型的竞争轴心从跑分转向 token 成本

月之暗面开源 Kimi K2.7-Code，1T 总参 32B 激活的编码向 agentic 模型。头号卖点不是榜单峰值，而是 thinking token 比 K2.6 降约 30%。它在主流编码与 agentic 榜上仍全面低于 GPT-5.5 和 Opus 4.8，但把够用加便宜加可自托管这条路又推近一步。真正的瓶颈仍是缺一个好用的英文 CLI。

moonshot kimi-k2-7-code coding-models open-weights token-efficiency moe agentic-coding

Kimi K2.7-Code 开源：开放编码模型的竞争轴心从跑分转向 token 成本 — 图 / Unsplash

概述

6 月 15 日，月之暗面（Moonshot AI）在 Hugging Face 开源了 Kimi K2.7-Code，一个基于 Kimi K2.6 的编码向 agentic 模型。架构是 1T 总参、32B 激活的 MoE，256K 上下文，带一个 400M 参数的 MoonViT 视觉编码器（所以它是多模态，能吃图和视频），modified-MIT 许可，原生 INT4 量化。

但这次发布真正的看点不是架构，也不是某个榜单的峰值。官方模型卡把头号卖点写得很直白：相比 K2.6，thinking token 用量降了约 30%。我的判断是，开放权重编码模型的竞争轴心，正在从 benchmark 分数往单位任务的 token 成本上挪。看 K2.7-Code 的成绩单就明白：它在主流编码和 agentic 榜上仍然全面低于 GPT-5.5 和 Claude Opus 4.8，但它比自家上一代普涨，还把推理开销砍掉近三成。对长程 agentic 编码来说，省 token 就是省钱、省时延，这才是开源模型能真正撬动 Claude Code 和 Codex 用户的地方。

发生了什么

模型卡给出的评测表覆盖编码和 agentic 两类，对照对象是 Kimi K2.6、GPT-5.5、Claude Opus 4.8。把关键数字摆出来（K2.6 / K2.7-Code / GPT-5.5 / Opus 4.8）：

Kimi Code Bench v2（月之暗面自研，真实工程任务）：50.9 / 62.0 / 69.0 / 67.4
Program Bench（只给编译后二进制和文档，让 agent 复刻行为）：48.3 / 53.6 / 69.1 / 63.8
MLS Bench Lite（让 agent 发明可泛化的 ML 方法，给 5 小时）：26.7 / 35.1 / 35.5 / 42.8
Kimi Claw 24/7（自研，跨多天的长程协作）：42.9 / 46.9 / 52.8 / 50.4
MCP Atlas（真实工具调用，100 次调用预算）：69.4 / 76.0 / 79.4 / 81.3
MCP Mark Verified（人工核验的 MCP 工具用，五个真实服务环境）：72.8 / 81.1 / 92.9 / 76.4

规律很清楚：每一项 K2.7-Code 都比 K2.6 涨了，涨幅从几个点到十一二个点不等；但除了 MCP Mark Verified 单项压过 Opus（81.1 对 76.4），其余每一项它都落在 GPT-5.5 和 Opus 4.8 之下。这是一台稳步逼近、但尚未追平的车。

模型卡的脚注还埋了一条关键信息：K2 系列是在 Kimi Code CLI、thinking 模式下测的，GPT-5.5 走 Codex xhigh，Opus 4.8 走 Claude Code xhigh。这是各家在自己最顺手的环境里跑出的数，跨厂商横比要打折扣。部署侧，月之暗面同时给了 OpenAI 和 Anthropic 兼容的 API，推荐推理引擎是 vLLM、SGLang、KTransformers，架构和 K2.5/K2.6 一致，部署方式可直接复用。

这里要先把一个容易混的概念分清：K2.7-Code 是模型（开放权重），它和本站此前写过的 Kimi Code CLI 不是一回事，后者是跑模型的 agent runtime。模型卡里那句「Kimi K2.7-Code 配 Kimi Code CLI 效果最好」，恰恰是这次发布最关键的潜台词。

为何重要

把视角从跑分切到钱和时间，这次发布的意义才显出来。HN 那条 453 分的讨论里，用户算的是一笔很实在的账：Opus 的 API 价是每百万 token 5 美元进、25 美元出，Kimi K2.6 是 0.7 进、3.4 出，差出五到七倍。当能力差距被很多人形容为「只是略好」（这点有争议，下面会说），价格差就成了真实的迁移动力。

token 效率是这条账的乘数。一个长程 agentic 任务，模型要反复思考、调工具、读上下文，thinking token 是大头开销。K2.7-Code 把这块砍掉约三成，等于在已经便宜五倍的基础上，又在单位任务上少烧三成推理。对每天跑几十上百个 agent 循环的团队，这是能直接看到账单变化的量级。这就是为什么我认为竞争轴心在移：当几家开放模型的能力都卡在够用但不顶尖的同一档，谁能用更少的 token 把活干完，谁就更站得住。

但要冷静看清天花板。HN 上有人一针见血：在还没被刷烂的 benchmark（如 DeepSWE）上，Kimi K2.6 被 Claude Sonnet 干净利落地压过；真正上手用过两家的人，普遍觉得差距「不止略好」，一旦做复杂的认知任务，Kimi 容易跑偏、不跟指令。还有人指出，开放模型只在它们蒸馏过的能力上可比，没蒸到的地方差距是断崖。所以 K2.7-Code 的进步是真的，但它逼近的是一条它自己也还没站上去的线。

对建设者的影响

如果你正盯着 Claude 的订阅账单想省钱，K2.7-Code 给了一个更实的选项，但别指望它能整建制替换。几条可落地的判断：

第一，混用比全切现实。HN 上反复出现同一个模式：用 Kimi 跑量、用 Claude 收尾。有用户直说「让 Kimi 和 composer 玩，本质是给我自己留个借口继续坐在电脑前」，也有人长期用 opencode 配 Kimi 2.6 跑个人项目，结论是「Claude Code 更好，但 opencode 配 Kimi 能用，这就够了」。把 K2.7-Code 放进跑得起量的便宜档，把 Opus 留给不能错的收口，是当下大多数实战者的真实配置。

第二，瓶颈不在模型，在 harness。HN 上最反复被提的采用障碍，是这些中国开放模型缺一个高质量的英文 CLI。多位用户说在 opencode 里跑 Kimi，几轮就跑偏、指令不跟。月之暗面自己也承认这点，所以模型卡把「配 Kimi Code CLI 效果最好」写进去了。问题是 Kimi Code CLI 的英文生态成熟度，还远不及 Claude Code 和 Codex。你切过去省的是 token 钱，付的是 harness 适配和 prompt 调教的时间。

第三，自托管这条路对小团队基本是画饼。1T 总参的 MoE 就算 INT4，也要数据中心级多卡才跑得动。HN 上能在 5090 或大内存 Mac 上本地跑的，是 30B 级的 Qwen 3.6、DeepSeek flash 这类。K2.7-Code 量级，自托管的真实价值在数据合规和供给确定性（权重在手，没人能远程吊销），不在省机器钱。

第四，Anthropic 的护城河被精准点了名。HN 上有人说得透：Anthropic 的护城河是 Claude Code 和 Cowork 把用户养出了黏性，20 到 200 美元的月费对很多人「相对它给的价值算合理」。也就是说，光靠模型便宜撬不动一个已经习惯了顺手工具链的用户，K2.7-Code 要赢的不只是分数和价格，是工作流的体验。

该忽略什么

最该警惕的误读是：token 降 30% 加跑分普涨，等于 K2.7-Code 在追平闭源前沿。这是两件事。token 效率是把同一档能力用更少开销跑出来，不是把能力天花板顶高。看数就清楚：MLS Bench Lite 上它 35.1，Opus 4.8 是 42.8，差出近八个点，这是发明可泛化 ML 方法的硬认知任务，省 token 一点都不能填这条沟。把省钱读成更强，会在你最需要可靠性的任务上栽跟头。

第二个要忽略的，是 benchmark 涨了就该立刻切换这种冲动。模型卡的数是月之暗面在自家最顺手环境里跑的，K2 走 Kimi Code CLI、对手走各自 xhigh 模式，跨厂商横比本就有水分；而真实采用的决定因素，HN 反复证明是 harness 体验和指令跟随，不是榜单那两位小数。跑分该进你的评测队列，不该直接进你的迁移决定。先在自己的真实任务上跑一周，再谈切不切。

技术要点

值得记住的不是参数表本身，而是它指向的产品意图。32B 激活配 1T 总参的 MoE，意味着每个 token 只点亮一小撮专家，成本低就是这么来的；原生 INT4 量化进一步压低显存和带宽门槛。256K 上下文加 MoonViT 视觉编码器，让它能在长仓库和带截图的任务里干活。但所有这些都服务于一个目标：在尽量低的单位成本下，把长程编码任务端到端做完。模型卡里「强制 thinking、强制 preserve_thinking（跨轮保留完整推理）」的设计，正是为 agentic 编码场景调的，也是它敢说 token 省了三成却还能涨分的底气所在。

常见问题

Kimi K2.7-Code 值不值得从 Claude Code 切过来？

看你做什么。如果是预算敏感的个人项目、批量改造、或对时延和 token 成本敏感的长程任务，值得试，因为 K2.7-Code 的 API 价远低于 Opus，且 thinking token 比 K2.6 省约 30%。如果是不容出错的研究工程或复杂重构，先别全切，HN 上大量用户的真实体感是它常要 Claude 来收尾。更现实的做法是混用：让 Kimi 跑量、让 Opus 收口。

K2.7-Code 比 K2.6 实际强在哪、token 省多少？

官方口径是 thinking token 用量比 K2.6 降约 30%，同时各项跑分普涨。具体看模型卡：Kimi Code Bench v2 从 50.9 升到 62.0，Program Bench 48.3 升到 53.6，MCP Mark Verified 72.8 升到 81.1。但这些数字都来自月之暗面自己的测试环境（K2 系用 Kimi Code CLI、thinking 模式），跨厂商可比性有限。

开放编码模型能不能替代 Opus 4.8 做长程 agentic 编码？

目前不能在能力上替代。在长程 agentic 榜上 K2.7-Code 仍落后：Kimi Claw 24/7 是 46.9 对 Opus 50.4，MCP Atlas 76.0 对 81.3。它能替代的是成本与可控性那一面，省 token、可自托管、不怕访问被远程吊销。瓶颈不在权重，在缺一个好用的英文 CLI 和 harness 生态。

自托管 Kimi K2.7-Code 现实吗？

对绝大多数个人和小团队不现实。它是 1T 总参的 MoE，原生 INT4 量化能压显存占用，但跑起来仍需数据中心级多卡。HN 上能在消费级硬件本地跑的，是 30B 级别的模型（如 Qwen 3.6 在 5090 或大内存 Mac 上）。K2.7-Code 这个量级，实际多数人还是走 API 或第三方托管，自托管的意义主要在数据合规和供给确定性，不在省机器。

概述