Kimi K2.7-Code 开源:开放编码模型的竞争轴心从跑分转向 token 成本

月之暗面开源 Kimi K2.7-Code,1T 总参 32B 激活的编码向 agentic 模型。头号卖点不是榜单峰值,而是 thinking token 比 K2.6 降约 30%。它在主流编码与 agentic 榜上仍全面低于 GPT-5.5 和 Opus 4.8,但把够用加便宜加可自托管这条路又推近一步。真正的瓶颈仍是缺一个好用的英文 CLI。

Kimi K2.7-Code 开源:开放编码模型的竞争轴心从跑分转向 token 成本
图 / Unsplash

概述

6 月 15 日,月之暗面(Moonshot AI)在 Hugging Face 开源了 Kimi K2.7-Code,一个基于 Kimi K2.6 的编码向 agentic 模型。架构是 1T 总参、32B 激活的 MoE,256K 上下文,带一个 400M 参数的 MoonViT 视觉编码器(所以它是多模态,能吃图和视频),modified-MIT 许可,原生 INT4 量化。

但这次发布真正的看点不是架构,也不是某个榜单的峰值。官方模型卡把头号卖点写得很直白:相比 K2.6,thinking token 用量降了约 30%。我的判断是,开放权重编码模型的竞争轴心,正在从 benchmark 分数往单位任务的 token 成本上挪。看 K2.7-Code 的成绩单就明白:它在主流编码和 agentic 榜上仍然全面低于 GPT-5.5 和 Claude Opus 4.8,但它比自家上一代普涨,还把推理开销砍掉近三成。对长程 agentic 编码来说,省 token 就是省钱、省时延,这才是开源模型能真正撬动 Claude Code 和 Codex 用户的地方。

发生了什么

模型卡给出的评测表覆盖编码和 agentic 两类,对照对象是 Kimi K2.6、GPT-5.5、Claude Opus 4.8。把关键数字摆出来(K2.6 / K2.7-Code / GPT-5.5 / Opus 4.8):

规律很清楚:每一项 K2.7-Code 都比 K2.6 涨了,涨幅从几个点到十一二个点不等;但除了 MCP Mark Verified 单项压过 Opus(81.1 对 76.4),其余每一项它都落在 GPT-5.5 和 Opus 4.8 之下。这是一台稳步逼近、但尚未追平的车。

模型卡的脚注还埋了一条关键信息:K2 系列是在 Kimi Code CLI、thinking 模式下测的,GPT-5.5 走 Codex xhigh,Opus 4.8 走 Claude Code xhigh。这是各家在自己最顺手的环境里跑出的数,跨厂商横比要打折扣。部署侧,月之暗面同时给了 OpenAI 和 Anthropic 兼容的 API,推荐推理引擎是 vLLM、SGLang、KTransformers,架构和 K2.5/K2.6 一致,部署方式可直接复用。

这里要先把一个容易混的概念分清:K2.7-Code 是模型(开放权重),它和本站此前写过的 Kimi Code CLI 不是一回事,后者是跑模型的 agent runtime。模型卡里那句「Kimi K2.7-Code 配 Kimi Code CLI 效果最好」,恰恰是这次发布最关键的潜台词。

为何重要

把视角从跑分切到钱和时间,这次发布的意义才显出来。HN 那条 453 分的讨论里,用户算的是一笔很实在的账:Opus 的 API 价是每百万 token 5 美元进、25 美元出,Kimi K2.6 是 0.7 进、3.4 出,差出五到七倍。当能力差距被很多人形容为「只是略好」(这点有争议,下面会说),价格差就成了真实的迁移动力。

token 效率是这条账的乘数。一个长程 agentic 任务,模型要反复思考、调工具、读上下文,thinking token 是大头开销。K2.7-Code 把这块砍掉约三成,等于在已经便宜五倍的基础上,又在单位任务上少烧三成推理。对每天跑几十上百个 agent 循环的团队,这是能直接看到账单变化的量级。这就是为什么我认为竞争轴心在移:当几家开放模型的能力都卡在够用但不顶尖的同一档,谁能用更少的 token 把活干完,谁就更站得住。

但要冷静看清天花板。HN 上有人一针见血:在还没被刷烂的 benchmark(如 DeepSWE)上,Kimi K2.6 被 Claude Sonnet 干净利落地压过;真正上手用过两家的人,普遍觉得差距「不止略好」,一旦做复杂的认知任务,Kimi 容易跑偏、不跟指令。还有人指出,开放模型只在它们蒸馏过的能力上可比,没蒸到的地方差距是断崖。所以 K2.7-Code 的进步是真的,但它逼近的是一条它自己也还没站上去的线。

对建设者的影响

如果你正盯着 Claude 的订阅账单想省钱,K2.7-Code 给了一个更实的选项,但别指望它能整建制替换。几条可落地的判断:

第一,混用比全切现实。HN 上反复出现同一个模式:用 Kimi 跑量、用 Claude 收尾。有用户直说「让 Kimi 和 composer 玩,本质是给我自己留个借口继续坐在电脑前」,也有人长期用 opencode 配 Kimi 2.6 跑个人项目,结论是「Claude Code 更好,但 opencode 配 Kimi 能用,这就够了」。把 K2.7-Code 放进跑得起量的便宜档,把 Opus 留给不能错的收口,是当下大多数实战者的真实配置。

第二,瓶颈不在模型,在 harness。HN 上最反复被提的采用障碍,是这些中国开放模型缺一个高质量的英文 CLI。多位用户说在 opencode 里跑 Kimi,几轮就跑偏、指令不跟。月之暗面自己也承认这点,所以模型卡把「配 Kimi Code CLI 效果最好」写进去了。问题是 Kimi Code CLI 的英文生态成熟度,还远不及 Claude Code 和 Codex。你切过去省的是 token 钱,付的是 harness 适配和 prompt 调教的时间。

第三,自托管这条路对小团队基本是画饼。1T 总参的 MoE 就算 INT4,也要数据中心级多卡才跑得动。HN 上能在 5090 或大内存 Mac 上本地跑的,是 30B 级的 Qwen 3.6、DeepSeek flash 这类。K2.7-Code 量级,自托管的真实价值在数据合规和供给确定性(权重在手,没人能远程吊销),不在省机器钱。

第四,Anthropic 的护城河被精准点了名。HN 上有人说得透:Anthropic 的护城河是 Claude Code 和 Cowork 把用户养出了黏性,20 到 200 美元的月费对很多人「相对它给的价值算合理」。也就是说,光靠模型便宜撬不动一个已经习惯了顺手工具链的用户,K2.7-Code 要赢的不只是分数和价格,是工作流的体验。

该忽略什么

最该警惕的误读是:token 降 30% 加跑分普涨,等于 K2.7-Code 在追平闭源前沿。这是两件事。token 效率是把同一档能力用更少开销跑出来,不是把能力天花板顶高。看数就清楚:MLS Bench Lite 上它 35.1,Opus 4.8 是 42.8,差出近八个点,这是发明可泛化 ML 方法的硬认知任务,省 token 一点都不能填这条沟。把省钱读成更强,会在你最需要可靠性的任务上栽跟头。

第二个要忽略的,是 benchmark 涨了就该立刻切换这种冲动。模型卡的数是月之暗面在自家最顺手环境里跑的,K2 走 Kimi Code CLI、对手走各自 xhigh 模式,跨厂商横比本就有水分;而真实采用的决定因素,HN 反复证明是 harness 体验和指令跟随,不是榜单那两位小数。跑分该进你的评测队列,不该直接进你的迁移决定。先在自己的真实任务上跑一周,再谈切不切。

技术要点

值得记住的不是参数表本身,而是它指向的产品意图。32B 激活配 1T 总参的 MoE,意味着每个 token 只点亮一小撮专家,成本低就是这么来的;原生 INT4 量化进一步压低显存和带宽门槛。256K 上下文加 MoonViT 视觉编码器,让它能在长仓库和带截图的任务里干活。但所有这些都服务于一个目标:在尽量低的单位成本下,把长程编码任务端到端做完。模型卡里「强制 thinking、强制 preserve_thinking(跨轮保留完整推理)」的设计,正是为 agentic 编码场景调的,也是它敢说 token 省了三成却还能涨分的底气所在。

常见问题

Kimi K2.7-Code 值不值得从 Claude Code 切过来?

看你做什么。如果是预算敏感的个人项目、批量改造、或对时延和 token 成本敏感的长程任务,值得试,因为 K2.7-Code 的 API 价远低于 Opus,且 thinking token 比 K2.6 省约 30%。如果是不容出错的研究工程或复杂重构,先别全切,HN 上大量用户的真实体感是它常要 Claude 来收尾。更现实的做法是混用:让 Kimi 跑量、让 Opus 收口。

K2.7-Code 比 K2.6 实际强在哪、token 省多少?

官方口径是 thinking token 用量比 K2.6 降约 30%,同时各项跑分普涨。具体看模型卡:Kimi Code Bench v2 从 50.9 升到 62.0,Program Bench 48.3 升到 53.6,MCP Mark Verified 72.8 升到 81.1。但这些数字都来自月之暗面自己的测试环境(K2 系用 Kimi Code CLI、thinking 模式),跨厂商可比性有限。

开放编码模型能不能替代 Opus 4.8 做长程 agentic 编码?

目前不能在能力上替代。在长程 agentic 榜上 K2.7-Code 仍落后:Kimi Claw 24/7 是 46.9 对 Opus 50.4,MCP Atlas 76.0 对 81.3。它能替代的是成本与可控性那一面,省 token、可自托管、不怕访问被远程吊销。瓶颈不在权重,在缺一个好用的英文 CLI 和 harness 生态。

自托管 Kimi K2.7-Code 现实吗?

对绝大多数个人和小团队不现实。它是 1T 总参的 MoE,原生 INT4 量化能压显存占用,但跑起来仍需数据中心级多卡。HN 上能在消费级硬件本地跑的,是 30B 级别的模型(如 Qwen 3.6 在 5090 或大内存 Mac 上)。K2.7-Code 这个量级,实际多数人还是走 API 或第三方托管,自托管的意义主要在数据合规和供给确定性,不在省机器。

来源

  1. Kimi K2.7-Code 模型卡(Moonshot AI,Hugging Face) / official
  2. Kimi K2.7-Code:token 效率更好的开源编码模型(Hacker News 讨论) / hn