2026-06-10

Cohere North Mini Code:开放权重编码模型的竞争,正在从拼规模转向「能不能单卡自托管 + 许可证够不够干净」

Cohere 这家一向做封闭企业模型的公司,首次拿出面向开发者的 agentic 编码模型:30B MoE(3B active)、Apache 2.0、单张 H100 就能跑。比起 33.4 的 Coding Index 分数,更值得 builder 记住的是它押的方向——主权自托管。

open-weight agents coding

Cohere North Mini Code:开放权重编码模型的竞争,正在从拼规模转向「能不能单卡自托管 + 许可证够不够干净」 — 图 / Unsplash

概述

2026-06-09,Cohere 发布了 North Mini Code——它的第一个面向开发者的模型,也是第一个开源模型。规格很克制:30B 总参数、仅 3B 激活的 MoE,Apache 2.0 许可,256K 上下文(单次最多生成 64K),最低硬件要求是一张 H100(FP8)。官方把它定位成「为主权开发者生态而建的、小而高效的 agentic 编码模型」。

值得先把噪音和信号分开。这次发布带的跑分并不惊人:官方自己给的口径是「在同尺寸级别里有竞争力」,折算成 Artificial Analysis Coding Index 是 33.4。这个数字不该是头条——它既没声称屠榜,也没碰头部闭源模型。真正值得 builder 记住的,是这家公司选择押注的位置:一个能在单张卡上自托管、许可证干净到可以直接商用的开放权重编码模型。

换句话说,开放权重编码模型的竞争,正在悄悄换赛道。过去一年大家比的是参数规模和榜单名次;而 North Mini Code 想抢的,是另一条线——你能不能把一个够用的编码模型,完整地放进自己的私有环境里跑,且不被许可证卡住脖子。对一家此前几乎只做封闭企业模型的公司来说,这个转身本身,比模型分数更说明问题。

发生了什么

Cohere 一次给出了四条接入路径:在 Hugging Face 下载权重、走 Cohere API、部署到自家托管的 Model Vault 推理平台、或经 OpenRouter 调用。模型还特别针对 OpenCode 这个开源编码 agent 做了兼容训练,官方称它「在大多数编码 agent 里都能用」。

规格表里几个数字值得拎出来看。30B 总参数、3B 激活的 MoE 结构,意味着推理时真正参与计算的只是一小部分专家,所以官方敢说「不需要大量硬件就能拿到不错的软件开发表现」,并把最低门槛标到一张 H100(FP8)。256K 总上下文、64K 单次最大生成,对一个 30B 量级的编码模型来说是够用的工作区间——读得进中等规模的代码库上下文,也吐得出成块的改动。

能力侧,官方给的两组数字。其一是质量:在 SWE-Bench Verified、SWE-Bench Pro、Terminal Bench v2、Terminal Bench Hard 这几项 agentic 编码与终端任务上,它「与同尺寸开源模型相比有竞争力」,综合成 Coding Index 33.4。注意官方自己用的词是 competitive(有竞争力),不是 leading(领先)——这是诚实的措辞,builder 不该替它脑补成「反超」。其二是速度:在相同并发与硬件配置下,North Mini Code 的输出吞吐最高达到 Devstral Small 2 的 2.8 倍,inter-token latency(token 间延迟)有 30% 的优势;但首 token 延迟(TTFT)上,Devstral Small 2 反而略占上风。

官方把这次发布明确称为「第一个,但绝不是最后一个」——North Mini Code 是 Cohere 新一代模型的开场,后续会沿着「更开放、更主权的开发者生态」继续铺。这句话的潜台词是:这不是一次性的开源公关,而是一条产品线的起点。

技术要点

把 30B MoE / 3B active 这组数字落到自托管现实里,才能看懂 Cohere 在打什么算盘。

对显存而言,真正吃显存的是总参数 30B,而不是激活的 3B——权重得整个装进显存。30B 在 FP8 下大致是 30GB 出头的权重,加上 KV cache 和运行开销,一张 80GB 的 H100 装得下,还留出余量给 256K 上下文的 KV。这正是官方敢标「最低 1×H100 @ FP8」的原因。它的意义不在于「便宜」(H100 仍是贵卡),而在于「单卡可托管」——你不必为了跑一个编码模型去搭多卡推理集群,运维和合规的复杂度因此大幅下降。对要在私有环境里自托管的团队,这条门槛线比跑分更决定「能不能真的用上」。

而 3B 激活带来的是吞吐与延迟优势:每个 token 只过一小部分专家,算得快、单位算力成本低。官方那组「2.8 倍吞吐、30% 更低 token 间延迟」的对比,正是 MoE 稀疏激活在编码这种「长输出、高并发」场景下的典型收益。但要给这组数字打个折扣:它是 Cohere 自家内部测试、用自家配置、只对比了 Devstral Small 2 一个对手,且 TTFT 还输了。这意味着「快」是有前提的——它在持续生成的稳态吞吐上占优,但在「一问一答、看首字响应」的交互体验上未必更好。Builder 该按自己的负载形态去判断,而不是直接拿 2.8 倍当结论。

需要老实说清的边界:这篇博客没有给出 MoE 的专家数量、路由策略、训练数据规模等架构细节,也没给跑分的绝对数值(只给了折算后的 Coding Index 33.4 和相对吞吐比)。这些要等官方文档或技术报告。在那之前,本文能确认的只有规格表上的硬数字。

为何重要

这次发布真正的看点,是 Cohere 这家公司的转向,以及它顺带把开放权重编码模型的竞争维度,从「规模」拨回到「可托管性 + 许可证」。

先说许可证,因为这是最容易被「开源」二字糊弄过去的一层。Apache 2.0 是一张干净的、允许商用的宽松许可:你可以商用、可以闭源分发衍生品、可以私有部署,没有「仅限研究」「仅限非商用」「月活超过某阈值要另签协议」这类附加条款。这一点必须和市面上其它「开放权重」模型分开看——不少号称开源的模型,实际许可是 research-only 或带商用限制的自定义协议,企业法务一看就得叫停。对要把模型放进商业产品、还要过合规审查的团队,Apache 2.0 和一张「看起来开放、用起来受限」的许可之间,是「能直接用」和「先排队走法务」的区别。Cohere 这次选 Apache 2.0,等于把「可商用、无后顾之忧」直接写进了卖点。

再说转向。Cohere 此前的标签一向是「封闭的企业模型供应商」——Command 系列、企业检索、私有部署,客户是大公司和政府。它现在拿 30B MoE + Apache 2.0 去押的,是「主权自托管开发者生态」(sovereign developer ecosystem):让客户在自己的数据中心、自己的合规边界内,完整掌控一套 agentic 编码基础设施,不依赖任何外部 API、不受供应商约束。这条线和 Cohere 的基因其实高度一致——它的核心客户(金融、政府、医疗、电信)恰恰是最在意数据不出境、模型可自托管、供应链可审计的那批人。给这批客户一个能装进自家机房、许可证干净、还能跑 agent 的编码模型,比给他们一个「分数更高但只能调 API」的模型更对胃口。

也别忽略竞争层面的算计:与其和大厂在通用编码模型的榜单上正面拼规模(那是一场 Cohere 体量打不赢的消耗战),不如换到一个大厂还没认真经营、而 Cohere 又有客户基础和品牌信任的细分赛道——主权、自托管、可商用。这是一次扬长避短的卡位,而不是一次「我也能做通用大模型」的硬碰硬。

对建设者的影响

如果你在做编码 agent 或要在私有环境里部署编码模型,North Mini Code 值得进候选清单,但带着三条判断去评估,别冲着「Cohere 出开源了」的热度去。

第一,先确认你的痛点是不是「自托管 + 合规」。如果你的约束是数据不能出私有环境、模型权重必须可审计、衍生品要能商用——那 North Mini Code 的 Apache 2.0 + 单卡 H100 这套组合,正是冲你来的,它解决的就是你最难绕过的那道墙。反过来,如果你没有自托管硬约束、只想要最强的编码能力,那 33.4 的 Coding Index 说明它不是为你准备的——头部闭源 API 在纯能力上仍然更省心。把它的定位想清楚,能省下大量错配的评估时间。

第二,把跑分当「够用门槛」而非「能力承诺」去测。官方只承诺「同尺寸级别有竞争力」,没承诺领先。务实做法是:拿你自己的真实代码库和 agent 工作流,跑一轮端到端评测,量它在你的任务上的成功率和返工率,再决定。尤其要测 agentic 场景——官方明说它是为「理解和编排子 agent、梳理系统架构、跑代码评审」这类工作流训练的,这正是它该被检验的地方。

第三,认清「开源」解决和不解决什么。它解决的是控制权:权重在你手里、可自托管、可商用、可改。它不解决的是能力上限——一个 30B / 3B active 的小模型,在最难的开放式编码任务上,和头部大模型仍有可量的差距,这是尺寸决定的,不是开源能补的。也别把 OpenCode 的深度绑定当成纯优势:官方特意为 OpenCode 做了兼容训练,这意味着它在 OpenCode 里最顺手,换别的 agent 框架虽然「大多能用」,但满血形态可能要打折。

务实的路线:先在 Hugging Face 拿权重,在一张 H100 上起一个实例,接你现有的 agent 框架跑真实任务;把「单卡自托管 + 干净许可」当成它最确定的价值,把「能力够不够」当成需要你自己用数据验证的假设。

该忽略什么

要主动杀掉的一条误读:「Cohere 也开源了编码模型,开放阵营又多了一个屠榜选手」。 这话两头都不对。一头,Coding Index 33.4 摆在那里——它从没声称屠榜,官方用词是 competitive,媒体或社区若把它拔高成「能力反超」,是替它脑补。另一头,把这次发布的价值押在跑分上,恰恰看反了重点;North Mini Code 的价值从来不在分数,而在「单卡可托管 + Apache 2.0 可商用」这套组合拳。盯着榜单看,你会完全错过它真正想卖的东西。

同样该打折扣的是「开源 = 免费 = 省钱」这种条件反射。开源给的是控制权和合规上的自由,不是「不花钱」。你仍要为那张 H100 付钱、为自托管的运维和监控付钱、为评测和接入付工程时间。对没有自托管硬需求的团队,直接调一个闭源 API 很可能更便宜也更省心。开源解决的是「你能不能把它握在自己手里」,不是「它能不能让你少花钱」——把这两件事混为一谈,是评估开放权重模型时最常见的认知失误。

最后,别被「2.8 倍吞吐」这种单点对比牵着走。它是厂商自测、单一对手、且 TTFT 还输了。速度优势真实存在,但有前提、有边界——按你自己的并发和延迟要求去测,而不是把一个有利的对比数字当成普适结论。

来源

Introducing North Mini Code: Cohere's first model for developers / official