本地模型够用了吗:两派其实在量两件不同的事
Vicki Boykis 说本地模型现在好用了,1245 分的 Ask HN 帖里却吵成两派。鼓吹派量的是日常编码任务上够用,怀疑派量的是复杂任务上云端仍碾压。拐点不在模型突然变强,而在开放权重模型越过了可用线、本地 agent 工具链把够用重新定义。给 builder 的判断:别问行不行,算你的具体任务里本地这条线的成功率、时延、成本差多少,差的部分值不值你让出隐私和控制权。
概述
6 月 15 日,Vicki Boykis 发了篇《本地模型现在好用了》,结论很直接:她从本地模型刚出就一直在用,现在终于好用到让她少去 API 模型那边复核了。同一天,Hacker News 上一条《有人用本地模型替代 Claude/GPT 做日常编码吗》冲到 1245 分,下面几百条回复吵成两派。一派晒出机型、模型、工作流,说已经取消了云端订阅;另一派重度用户直接开怼:这些小模型离 Opus 差得远,别自欺欺人。
我的判断是,这两派多半没在吵同一件事。鼓吹派量的是:日常编码任务上,开放权重模型加成熟的本地 agent 工作流够用了。怀疑派量的是:前沿能力和复杂任务上,云端仍然碾压。两边各自都对,因为他们量的是不同的东西。真正值得 builder 记住的不是谁赢,而是这场论战暴露出的拐点:能力已经不是唯一的瓶颈了。
争的是什么
表面上争的是一句话:本地模型够不够用。但拆开看,够用这个词在两派嘴里指的根本不是一回事。
Vicki Boykis 给了一个很诚实的「够用」定义:她的个人标准是:我还需不需要拿它去和 API 模型对一遍。gemma-4-26b-a4b 是第一个让她明显少做这件事的模型。她列的任务清单也很具体:把一个 notebook 脚本重构成五六个模块的仓库、修类型标注、校对博客、写单元测试、给一个推荐模型搭脚手架。她自己加了句关键的限定:这些都不是开创性任务,而且她不确定这套能不能上生产软件开发。
HN 上 sosodev 把这层意思说得更透:这个问题本身就跨了一大段能力光谱。如果你只能跑 8B 还指望它一把梭,那体验会很差;如果能跑 30B 级、给它一个范围清楚、定义良好的任务,它们表现得很好。argee 的比喻更形象:本地模型适合当副驾,你手握方向盘、眼盯路面、限速以内开,它别想一把搞定任何非琐碎的改动。
另一派量的是上限。jwr 用 M4 Max 跑 qwen3.6-35b-a3b 和 gemma-4-26b-a4b-qat,结论是这些小模型「远不如」Opus、Fable 这类巨兽,他说很多人在自欺欺人,简单情况能糊弄,但拿来在大代码库里解复杂设计问题,不值得。redox99 更狠:能在家跑的模型(比如 Qwen 35B)和 Opus、GPT 5.5「根本不在一个邻居」,唯一合理的理由是绝对需要隐私、图个乐、或飞机上这种小众场景。
所以这不是一场关于事实的争论,是两群人在用各自的任务分布说话。一个量中位数任务的下限,一个量复杂任务的上限。
谁更有理
我的看法:在各自划定的范围里,两派都对,但鼓吹派抓到了更重要的变化。
先认怀疑派对的地方,因为这部分常被本地党选择性忽略。能力差距是真的。user43928 被公司要求用 Qwen 3.6 27b,觉得「几乎没用」,还不如手写,感觉低于 Sonnet 的都是浪费时间。twothreeone 在单张 3090 上跑同款模型,最难受的是输出质量不稳,每隔几分钟就要问自己「是我用错了还是它就这么蠢」,这种来回切换的心智负担本身就是成本。还有一条技术性的硬伤被 lambda 挖了出来:很多本地模型没在保留思维链上训练过,多轮工具调用后每轮要把之前的推理重算一遍,又慢又烧上下文,Qwen 3.6 才刚补上这个能力。这些不是吹毛求疵,是会劝退人的真问题。
但鼓吹派量到了那个更要紧的变量:对一大类常见任务,可用线已经被越过了。证据不是某个跑分,是真金白银的行为改变。Kostic 把 VSCode 接上 llama.cpp 跑 Qwen 3.6 27B,直接取消了云端订阅。heipei 在 5090 上用 Q6 量化的 Qwen 3.6 27b 配 Pi,现在连「提交到分支、推送、建 PR 指派评审」这种杂活都交给它。horsawlarway 用一台五年前的双 3090 老机器,把每月 100 美元的 Claude 订阅换掉了。这些不是评测员,是把订阅退了的实际用户。
关键在于,他们切过去的理由大多不是模型更聪明了。heipei 说得最清楚:本地意味着永远不用再去想 token 价、配额、时段、数据敏感性。这句话才是这场论战的题眼。当能力跨过够用线之后,决策权重就从它有多强,转移到了我图什么。
为何重要
这件事对 builder 重要,因为它改写了你做选择时该问的问题。
过去两年,本地模型的故事是一条单调的能力追赶曲线,结论永远是还差得远、再等等。现在 Vicki Boykis 给了一个量化的参照:本地 agentic 循环能跑到前沿模型约 75% 的准确率和速度。Kyle Howells 那篇 macOS 设置指南给了另一面的硬数据:Gemma 4 26B-A4B 在 M1 Max 上从 58.2 tok/s(纯 llama.cpp 加 Metal),靠 MTP 投机解码提到 72.2 tok/s,提速约 24%;他还顺手测了 MLX,结果反直觉,针对 Mac 优化的 MLX 只有 45.8 tok/s,比 llama.cpp 慢。这种亲手测过、参数全公开的内容,恰恰是 HN 上 ryandrake 抱怨最缺的:大多数帖子只说「我用 Qwen 效果很好」,却不给量化、不给参数、不给硬件,没法照着试。
当 75% 这个数立住,问题就从二元的「行不行」变成了连续的成本收益权衡。你要算的是三笔账。第一笔是时延和速度:72 tok/s 对一个频繁调工具的 agent 来说够用但不快,Kyle Howells 自己也说 58 慢、72 才算可用。第二笔是钱,但要算清楚。mtone 在双 RTX Pro 6000 上跑 DeepSeek V4 Flash,单并发下纯电费摊到每月约 8.65 到 38.88 美元,看着便宜;但 weego 的反驳很到位:对自己干活的人,每月付 100 美元订阅和摊销一台会贬值的硬件其实是一回事,后者还多了维护负担和三到五年才回本的折旧。第三笔账云端给不了:隐私、控制权、供给确定性。
所以这场论战真正的信号不是「本地赢了」,是天平的支点动了。能力够用之后,剩下的全是非能力因素,而那些因素因人因任务而异,没有统一答案。
该忽略什么
第一,忽略本地全面替代云端这种总分式叙事。几乎没有一个退了订阅的人是真的全切。horsawlarway 个人项目用本地、日常工作还用公司付费的 Claude。fortyseven 个人项目用本地 Qwen,白天上班照用 Claude。bluejay2387 九成的活在 Qwen 上,复杂的和打磨 UI 的退回 Codex。现实是分层混用:本地跑量,前沿收口。把它当成要么全本地、要么全云端的站队题,是问错了问题。
第二,忽略那些没有量化前提的跑分宣称。HN 上 lambda 提到「如果信 benchmark,Qwen 3.6 35B-A3B 已经超过 Claude 4 Opus」,但他自己马上补刀:开放模型存在刷榜,参数更大的模型总会让人觉得更有深度,而且这是在拿当下的本地模型比一年前的前沿模型。这个对比有意思,却不能当成本地追平前沿的证据。Claude 4 Opus 是一年前的车。
第三,别被硬件价格之争带偏方向。Vicki Boykis 帖子下吵得最凶的不是模型行不行,是「让你去买台 64GB 的 Mac」公不公平,有人算到全球只有前 10% 收入的人能无压力买 2000 美元的设备。这是个真实的可及性问题,但它和「本地模型够不够用」是两件事。一个谈技术成熟度,一个谈谁负担得起。讨论本地路线时把这两件事分开,判断才不会糊。
给 builder 的一句话:别再问「本地模型行不行」。去算你的具体任务里,本地这条线的成功率、时延、成本,和云端差多少;然后只问一件事,差的那部分,值不值得你换回隐私和控制权。这个答案没有人能替你给。
常见问题
本地模型现在够日常编码用了吗?
看任务类别。Vicki Boykis 和大量 HN 用户的真实体感是:重构、写单元测试、改中小改动、把脚本拆成模块、当本地版的文档搜索,30B 级别的 Gemma 4 或 Qwen 3.6 已经够用,有人据此取消了云端订阅。但同一批帖子里也有重度用户(jwr、redox99)说在大代码库里做复杂设计,本地模型离 Opus 这类前沿模型差得远。所以够用不是一个是非题,是任务分布问题。
M2 或 M4 的 Mac 能跑什么编码模型、多快?
Vicki Boykis 用 2022 年的 M2、64GB 内存跑 gemma-4-12b-qat 和 26B 做 agentic 编码,速度约为前沿模型的 75%。Kyle Howells 在 M1 Max 64GB 上实测 Gemma 4 26B-A4B:纯 llama.cpp 加 Metal 是 58.2 tok/s,加上 MTP 投机解码升到 72.2 tok/s,约快 24%。HN 上 48GB 的 M4 Pro 也能跑 26B,但多数人认为 30B 级是消费级硬件的甜点区,再大要么慢要么内存不够。
本地编码 agent 在 macOS 上怎么配?
Kyle Howells 给了一套可复现的栈:用 Metal 编译的 llama.cpp 作推理引擎,GGUF 格式的 Gemma 4 26B-A4B 作主模型,配一个 Q8 的 MTP 草稿模型做投机解码加速,再挂上多模态投影器以支持截图输入,前端用 Pi 这类终端 agent,通过 OpenAI 兼容 API 接进来。Vicki Boykis 的变体是用 LM Studio 当推理服务、Pi 跑在 Docker 容器里只给 bash 权限。关键在 harness 配置和沙箱,不在模型本身。
本地模型比云端到底差在哪、又强在哪?
差在能力上限和长程任务的稳。HN 用户普遍反映本地模型对上下文里的精确指令注意力弱,复杂任务容易跑偏、空转烧 token,旧版还有不保留思维链导致每轮重算的问题。强在能力之外的四件事:隐私(代码不出本机)、不看 token 价和配额脸色、低时延、供给确定(访问不会被远程吊销)。heipei 等人切到本地的主因不是模型更聪明,是不用再为这四件事操心。
来源
- 本地模型现在好用了(Vicki Boykis 博客)
- 如何在 macOS 上配一个本地编码 agent(Kyle Howells 博客)
- Ask HN:有人用本地模型替代 Claude/GPT 做日常编码吗(Hacker News)
- 本地模型现在好用了(Hacker News 讨论)
无官方一手源;本文基于可靠二手报道(具名媒体、交叉印证)写成。