2026-06-16

本地模型够用了吗：两派其实在量两件不同的事

Vicki Boykis 说本地模型现在好用了，1245 分的 Ask HN 帖里却吵成两派。鼓吹派量的是日常编码任务上够用，怀疑派量的是复杂任务上云端仍碾压。拐点不在模型突然变强，而在开放权重模型越过了可用线、本地 agent 工具链把够用重新定义。给 builder 的判断：别问行不行，算你的具体任务里本地这条线的成功率、时延、成本差多少，差的部分值不值你让出隐私和控制权。

ollama apple google gemma qwen deepseek llama local-llm open-weights coding-agents

概述

6 月 15 日，Vicki Boykis 发了篇《本地模型现在好用了》，结论很直接：她从本地模型刚出就一直在用，现在终于好用到让她少去 API 模型那边复核了。同一天，Hacker News 上一条《有人用本地模型替代 Claude/GPT 做日常编码吗》冲到 1245 分，下面几百条回复吵成两派。一派晒出机型、模型、工作流，说已经取消了云端订阅；另一派重度用户直接开怼：这些小模型离 Opus 差得远，别自欺欺人。

我的判断是，这两派多半没在吵同一件事。鼓吹派量的是：日常编码任务上，开放权重模型加成熟的本地 agent 工作流够用了。怀疑派量的是：前沿能力和复杂任务上，云端仍然碾压。两边各自都对，因为他们量的是不同的东西。真正值得 builder 记住的不是谁赢，而是这场论战暴露出的拐点：能力已经不是唯一的瓶颈了。

争的是什么

表面上争的是一句话：本地模型够不够用。但拆开看，够用这个词在两派嘴里指的根本不是一回事。

Vicki Boykis 给了一个很诚实的「够用」定义：她的个人标准是：我还需不需要拿它去和 API 模型对一遍。gemma-4-26b-a4b 是第一个让她明显少做这件事的模型。她列的任务清单也很具体：把一个 notebook 脚本重构成五六个模块的仓库、修类型标注、校对博客、写单元测试、给一个推荐模型搭脚手架。她自己加了句关键的限定：这些都不是开创性任务，而且她不确定这套能不能上生产软件开发。

HN 上 sosodev 把这层意思说得更透：这个问题本身就跨了一大段能力光谱。如果你只能跑 8B 还指望它一把梭，那体验会很差；如果能跑 30B 级、给它一个范围清楚、定义良好的任务，它们表现得很好。argee 的比喻更形象：本地模型适合当副驾，你手握方向盘、眼盯路面、限速以内开，它别想一把搞定任何非琐碎的改动。

另一派量的是上限。jwr 用 M4 Max 跑 qwen3.6-35b-a3b 和 gemma-4-26b-a4b-qat，结论是这些小模型「远不如」Opus、Fable 这类巨兽，他说很多人在自欺欺人，简单情况能糊弄，但拿来在大代码库里解复杂设计问题，不值得。redox99 更狠：能在家跑的模型（比如 Qwen 35B）和 Opus、GPT 5.5「根本不在一个邻居」，唯一合理的理由是绝对需要隐私、图个乐、或飞机上这种小众场景。

所以这不是一场关于事实的争论，是两群人在用各自的任务分布说话。一个量中位数任务的下限，一个量复杂任务的上限。

谁更有理

我的看法：在各自划定的范围里，两派都对，但鼓吹派抓到了更重要的变化。

先认怀疑派对的地方，因为这部分常被本地党选择性忽略。能力差距是真的。user43928 被公司要求用 Qwen 3.6 27b，觉得「几乎没用」，还不如手写，感觉低于 Sonnet 的都是浪费时间。twothreeone 在单张 3090 上跑同款模型，最难受的是输出质量不稳，每隔几分钟就要问自己「是我用错了还是它就这么蠢」，这种来回切换的心智负担本身就是成本。还有一条技术性的硬伤被 lambda 挖了出来：很多本地模型没在保留思维链上训练过，多轮工具调用后每轮要把之前的推理重算一遍，又慢又烧上下文，Qwen 3.6 才刚补上这个能力。这些不是吹毛求疵，是会劝退人的真问题。

但鼓吹派量到了那个更要紧的变量：对一大类常见任务，可用线已经被越过了。证据不是某个跑分，是真金白银的行为改变。Kostic 把 VSCode 接上 llama.cpp 跑 Qwen 3.6 27B，直接取消了云端订阅。heipei 在 5090 上用 Q6 量化的 Qwen 3.6 27b 配 Pi，现在连「提交到分支、推送、建 PR 指派评审」这种杂活都交给它。horsawlarway 用一台五年前的双 3090 老机器，把每月 100 美元的 Claude 订阅换掉了。这些不是评测员，是把订阅退了的实际用户。

关键在于，他们切过去的理由大多不是模型更聪明了。heipei 说得最清楚：本地意味着永远不用再去想 token 价、配额、时段、数据敏感性。这句话才是这场论战的题眼。当能力跨过够用线之后，决策权重就从它有多强，转移到了我图什么。

为何重要

这件事对 builder 重要，因为它改写了你做选择时该问的问题。

过去两年，本地模型的故事是一条单调的能力追赶曲线，结论永远是还差得远、再等等。现在 Vicki Boykis 给了一个量化的参照：本地 agentic 循环能跑到前沿模型约 75% 的准确率和速度。Kyle Howells 那篇 macOS 设置指南给了另一面的硬数据：Gemma 4 26B-A4B 在 M1 Max 上从 58.2 tok/s（纯 llama.cpp 加 Metal），靠 MTP 投机解码提到 72.2 tok/s，提速约 24%；他还顺手测了 MLX，结果反直觉，针对 Mac 优化的 MLX 只有 45.8 tok/s，比 llama.cpp 慢。这种亲手测过、参数全公开的内容，恰恰是 HN 上 ryandrake 抱怨最缺的：大多数帖子只说「我用 Qwen 效果很好」，却不给量化、不给参数、不给硬件，没法照着试。

当 75% 这个数立住，问题就从二元的「行不行」变成了连续的成本收益权衡。你要算的是三笔账。第一笔是时延和速度：72 tok/s 对一个频繁调工具的 agent 来说够用但不快，Kyle Howells 自己也说 58 慢、72 才算可用。第二笔是钱，但要算清楚。mtone 在双 RTX Pro 6000 上跑 DeepSeek V4 Flash，单并发下纯电费摊到每月约 8.65 到 38.88 美元，看着便宜；但 weego 的反驳很到位：对自己干活的人，每月付 100 美元订阅和摊销一台会贬值的硬件其实是一回事，后者还多了维护负担和三到五年才回本的折旧。第三笔账云端给不了：隐私、控制权、供给确定性。

所以这场论战真正的信号不是「本地赢了」，是天平的支点动了。能力够用之后，剩下的全是非能力因素，而那些因素因人因任务而异，没有统一答案。

该忽略什么

第一，忽略本地全面替代云端这种总分式叙事。几乎没有一个退了订阅的人是真的全切。horsawlarway 个人项目用本地、日常工作还用公司付费的 Claude。fortyseven 个人项目用本地 Qwen，白天上班照用 Claude。bluejay2387 九成的活在 Qwen 上，复杂的和打磨 UI 的退回 Codex。现实是分层混用：本地跑量，前沿收口。把它当成要么全本地、要么全云端的站队题，是问错了问题。

第二，忽略那些没有量化前提的跑分宣称。HN 上 lambda 提到「如果信 benchmark，Qwen 3.6 35B-A3B 已经超过 Claude 4 Opus」，但他自己马上补刀：开放模型存在刷榜，参数更大的模型总会让人觉得更有深度，而且这是在拿当下的本地模型比一年前的前沿模型。这个对比有意思，却不能当成本地追平前沿的证据。Claude 4 Opus 是一年前的车。

第三，别被硬件价格之争带偏方向。Vicki Boykis 帖子下吵得最凶的不是模型行不行，是「让你去买台 64GB 的 Mac」公不公平，有人算到全球只有前 10% 收入的人能无压力买 2000 美元的设备。这是个真实的可及性问题，但它和「本地模型够不够用」是两件事。一个谈技术成熟度，一个谈谁负担得起。讨论本地路线时把这两件事分开，判断才不会糊。

给 builder 的一句话：别再问「本地模型行不行」。去算你的具体任务里，本地这条线的成功率、时延、成本，和云端差多少；然后只问一件事，差的那部分，值不值得你换回隐私和控制权。这个答案没有人能替你给。

常见问题

本地模型现在够日常编码用了吗？

看任务类别。Vicki Boykis 和大量 HN 用户的真实体感是：重构、写单元测试、改中小改动、把脚本拆成模块、当本地版的文档搜索，30B 级别的 Gemma 4 或 Qwen 3.6 已经够用，有人据此取消了云端订阅。但同一批帖子里也有重度用户（jwr、redox99）说在大代码库里做复杂设计，本地模型离 Opus 这类前沿模型差得远。所以够用不是一个是非题，是任务分布问题。

M2 或 M4 的 Mac 能跑什么编码模型、多快？

Vicki Boykis 用 2022 年的 M2、64GB 内存跑 gemma-4-12b-qat 和 26B 做 agentic 编码，速度约为前沿模型的 75%。Kyle Howells 在 M1 Max 64GB 上实测 Gemma 4 26B-A4B：纯 llama.cpp 加 Metal 是 58.2 tok/s，加上 MTP 投机解码升到 72.2 tok/s，约快 24%。HN 上 48GB 的 M4 Pro 也能跑 26B，但多数人认为 30B 级是消费级硬件的甜点区，再大要么慢要么内存不够。

本地编码 agent 在 macOS 上怎么配？

Kyle Howells 给了一套可复现的栈：用 Metal 编译的 llama.cpp 作推理引擎，GGUF 格式的 Gemma 4 26B-A4B 作主模型，配一个 Q8 的 MTP 草稿模型做投机解码加速，再挂上多模态投影器以支持截图输入，前端用 Pi 这类终端 agent，通过 OpenAI 兼容 API 接进来。Vicki Boykis 的变体是用 LM Studio 当推理服务、Pi 跑在 Docker 容器里只给 bash 权限。关键在 harness 配置和沙箱，不在模型本身。

本地模型比云端到底差在哪、又强在哪？

差在能力上限和长程任务的稳。HN 用户普遍反映本地模型对上下文里的精确指令注意力弱，复杂任务容易跑偏、空转烧 token，旧版还有不保留思维链导致每轮重算的问题。强在能力之外的四件事：隐私（代码不出本机）、不看 token 价和配额脸色、低时延、供给确定（访问不会被远程吊销）。heipei 等人切到本地的主因不是模型更聪明，是不用再为这四件事操心。

来源

无官方一手源；本文基于可靠二手报道（具名媒体、交叉印证）写成。

概述