DeepSeek V4:开放权重第一次站上「效率前沿」,而不是追赶榜单

DeepSeek V4 的真正信号是 1.6T MoE 配上推理侧工程把前沿能力做到可负担、可自托管——开放权重阵营第一次在单位 token 成本与吞吐上拿到领先位,而不是又一个跑分名次。

DeepSeek V4:开放权重第一次站上「效率前沿」,而不是追赶榜单
图 / Unsplash

概述

DeepSeek V4 这次值得记住的,不是「又一个中国开放模型挑战 SOTA」的头条,而是它把前沿能力的成本结构摆到了桌面上。据 SemiAnalysis 的 InferenceX 团队从 Day 0 一路追到 Day 43 的实测,在 GB300 NVL72 这套机架级系统上、开启 MTP(多 token 预测投机解码)、按 8k 输入 / 1k 输出、50 tokens/s/user 的交互速度算,每百万输出 token 的成本被压到了 0.156 美元。这是一个开放权重模型——任何人都能下载、自托管、按自己的硬件去复现这条成本曲线。

把这件事放进 builder 的语境:你过去要拿到这个量级的单位成本,前提是用某家闭源 API、接受它的定价和速率限制、把数据交出去。DeepSeek V4 把这条路换成了「权重在你手里,成本由你的部署决定」。对要长期跑大量推理的团队,真正改变的是成本结构和部署自主权,榜单名次反倒是次要的。

所以本文要主动拆掉的,是「DeepSeek V4 吊打某家闭源 SOTA」那种叙事。SemiAnalysis 这篇通篇没有在跑分上做文章,它做的是把一个 1.6T 参数的 MoE 模型在六七种硬件、三四套推理引擎上的真实性能曲线一天天量出来。真正的信号藏在这些曲线里:开放权重阵营第一次在「效率前沿」——单位 token 成本、单位功率吞吐——而不是「追赶能力上限」上拿到了领先位置。下面把信号和噪音逐层分开。

发生了什么

DeepSeek V4(SemiAnalysis 文中称 DeepSeek v4 Pro,1.6T 参数 MoE)由一家中国实验室发布并开放权重。SemiAnalysis 的开源 InferenceX 工程团队从模型发布当天(Day 0)开始,用开源镜像和官方 recipe 在尽可能多的硬件 SKU 与推理框架上记录性能,并持续追踪到 Day 43,所有数据进开源 GitHub 仓库与公开 dashboard。他们刻意记录性能随时间的逐日迭代,因为只有这条曲线才反映真实可部署的状态,单挑一个「最佳快照」会失真。

几条关键观察值得拆开看。第一,Day 0 多栈支持:模型一发布,CUDA 上的原生 vLLM 和 SGLang 就能开箱即用,连 B200/B300 这类较新 SKU 的多数 recipe 也直接能跑。这背后是 vLLM 和 SGLang 两个开源推理生态的强度——两个团队各自成立了公司(Inferact、RadixArk)、各融了数亿美元继续推进。原生 checkpoint 用的是混合精度:MoE 走 FP4、Attention 走 FP8。

第二,不同硬件栈的成熟度差距巨大,而且会随工程投入快速收敛。据 SemiAnalysis,Day 0 只有两套栈做到了第一类支持:英伟达 CUDA 和华为 CANN(Ascend)。AMD 的 ROCn/MI355X 当天只能跑 FP8、交互速度低到每用户每秒 1–2 token,远低于人的阅读速度,基本不可用;但在 HaiShaw 带领的 AMD SGLang 团队手里,到 Day 26 吞吐拿到了超过 100 倍的提升——靠的是把 PyTorch 原生 fallback 路径换成真正的 AITER/Triton/TileLang 内核、打通 FP4 权重 MoE。英伟达自家的 TensorRT-LLM 反而出了 bug:内核里硬编码了 4096 的 hidden size,而 V4 Pro 是 7168,导致约一周时间里默认配置会悄悄产出损坏的生成结果,最后由 SemiAnalysis 自己提 PR 修复,前后耗到 Day 9。

第三,机架级系统是当前成本/吞吐的标杆。GB300 NVL72 把 72 张 GPU 放进一个 NVLink 域,让 MoE 的 dispatch/combine 全部跑在 NVLink 上而不溢出到更慢的 scale-out 网络,同时把专家权重的加载摊到更多 rank 上——这就是它能把成本压到每百万输出 token 0.156 美元的结构性原因。相比之下,B200/B300 是 8 卡 NVLink 岛靠 InfiniBand 互连,更早撞墙;MI355X 在 scale-up 域规模和集合通信栈成熟度上都更靠后。

第四,软件优化直接转化成功率效率。据 SemiAnalysis,B200 上 vLLM 的「每兆瓦每秒 token 数」(计入数据中心 PUE 与全部供电开销)从 Day 0 的约 30 万,到 6 月 5 日提升到接近 50 万——约 1.7 倍,且因为 B200 的全口径供电包络固定在约 2.17 kW/GPU,这是纯软件带来的收益。对照 MegaMoE 分组 FP4 GEMM、更宽的专家并行(Wide EP)这些优化既推高了吞吐前沿,也等比例地推高了每兆瓦的产出。

此外,华为这次是 DeepSeek V4 的首个具备一线 Day 0 支持的主流开放模型平台,部分 DeepSeek 官方 API 自 Day 0 起就跑在华为上——这与去年 V3/R1 发布时「只有 CUDA 一套栈能跑」形成对比,背后是模型架构对 Ascend 推理做了部分协同设计。

为何重要

值得改变判断的,是「开放权重 = 性价比凑合、真要省钱还得回闭源 API」这条默认假设被动摇了。DeepSeek V4 给出的成本曲线,是任何人都能在自己机房或租来的机架上去复现、去逼近的可部署成本,而不是只能照单全收的某家厂商 list price。这意味着前沿级推理的单位经济性第一次有了一个开放、可审计的参照系——你不再只能在「相信某家 API 的定价」和「自己从零调优」之间二选一。

第二,部署自主权和成本结构是两件事,但这次一起到位了。权重开放给了你自主权——可以放进自己的合规边界、避开速率限制、按业务波形自己排产能。SemiAnalysis 的曲线又告诉你:这份自主权不必以高出一截的单位成本为代价,前提是你愿意(或有合作伙伴愿意)投入推理侧的工程。这对有数据驻留要求、有稳定大流量、或者单纯不想被单一供应商锁死的团队,是真正能改变 build-vs-buy 决策的信号。

第三,多栈成熟度的收敛速度本身是一条 builder 情报。AMD 那条「从基本不可用到 Day 26 提升超 100 倍」的曲线说明,开放模型的硬件性价比在发布后头一个月里会剧烈变化,Day 0 能跑只是起点。这条经验直接影响采购与上线节奏:在一个开放模型刚发布时就把硬件选型一锤定音,很可能买在最差的时间点;给软件生态留出几周追赶窗口,性价比格局可能完全不同。

对建设者的影响

如果你在做自托管或混合推理的产能规划,最该带走的一条是:把「单位 token 成本 / 单位功率吞吐」当成首要指标。单卡吞吐和榜单分数只是参考,真正决定机队经济性的是前两个数字。SemiAnalysis 反复强调,「每兆瓦每秒 token 数」之所以是机队级 ROI 的最佳度量,是因为它计入了 PUE 和数据中心开销——很多组织的真实约束是稀缺的供电量,问题是怎么把已供电的兆瓦换成尽可能多的可计费 token。DeepSeek V4 让这套以功率为锚的算账方式,第一次能架在一个开放权重模型上做。

第二,推理引擎的选型要按你的交互速度档位来定。据 SemiAnalysis 的曲线,TensorRT-LLM 在高批量下性能更优,到了高交互速度档位会落后,而且不开箱即用;原生 vLLM / SGLang 在 CUDA 上 Day 0 即可用,是新开放模型最可靠的落脚点。机架级的 GB300 在开 MTP 后于所有交互档位领先,但前提是你能拿到 NVL72 这种 scale-up 域——拿不到,就别拿它的成本数字给自己的 8 卡部署定预算。

第三,给硬件选型留出生态追赶窗口。AMD/华为这些非 CUDA 栈的性价比在发布后一个月内可能翻几十倍,今天的「不可用」不代表一个季度后的格局。务实的做法是:先用 CUDA 原生栈把业务跑起来,同时跟踪 InferenceX 这类公开 dashboard 上各栈的迭代曲线,等性价比拐点出现再调整采购。

技术要点

DeepSeek V4 长上下文的成本优势,来自架构层的 KV cache 压缩。据 SemiAnalysis 对技术报告的拆解,V4 放弃了此前的 Multi-head Latent Attention(MLA),改用两种新机制交错:HCA(Heavily Compressed Attention)的 KV cache 由一个滑动窗口的 KV 嵌入加一组压缩后的 KV 条目组成,每个条目把若干 token 的 key/value 压成一个(V4 Pro 取 m′=128);CSA(Compressed Sparse Attention)用同样的压缩技术但压缩率更低(m=4),并在压缩后的 KV 条目上用一个 lightning indexer 做稀疏注意力来挑选要关注的 token——这条稀疏注意力继承自 DeepSeek v3.2 的 sparse attention。两者交错的结果,是在 1M 上下文长度下把 KV cache 体积压到约 1/50。

这正是长上下文推理的成本要害:KV cache 往往是显存和带宽的主要消耗者,把它压掉 50 倍,意味着同样的硬件能服务长得多的上下文、或同样的上下文能用便宜得多的硬件。同主题另有一篇研究社区论文(arXiv 2606.09079,FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention)从 lightning index 与前瞻稀疏注意力的角度讨论超长上下文——其具体方法与数字本文手头的源材料未给出,故只作方向性指引,不展开结论。

代价也要说清:这套新颖的 KV 结构给推理框架带来了实打实的工程负担。据 SemiAnalysis,CSA/HCA 每类条目的尺寸不同,vLLM 的 KV cache 分配器要专门设计逻辑块大小(需同时整除两种压缩率)和分桶策略来避免显存碎片——这意味着「拿来即用的最优性价比」需要框架侧补齐相应支持,是前述「给生态留追赶窗口」的又一个具体注脚。

该忽略什么

第一,忽略「DeepSeek V4 吊打某家闭源 SOTA」式的能力跑分头条。SemiAnalysis 这份一手分析通篇没在能力榜单上做文章,本文也没有任何源支持的跑分可引——把这次的价值押在「谁分高」上,会错过真正的信号:成本与可部署性。

第二,别把 GB300 那条 0.156 美元/百万 token 的曲线直接套到你自己的部署上。那是机架级 NVLink 域、开 MTP、特定输入输出长度和交互速度档位下的结果;换成 8 卡岛、换交互速度、换硬件栈,数字会显著不同。它只是「这个模型在最优系统下能做到多便宜」的上界参照,你自己的实际成本要按自己的部署条件重新算。

第三,别被「Day 0 全栈支持」这类措辞误导成「随便挑硬件都划算」。AMD 当天每用户每秒 1–2 token 的「可用」,到一个月后超 100 倍提升后才算真的可用,这两个「可用」之间隔着一个月的工程投入。把发布日的支持状态当成长期性价比的依据,是这次最容易踩的坑。

来源

  1. DeepSeek-V4 预览版发布 / official
  2. DeepSeekV4 1.6T Day 0 to Day 43 Performance Over Time / blog
  3. FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention / paper