2026-06-10

DeepSeek V4：开放权重第一次站上「效率前沿」，而不是追赶榜单

DeepSeek V4 的真正信号是 1.6T MoE 配上推理侧工程把前沿能力做到可负担、可自托管——开放权重阵营第一次在单位 token 成本与吞吐上拿到领先位，而不是又一个跑分名次。

概述

DeepSeek V4 这次值得记住的，不是「又一个中国开放模型挑战 SOTA」的头条，而是它把前沿能力的成本结构摆到了桌面上。据 SemiAnalysis 的 InferenceX 团队从 Day 0 一路追到 Day 43 的实测，在 GB300 NVL72 这套机架级系统上、开启 MTP（多 token 预测投机解码）、按 8k 输入 / 1k 输出、50 tokens/s/user 的交互速度算，每百万输出 token 的成本被压到了 0.156 美元。这是一个开放权重模型——任何人都能下载、自托管、按自己的硬件去复现这条成本曲线。

把这件事放进 builder 的语境：你过去要拿到这个量级的单位成本，前提是用某家闭源 API、接受它的定价和速率限制、把数据交出去。DeepSeek V4 把这条路换成了「权重在你手里，成本由你的部署决定」。对要长期跑大量推理的团队，真正改变的是成本结构和部署自主权，榜单名次反倒是次要的。

所以本文要主动拆掉的，是「DeepSeek V4 吊打某家闭源 SOTA」那种叙事。SemiAnalysis 这篇通篇没有在跑分上做文章，它做的是把一个 1.6T 参数的 MoE 模型在六七种硬件、三四套推理引擎上的真实性能曲线一天天量出来。真正的信号藏在这些曲线里：开放权重阵营第一次在「效率前沿」——单位 token 成本、单位功率吞吐——而不是「追赶能力上限」上拿到了领先位置。下面把信号和噪音逐层分开。

发生了什么

DeepSeek V4（SemiAnalysis 文中称 DeepSeek v4 Pro，1.6T 参数 MoE）由一家中国实验室发布并开放权重。SemiAnalysis 的开源 InferenceX 工程团队从模型发布当天（Day 0）开始，用开源镜像和官方 recipe 在尽可能多的硬件 SKU 与推理框架上记录性能，并持续追踪到 Day 43，所有数据进开源 GitHub 仓库与公开 dashboard。他们刻意记录性能随时间的逐日迭代，因为只有这条曲线才反映真实可部署的状态，单挑一个「最佳快照」会失真。

几条关键观察值得拆开看。第一，Day 0 多栈支持：模型一发布，CUDA 上的原生 vLLM 和 SGLang 就能开箱即用，连 B200/B300 这类较新 SKU 的多数 recipe 也直接能跑。这背后是 vLLM 和 SGLang 两个开源推理生态的强度——两个团队各自成立了公司（Inferact、RadixArk）、各融了数亿美元继续推进。原生 checkpoint 用的是混合精度：MoE 走 FP4、Attention 走 FP8。

第二，不同硬件栈的成熟度差距巨大，而且会随工程投入快速收敛。据 SemiAnalysis，Day 0 只有两套栈做到了第一类支持：英伟达 CUDA 和华为 CANN（Ascend）。AMD 的 ROCn/MI355X 当天只能跑 FP8、交互速度低到每用户每秒 1–2 token，远低于人的阅读速度，基本不可用；但在 HaiShaw 带领的 AMD SGLang 团队手里，到 Day 26 吞吐拿到了超过 100 倍的提升——靠的是把 PyTorch 原生 fallback 路径换成真正的 AITER/Triton/TileLang 内核、打通 FP4 权重 MoE。英伟达自家的 TensorRT-LLM 反而出了 bug：内核里硬编码了 4096 的 hidden size，而 V4 Pro 是 7168，导致约一周时间里默认配置会悄悄产出损坏的生成结果，最后由 SemiAnalysis 自己提 PR 修复，前后耗到 Day 9。

第三，机架级系统是当前成本/吞吐的标杆。GB300 NVL72 把 72 张 GPU 放进一个 NVLink 域，让 MoE 的 dispatch/combine 全部跑在 NVLink 上而不溢出到更慢的 scale-out 网络，同时把专家权重的加载摊到更多 rank 上——这就是它能把成本压到每百万输出 token 0.156 美元的结构性原因。相比之下，B200/B300 是 8 卡 NVLink 岛靠 InfiniBand 互连，更早撞墙；MI355X 在 scale-up 域规模和集合通信栈成熟度上都更靠后。

第四，软件优化直接转化成功率效率。据 SemiAnalysis，B200 上 vLLM 的「每兆瓦每秒 token 数」（计入数据中心 PUE 与全部供电开销）从 Day 0 的约 30 万，到 6 月 5 日提升到接近 50 万——约 1.7 倍，且因为 B200 的全口径供电包络固定在约 2.17 kW/GPU，这是纯软件带来的收益。对照 MegaMoE 分组 FP4 GEMM、更宽的专家并行（Wide EP）这些优化既推高了吞吐前沿，也等比例地推高了每兆瓦的产出。

此外，华为这次是 DeepSeek V4 的首个具备一线 Day 0 支持的主流开放模型平台，部分 DeepSeek 官方 API 自 Day 0 起就跑在华为上——这与去年 V3/R1 发布时「只有 CUDA 一套栈能跑」形成对比，背后是模型架构对 Ascend 推理做了部分协同设计。

为何重要

值得改变判断的，是「开放权重 = 性价比凑合、真要省钱还得回闭源 API」这条默认假设被动摇了。DeepSeek V4 给出的成本曲线，是任何人都能在自己机房或租来的机架上去复现、去逼近的可部署成本，而不是只能照单全收的某家厂商 list price。这意味着前沿级推理的单位经济性第一次有了一个开放、可审计的参照系——你不再只能在「相信某家 API 的定价」和「自己从零调优」之间二选一。

第二，部署自主权和成本结构是两件事，但这次一起到位了。权重开放给了你自主权——可以放进自己的合规边界、避开速率限制、按业务波形自己排产能。SemiAnalysis 的曲线又告诉你：这份自主权不必以高出一截的单位成本为代价，前提是你愿意（或有合作伙伴愿意）投入推理侧的工程。这对有数据驻留要求、有稳定大流量、或者单纯不想被单一供应商锁死的团队，是真正能改变 build-vs-buy 决策的信号。

第三，多栈成熟度的收敛速度本身是一条 builder 情报。AMD 那条「从基本不可用到 Day 26 提升超 100 倍」的曲线说明，开放模型的硬件性价比在发布后头一个月里会剧烈变化，Day 0 能跑只是起点。这条经验直接影响采购与上线节奏：在一个开放模型刚发布时就把硬件选型一锤定音，很可能买在最差的时间点；给软件生态留出几周追赶窗口，性价比格局可能完全不同。

对建设者的影响

如果你在做自托管或混合推理的产能规划，最该带走的一条是：把「单位 token 成本 / 单位功率吞吐」当成首要指标。单卡吞吐和榜单分数只是参考，真正决定机队经济性的是前两个数字。SemiAnalysis 反复强调，「每兆瓦每秒 token 数」之所以是机队级 ROI 的最佳度量，是因为它计入了 PUE 和数据中心开销——很多组织的真实约束是稀缺的供电量，问题是怎么把已供电的兆瓦换成尽可能多的可计费 token。DeepSeek V4 让这套以功率为锚的算账方式，第一次能架在一个开放权重模型上做。

第二，推理引擎的选型要按你的交互速度档位来定。据 SemiAnalysis 的曲线，TensorRT-LLM 在高批量下性能更优，到了高交互速度档位会落后，而且不开箱即用；原生 vLLM / SGLang 在 CUDA 上 Day 0 即可用，是新开放模型最可靠的落脚点。机架级的 GB300 在开 MTP 后于所有交互档位领先，但前提是你能拿到 NVL72 这种 scale-up 域——拿不到，就别拿它的成本数字给自己的 8 卡部署定预算。

第三，给硬件选型留出生态追赶窗口。AMD/华为这些非 CUDA 栈的性价比在发布后一个月内可能翻几十倍，今天的「不可用」不代表一个季度后的格局。务实的做法是：先用 CUDA 原生栈把业务跑起来，同时跟踪 InferenceX 这类公开 dashboard 上各栈的迭代曲线，等性价比拐点出现再调整采购。

技术要点

DeepSeek V4 长上下文的成本优势，来自架构层的 KV cache 压缩。据 SemiAnalysis 对技术报告的拆解，V4 放弃了此前的 Multi-head Latent Attention（MLA），改用两种新机制交错：HCA（Heavily Compressed Attention）的 KV cache 由一个滑动窗口的 KV 嵌入加一组压缩后的 KV 条目组成，每个条目把若干 token 的 key/value 压成一个（V4 Pro 取 m′=128）；CSA（Compressed Sparse Attention）用同样的压缩技术但压缩率更低（m=4），并在压缩后的 KV 条目上用一个 lightning indexer 做稀疏注意力来挑选要关注的 token——这条稀疏注意力继承自 DeepSeek v3.2 的 sparse attention。两者交错的结果，是在 1M 上下文长度下把 KV cache 体积压到约 1/50。

这正是长上下文推理的成本要害：KV cache 往往是显存和带宽的主要消耗者，把它压掉 50 倍，意味着同样的硬件能服务长得多的上下文、或同样的上下文能用便宜得多的硬件。同主题另有一篇研究社区论文（arXiv 2606.09079，FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention）从 lightning index 与前瞻稀疏注意力的角度讨论超长上下文——其具体方法与数字本文手头的源材料未给出，故只作方向性指引，不展开结论。

代价也要说清：这套新颖的 KV 结构给推理框架带来了实打实的工程负担。据 SemiAnalysis，CSA/HCA 每类条目的尺寸不同，vLLM 的 KV cache 分配器要专门设计逻辑块大小（需同时整除两种压缩率）和分桶策略来避免显存碎片——这意味着「拿来即用的最优性价比」需要框架侧补齐相应支持，是前述「给生态留追赶窗口」的又一个具体注脚。

该忽略什么

第一，忽略「DeepSeek V4 吊打某家闭源 SOTA」式的能力跑分头条。SemiAnalysis 这份一手分析通篇没在能力榜单上做文章，本文也没有任何源支持的跑分可引——把这次的价值押在「谁分高」上，会错过真正的信号：成本与可部署性。

第二，别把 GB300 那条 0.156 美元/百万 token 的曲线直接套到你自己的部署上。那是机架级 NVLink 域、开 MTP、特定输入输出长度和交互速度档位下的结果；换成 8 卡岛、换交互速度、换硬件栈，数字会显著不同。它只是「这个模型在最优系统下能做到多便宜」的上界参照，你自己的实际成本要按自己的部署条件重新算。

第三，别被「Day 0 全栈支持」这类措辞误导成「随便挑硬件都划算」。AMD 当天每用户每秒 1–2 token 的「可用」，到一个月后超 100 倍提升后才算真的可用，这两个「可用」之间隔着一个月的工程投入。把发布日的支持状态当成长期性价比的依据，是这次最容易踩的坑。

概述

发生了什么

为何重要

对建设者的影响

技术要点

该忽略什么

来源