2026-06-10

DeepSeek V4：1M 上下文进入成本结构阶段

DeepSeek V4 的核心变化不是把 1M context 写进功能清单，而是让长上下文从能力展示进入成本、路由和产品默认值的重新设计。

frontier-models frontier-progress ai-infra inference long-context

DeepSeek V4：1M 上下文进入成本结构阶段 — 图 / Unsplash

概述

DeepSeek V4 Preview 最值得关注的信号，是官方把「cost-effective 1M context length」放在发布首屏，并声明 1M context 已经成为所有官方 DeepSeek 服务的默认能力。这个表述的分量很重：长上下文不再只是 Pro 用户偶尔开启的实验窗口，而是模型、API、价格和产品入口必须共同承受的基础假设。对 builder 来说，真正的问题随之变化：过去问的是模型能不能吃下 1M，现在要问的是每次把 1M 当默认上下文时，账单、延迟、缓存和召回策略会怎样重排。

官方同时给出两条产品线：DeepSeek-V4-Pro 是 1.6T total / 49B active params，DeepSeek-V4-Flash 是 284B total / 13B active params。这个组合说明 DeepSeek 没有把长上下文只交给最大模型，而是在能力上限和日常吞吐之间做了明确分层。判断也因此更清楚：1M context 的价值不在「所有请求都塞满窗口」，而在系统可以按任务难度和交互模式，把长上下文能力变成可调度的资源。

所以这篇的立论很简单：DeepSeek V4 的意义，是把长上下文从「能做到」推向「成本结构问题」。如果你还把 1M 看成宣传数字，就会错过真正的工程变化；如果你已经在做 repo agent、研究助手、企业知识库或复杂客服，V4 提醒你重新设计的是上下文经济学，而不是 prompt 模板。

发生了什么

DeepSeek 在 2026 年 4 月 24 日发布 V4 Preview，并宣布 API 当天更新可用。官方文档写得很直接：chat.deepseek.com 可通过 Expert Mode / Instant Mode 试用，API 侧只需保留 base_url，把 model 更新为 deepseek-v4-pro 或 deepseek-v4-flash。这个迁移路径的判断意义大于宣传意义，因为它降低了接入摩擦，让 builder 可以把 V4 当成现有 DeepSeek 调用栈的升级，而不是一套新供应商集成。

发布还明确了旧模型的生命周期：deepseek-chat 与 deepseek-reasoner 会在 2026 年 7 月 24 日 15:59（UTC）之后完全退役且不可访问，目前分别路由到 deepseek-v4-flash 的 non-thinking / thinking 模式。这个时间点不是小字注释，而是产品战略信号：DeepSeek 希望把 V4 变成默认入口，同时用 Flash 承接大量普通流量。对建设者而言，继续围绕旧模型做长期优化已经不划算，迁移计划应该按这个退役日期倒排。

技术侧，官方把长上下文效率归因于 token-wise compression 加 DSA（DeepSeek Sparse Attention），并强调在 compute 与 memory costs 上做了大幅降低。这里要克制地读：官方没有在页面文本里展开可复现实验细节，不能把它直接翻译成你自己部署中的成本数字；但方向足够明确，DeepSeek 选择在注意力和上下文存储层面处理成本，而不是只靠硬件堆窗口。

为何重要

1M context 真正昂贵的地方，从来不是模型声明支持多少 token，而是每次请求都会把更多历史、文档、代码和工具结果带进推理路径。上下文一旦变成默认能力，浪费也会默认发生：检索召回过宽、agent 历史不剪枝、代码仓库全量塞入、客服记录不分层，都会把「长上下文」变成「长账单」。DeepSeek V4 的价值在于它迫使团队把上下文当资源管理，而不是当无限扩容的输入框。

Pro/Flash 的分层进一步说明，长上下文产品需要路由而不是单模型信仰。V4-Pro 承担强推理、复杂 agent 和高价值任务，V4-Flash 承担快速、经济和简单 agent 任务，这比「一个最强模型包打天下」更接近生产现实。我的判断是，未来长上下文系统的竞争会落在路由策略上：什么时候用 Flash 读全局，什么时候把压缩摘要交给 Pro，什么时候用缓存复用已经付过费的上下文。

这也改变了 RAG 和 agent 的边界。过去 RAG 的价值是绕开有限窗口；当 1M 变成默认，RAG 的价值会转向过滤、排序和成本控制。能够塞进去不等于应该塞进去，能保存全部历史也不等于应该让模型每轮读取全部历史。V4 这类模型越普及，越能看出检索系统的核心能力其实是节制。

对建设者的影响

第一，重新定义你的上下文预算。不要只写「最大上下文 1M」这类配置项，而要把上下文拆成稳定背景、短期工作记忆、检索片段、工具输出和用户显式输入，每一层都要有进入窗口的条件。这个设计看上去琐碎，却会直接决定长上下文是生产优势还是成本黑洞。

第二，把模型选择和上下文长度分开评估。V4-Pro 的 1.6T total / 49B active params 适合高价值复杂任务，V4-Flash 的 284B total / 13B active params 更适合快路径；但长上下文本身未必总要上 Pro。务实的做法是先让 Flash 做粗读、压缩、分类和低风险回答，再把确实需要深推理的片段交给 Pro。这个路由如果做对，1M context 才会变成产品能力，而不是每次请求的固定税。

第三，尽快处理旧模型退役。官方已经给出 2026 年 7 月 24 日 15:59（UTC）这个不可访问节点，继续依赖 deepseek-chat 或 deepseek-reasoner 的硬编码会变成稳定性风险。更好的迁移方式是把 thinking / non-thinking 作为产品级模式暴露给路由层，而不是把旧模型名留在业务逻辑里。

第四，别把长上下文当成检索质量的替代品。1M window 会让糟糕检索的后果更隐蔽：答案可能看似引用充分，但模型在无关材料里消耗了注意力和预算。对企业知识库、代码库和研究助手来说，V4 的上线应该推动更严格的召回评估，而不是取消评估。

该忽略什么

第一，忽略「1M context 以后 RAG 过时」这种结论。它误把窗口长度当成信息组织能力。长窗口解决的是上限，RAG 解决的是选择；当窗口变长，选择反而更重要，因为无关信息的成本和干扰都被放大了。

第二，忽略「官方默认 1M，所以所有请求都该默认 1M」的偷懒实现。默认能力不等于默认使用，尤其在 API 产品里，默认支持只是降低上限焦虑；真正成熟的系统会尽量少用上下文，只在价值超过成本时才展开长窗口。

第三，忽略单纯拿 Pro/Flash 参数规模做高低判断。V4-Pro 和 V4-Flash 的关键关系是任务分层，不是简单替代。把所有请求打到 Pro 会浪费，把所有请求压到 Flash 会丢复杂任务质量；V4 的建设者红利，恰恰在于你能设计出中间那层路由。

常见问题

DeepSeek V4 的 1M 上下文是真能用，还是只是参数表上的数字？

能用，但关键不在窗口长度，而在它被设成官方服务的默认能力——约束随之从'能不能开'变成长上下文的成本、路由和缓存策略。把它当默认值之前，先算清你的高频请求是否值得每次喂满上下文。

DeepSeek V4 和 GPT 在长上下文上该怎么选？

不该按'谁的窗口更大'选。V4 的差异是把长上下文压进成本结构，所以选型要看你的负载是偶发长文档还是高频长上下文——后者才是 V4 成本设计的受益场景，否则窗口大小对你没区别。

上了 DeepSeek V4 的 1M 上下文，成本会失控吗？

会，如果你把'窗口能塞 1M'当成'每次都塞满'。成本控制点在路由（短请求别走长上下文）和缓存复用（重复前缀别重复计费），这两个才是长上下文被产品化后真正要管的开关。

来源

DeepSeek V4 Preview Release / official
DeepSeek-V4-Pro on Hugging Face / official