DeepSeek V4价格屠夫：百万上下文原生支持，Token定价重塑AI成本体系

DeepSeek V4预览版发布，以极具竞争力的定价重塑大模型价格体系。文章分析token定价新逻辑、缓存机制带来的成本优化，以及Agentic AI时代规模化运行的商业可行性。

DeepSeek V4预览版终于发布，又一次把大模型的价格打了下来，这很符合DeepSeek的"特性"。

V4-Flash定价输入1元、输出2元/百万tokens，缓存命中后输入仅0.2元；V4-Pro定价输入12元、输出24元/百万tokens，缓存命中输入1元，发布时给出限时75折，截至5月5日。两款模型均原生支持百万tokens上下文。

这周末，DeepSeek-V4-Pro 继续开启限时优惠，把价格打到2.5折，缓存命中率的输入价格再打1折。一位AI工程师半开玩笑地说，"周末过后，DeepSeek-V4-Pro离免费只差0.025元"。

目前距离2024年那一轮以DeepSeek V2为起点的价格战，已经过去了整整两年。这两年，大模型的推理成本出现了指数级的下降，在考虑缓存命中等因素后的有效成本口径下，累计降幅甚至达百倍。

但今天，把价格打下来的意义比之前更为重要。AI已经切换到以长程复杂任务为主的Agent范式，一次任务背后是几十次、上百次模型调用。

在这个行业语境下，DeepSeek V4预览版的发布，同时也伴随着两个值得划重点的信息。一是百万上下文成为两款模型原生标配；二是强调了缓存价格，折上折。叠加标准输入输出价格压到了同规格模型的梯度下沿，目标是把Agent完成一次任务的总账单压到最有竞争力。

图片由AI生成

01 Token已经有了新的价格体系

回看2024年的降价，本质上是把大模型从"昂贵实验"拉进"可用工具"。当时，依靠架构创新带来的推理效率提升，模型调用价格从GPT-4时代每百万token 10至30美元的区间，快速压缩到1美元量级。

图：过去两年token价格指数级下降

这是一种典型的"绝对价格下探"：开发者可以低成本调用大模型，应用层开始真正被打开。但在那个阶段，价格仍然对应"单次调用成本"，token被视为统一计价单位，调用次数与成本基本线性相关。

两年后的DeepSeek V4，价格结构本身也发生了改变。随着缓存（cache）机制进入主流计费体系，token开始被拆分为"新计算"和"重复计算"两类成本。在高缓存命中率的场景中，同样的输入价格可以下降到原来的十分之一甚至更低。价格从一个静态标价，变成一个与系统设计强相关的变量。

图：token被拆成"新计算"和"重复计算"

如果只看标价，V4依然延续了DeepSeek一贯的低价策略。在国内市场，阿里通义、智谱GLM、月之暗面Kimi等同档模型的定价大致在输入1—4元、输出4—12元区间，而V4-Flash输入1元、输出2元，处在行业平均价的1/3到1/4。

Pro版本12元/24元与旗舰模型接近，但百万级上下文是默认能力而非加价选项。放到全球范围，对比更加明显，价格大致仅为部分竞品的十分之一到五十分之一。比如GPT-5.5官网价格为：输入 5 美元 / 百万 token，缓存输入（cached input） 0.5 美元 / 百万 token，输出 30 美元 / 百万 token。Claude Opus 4.7延续 Opus 4.6 的价格体系，大致为输入 5 美元 / 百万 token，输出 25 美元 / 百万 token。

虽然海外旗舰模型在能力上限、生态成熟度、token利用率等方面并不完全可比，价格并非唯一维度。但在同一组Agent任务中，调用成本的差距会直接影响商业可行性。海外厂商也承受着定价压力：Sam Altman曾公开承认ChatGPT Pro订阅处于亏损状态，Dario Amodei也警告行业存在"过度激进定价"。一定程度上，价格背后系统性包含了算力供给、研发摊销和市场策略。

这也是为什么这一次的价格优势更有意义。在2024年，行业解决的是"能不能用"；在今天的Agentic AI范式下，更核心的问题是"能不能规模化运行"。

一个Agent任务往往包含几十到上百次模型调用，大量输入来自system prompt、工具schema和历史记忆，这些内容高度可复用，也恰恰是成本最容易"膨胀"的部分。

DeepSeek V4重点压缩的，正是这一块"重复计算"的成本。

图：DeepSeek V4把"成本"变成了一个可以被工程优化的变量。左侧是能力对齐，右侧是成本断崖。在百万上下文下，推理算力和缓存占用大幅下降，使得长程任务不再以指数级成本增长。这也是本轮价格战背后的真正驱动力。

从自身产品的具体价格演进来看，这种变化也有迹可循。上一代V3.2的输入价格为2元（未命中缓存）、0.2元（命中缓存），输出3元；而V4-Flash将输入降至1元，输出降至2元，最直接的变化是"未命中输入价格腰斩"。在多轮调用的Agent场景中，累计输入成本往往占大头，这一调整的杠杆效应远大于表面降价。

Pro版本输入12元、输出24元的定价表面看比Flash贵了一个数量级，但DeepSeek在技术报告中写道，"Pro版本受高端算力产能约束，预计下半年昇腾950超节点批量上市并部署后，Pro的价格会大幅下调"。可以理解为，Pro现在的价格反映的是供给瓶颈，不是真实成本。

两款模型的定位也很清晰：Flash面向高并发、低延迟的批量任务，Pro承担复杂Agent流程、长链路代码生成和深度推理。从技术报告看，DeepSeek 已开始用真实研发任务评估 V4 的 code agent 能力，并在内部评估中将其直接对标Claude系列。

02 "价格屠夫"的背后

DeepSeek如何做到了把价格打下来？

传统注意力机制处理长文本时，计算量随序列长度的平方增长，比如1M tokens的计算量是128K的64倍。这就是过去"百万上下文"很难真正商用的原因，KV cache的显存占用会随序列长度线性堆叠，跑满1M要么砍掉并发量、要么加几倍机器，账面上完全不划算。

这也是为什么海外厂商普遍采取"默认短窗口、长窗口加价"的策略，Anthropic甚至直接把200K以上单独做成一档收费，价格翻倍。

图：DeepSeek V4 的CSA（压缩稀疏注意力）通过先压缩KV缓存、再用Top-k选择关键上下文，只计算最重要的信息，从而在长文本场景下大幅降低算力与缓存开销。

简单理解V4的解法，是把"压缩"和"稀疏"叠加。先把每m个token的KV缓存压成一个压缩条目（CSA压缩率4，HCA压缩率128），再让每个query只关注其中top-k个关键条目做注意力计算。前一步可以降显存，后一步降算力，同时攻克两个瓶颈。

图：DeepSeek V4 的HCA（重压缩注意力）通过将更长序列的KV缓存极限压缩为少量表示，在保留局部窗口信息的同时进一步减少计算与存储开销，是支撑百万级上下文成本下降的关键路径。

技术报告显示：1M上下文下，V4-Pro的单token推理FLOPs仅为V3.2的27%，KV cache占用仅为10%；V4-Flash更激进，FLOPs为V3.2的10%，KV cache为7%。再叠加FP4量化感知训练、Muon优化器、自研mega-kernel MegaMoE等基础设施层优化，V4把成本从训练到推理整条链路都优化压缩了一遍。

低价是架构成本的自然结果。国内大模型公司的一位核心成员告诉腾讯科技："国内大模型的API定价（包括他们自己），主要还是看成本能力。还没有哪家不计成本地'卷价格'。所以，从技术底层做到的成本优势就极为重要。"

阿里云智能CTO周靖人也曾强调："每一次降价都是一个非常严肃的过程，要从整个产业发展、开发者、企业用户的反馈等各方面进行权衡，不是价格战。"

03 为什么这次"降价"更重要？

从需求端来看，在当下系统性把"价格打下来"更为迫切。Deloitte最新一份Token Economics报告里举了AT&T的例子：这家公司在引入Agent系统后，单日Token消耗从80亿涨到了270亿。Stevens理工的一份分析指出，Agent系统在多轮对话中存在"二次方Token增长"陷阱：到第10轮时，单次调用的Token量可能达到第1轮的7倍。

模型价格决定一个Agent能不能在商业上跑通。

CIO杂志在三周前的报道里引用了AI解决方案公司Addo AI的CEO Ayesha Khanna的判断"如果你跑一个持续性Agent对接前沿模型API，高Token消耗、长上下文、多步推理、重输出，经济性会迅速恶化。某些情况下，单任务成本会比让一个人做这件事还贵。"这是Agent商业化目前最现实的瓶颈，技术能跑通，账算不过来。

回顾V4这次的几个动作，几乎全部对准行业这个瓶颈：百万上下文做成默认能力，让Agent不必再为长上下文支付溢价；缓存命中输入价压到行业最低水位，匹配Agent场景里反复使用相同系统提示的特点。技术报告里还特别提到，V4在工具调用场景下完整保留全部reasoning content（V3.2会在每个新用户消息开始时丢弃），这也是为了适配Agent的多轮调用需求。

04 V4能把整个Agentic AI的成本线拉低吗？

最终，还有一个重要问题，V4能不能把整个Agentic AI行业的成本线压下去？这次可能情况也复杂得多。

首先看其他厂商是否跟进。V4这一轮如果引发类似的同步降价，行业整体成本曲线才会真正下移。但这一次如上文分析，模型的价格更由成本结构决定，模型厂商的毛利率短期内没有压缩空间，跟进的空间比较有限。

二是高端算力的供给。也如DeepSeek在技术报告中所说，V4-Pro目前的服务吞吐有限。Pro的低价能不能稳定供给，取决于昇腾950超节点等国产算力下半年的批量部署进度，以及DeepSeek在跨硬件平台上的工程化进展。

技术报告第3.1节明确写道，DeepSeek在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度专家并行方案，这也是DeepSeek首次将昇腾与英伟达并列写入硬件验证清单，也是尝试把推理路径从单一硬件依赖中解耦出来。这件事如果真的被验证有效，长期对国内大模型产业的价值更大。

三是Agent场景的Token结构能否被进一步优化。当下的Agent很消耗token，其中相当一部分Token浪费来源于Agent架构本身。在模型降价之外，Agent本身怎么用Token又是另一回事。即便V4把单价压到了地板，糟糕的Agent设计还是有可能会让账单失控。这也是当下大热的Harness系统的意义。

Deepseek V4预览版确实是在价目表上把价格打了下来，把百万上下文可以做成默认能力，输出价格可以做到一美元以下/百万tokens量级，并且这件事是有架构基础、不依赖补贴的。

但是这一次，全行业把成本打下来并不是那么简单，面对了一个更复杂的系统性命题。

原文链接：点击前往 >

文章作者：腾讯科技

版权申明：文章来源于腾讯科技。该文观点仅代表作者本人，扬帆出海平台仅提供信息存储空间服务，不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任，如若转载请联系原文作者。更多资讯关注扬帆出海官网：https://www.yfchuhai.com/