扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

DeepSeek V4预览版发布,以极具竞争力的定价重塑大模型价格体系。文章分析token定价新逻辑、缓存机制带来的成本优化,以及Agentic AI时代规模化运行的商业可行性。

DeepSeek V4预览版终于发布,又一次把大模型的价格打了下来,这很符合DeepSeek的"特性"。

V4-Flash定价输入1元、输出2元/百万tokens,缓存命中后输入仅0.2元;V4-Pro定价输入12元、输出24元/百万tokens,缓存命中输入1元,发布时给出限时75折,截至5月5日。两款模型均原生支持百万tokens上下文。

这周末,DeepSeek-V4-Pro 继续开启限时优惠,把价格打到2.5折,缓存命中率的输入价格再打1折。一位AI工程师半开玩笑地说,"周末过后,DeepSeek-V4-Pro离免费只差0.025元"。

目前距离2024年那一轮以DeepSeek V2为起点的价格战,已经过去了整整两年。这两年,大模型的推理成本出现了指数级的下降,在考虑缓存命中等因素后的有效成本口径下,累计降幅甚至达百倍。

但今天,把价格打下来的意义比之前更为重要。AI已经切换到以长程复杂任务为主的Agent范式,一次任务背后是几十次、上百次模型调用。

在这个行业语境下,DeepSeek V4预览版的发布,同时也伴随着两个值得划重点的信息。一是百万上下文成为两款模型原生标配;二是强调了缓存价格,折上折。叠加标准输入输出价格压到了同规格模型的梯度下沿,目标是把Agent完成一次任务的总账单压到最有竞争力。

图片由AI生成

01 Token已经有了新的价格体系

回看2024年的降价,本质上是把大模型从"昂贵实验"拉进"可用工具"。当时,依靠架构创新带来的推理效率提升,模型调用价格从GPT-4时代每百万token 10至30美元的区间,快速压缩到1美元量级。

图:过去两年token价格指数级下降

这是一种典型的"绝对价格下探":开发者可以低成本调用大模型,应用层开始真正被打开。但在那个阶段,价格仍然对应"单次调用成本",token被视为统一计价单位,调用次数与成本基本线性相关。

两年后的DeepSeek V4,价格结构本身也发生了改变。随着缓存(cache)机制进入主流计费体系,token开始被拆分为"新计算"和"重复计算"两类成本。在高缓存命中率的场景中,同样的输入价格可以下降到原来的十分之一甚至更低。价格从一个静态标价,变成一个与系统设计强相关的变量。

图:token被拆成"新计算"和"重复计算"

如果只看标价,V4依然延续了DeepSeek一贯的低价策略。在国内市场,阿里通义、智谱GLM、月之暗面Kimi等同档模型的定价大致在输入1—4元、输出4—12元区间,而V4-Flash输入1元、输出2元,处在行业平均价的1/3到1/4。

Pro版本12元/24元与旗舰模型接近,但百万级上下文是默认能力而非加价选项。放到全球范围,对比更加明显,价格大致仅为部分竞品的十分之一到五十分之一。比如GPT-5.5官网价格为:输入 5 美元 / 百万 token,缓存输入(cached input) 0.5 美元 / 百万 token,输出 30 美元 / 百万 token。Claude Opus 4.7延续 Opus 4.6 的价格体系,大致为输入 5 美元 / 百万 token,输出 25 美元 / 百万 token。

虽然海外旗舰模型在能力上限、生态成熟度、token利用率等方面并不完全可比,价格并非唯一维度。但在同一组Agent任务中,调用成本的差距会直接影响商业可行性。海外厂商也承受着定价压力:Sam Altman曾公开承认ChatGPT Pro订阅处于亏损状态,Dario Amodei也警告行业存在"过度激进定价"。一定程度上,价格背后系统性包含了算力供给、研发摊销和市场策略。

这也是为什么这一次的价格优势更有意义。在2024年,行业解决的是"能不能用";在今天的Agentic AI范式下,更核心的问题是"能不能规模化运行"。

一个Agent任务往往包含几十到上百次模型调用,大量输入来自system prompt、工具schema和历史记忆,这些内容高度可复用,也恰恰是成本最容易"膨胀"的部分。

DeepSeek V4重点压缩的,正是这一块"重复计算"的成本。

图:DeepSeek V4把"成本"变成了一个可以被工程优化的变量。左侧是能力对齐,右侧是成本断崖。在百万上下文下,推理算力和缓存占用大幅下降,使得长程任务不再以指数级成本增长。这也是本轮价格战背后的真正驱动力。

从自身产品的具体价格演进来看,这种变化也有迹可循。上一代V3.2的输入价格为2元(未命中缓存)、0.2元(命中缓存),输出3元;而V4-Flash将输入降至1元,输出降至2元,最直接的变化是"未命中输入价格腰斩"。在多轮调用的Agent场景中,累计输入成本往往占大头,这一调整的杠杆效应远大于表面降价。

Pro版本输入12元、输出24元的定价表面看比Flash贵了一个数量级,但DeepSeek在技术报告中写道,"Pro版本受高端算力产能约束,预计下半年昇腾950超节点批量上市并部署后,Pro的价格会大幅下调"。可以理解为,Pro现在的价格反映的是供给瓶颈,不是真实成本。

两款模型的定位也很清晰:Flash面向高并发、低延迟的批量任务,Pro承担复杂Agent流程、长链路代码生成和深度推理。从技术报告看,DeepSeek 已开始用真实研发任务评估 V4 的 code agent 能力,并在内部评估中将其直接对标Claude系列。

02 "价格屠夫"的背后

DeepSeek如何做到了把价格打下来?

传统注意力机制处理长文本时,计算量随序列长度的平方增长,比如1M tokens的计算量是128K的64倍。这就是过去"百万上下文"很难真正商用的原因,KV cache的显存占用会随序列长度线性堆叠,跑满1M要么砍掉并发量、要么加几倍机器,账面上完全不划算。

这也是为什么海外厂商普遍采取"默认短窗口、长窗口加价"的策略,Anthropic甚至直接把200K以上单独做成一档收费,价格翻倍。

图:DeepSeek V4 的CSA(压缩稀疏注意力)通过先压缩KV缓存、再用Top-k选择关键上下文,只计算最重要的信息,从而在长文本场景下大幅降低算力与缓存开销。

简单理解V4的解法,是把"压缩"和"稀疏"叠加。先把每m个token的KV缓存压成一个压缩条目(CSA压缩率4,HCA压缩率128),再让每个query只关注其中top-k个关键条目做注意力计算。前一步可以降显存,后一步降算力,同时攻克两个瓶颈。

图:DeepSeek V4 的HCA(重压缩注意力)通过将更长序列的KV缓存极限压缩为少量表示,在保留局部窗口信息的同时进一步减少计算与存储开销,是支撑百万级上下文成本下降的关键路径。

技术报告显示:1M上下文下,V4-Pro的单token推理FLOPs仅为V3.2的27%,KV cache占用仅为10%;V4-Flash更激进,FLOPs为V3.2的10%,KV cache为7%。再叠加FP4量化感知训练、Muon优化器、自研mega-kernel MegaMoE等基础设施层优化,V4把成本从训练到推理整条链路都优化压缩了一遍。

低价是架构成本的自然结果。国内大模型公司的一位核心成员告诉腾讯科技:"国内大模型的API定价(包括他们自己),主要还是看成本能力。还没有哪家不计成本地'卷价格'。所以,从技术底层做到的成本优势就极为重要。"

阿里云智能CTO周靖人也曾强调:"每一次降价都是一个非常严肃的过程,要从整个产业发展、开发者、企业用户的反馈等各方面进行权衡,不是价格战。"

03 为什么这次"降价"更重要?

从需求端来看,在当下系统性把"价格打下来"更为迫切。Deloitte最新一份Token Economics报告里举了AT&T的例子:这家公司在引入Agent系统后,单日Token消耗从80亿涨到了270亿。Stevens理工的一份分析指出,Agent系统在多轮对话中存在"二次方Token增长"陷阱:到第10轮时,单次调用的Token量可能达到第1轮的7倍。

模型价格决定一个Agent能不能在商业上跑通。

CIO杂志在三周前的报道里引用了AI解决方案公司Addo AI的CEO Ayesha Khanna的判断"如果你跑一个持续性Agent对接前沿模型API,高Token消耗、长上下文、多步推理、重输出,经济性会迅速恶化。某些情况下,单任务成本会比让一个人做这件事还贵。"这是Agent商业化目前最现实的瓶颈,技术能跑通,账算不过来。

回顾V4这次的几个动作,几乎全部对准行业这个瓶颈:百万上下文做成默认能力,让Agent不必再为长上下文支付溢价;缓存命中输入价压到行业最低水位,匹配Agent场景里反复使用相同系统提示的特点。技术报告里还特别提到,V4在工具调用场景下完整保留全部reasoning content(V3.2会在每个新用户消息开始时丢弃),这也是为了适配Agent的多轮调用需求。

04 V4能把整个Agentic AI的成本线拉低吗?

最终,还有一个重要问题,V4能不能把整个Agentic AI行业的成本线压下去?这次可能情况也复杂得多。

首先看其他厂商是否跟进。V4这一轮如果引发类似的同步降价,行业整体成本曲线才会真正下移。但这一次如上文分析,模型的价格更由成本结构决定,模型厂商的毛利率短期内没有压缩空间,跟进的空间比较有限。

二是高端算力的供给。也如DeepSeek在技术报告中所说,V4-Pro目前的服务吞吐有限。Pro的低价能不能稳定供给,取决于昇腾950超节点等国产算力下半年的批量部署进度,以及DeepSeek在跨硬件平台上的工程化进展。

技术报告第3.1节明确写道,DeepSeek在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度专家并行方案,这也是DeepSeek首次将昇腾与英伟达并列写入硬件验证清单,也是尝试把推理路径从单一硬件依赖中解耦出来。这件事如果真的被验证有效,长期对国内大模型产业的价值更大。

三是Agent场景的Token结构能否被进一步优化。当下的Agent很消耗token,其中相当一部分Token浪费来源于Agent架构本身。在模型降价之外,Agent本身怎么用Token又是另一回事。即便V4把单价压到了地板,糟糕的Agent设计还是有可能会让账单失控。这也是当下大热的Harness系统的意义。

Deepseek V4预览版确实是在价目表上把价格打了下来,把百万上下文可以做成默认能力,输出价格可以做到一美元以下/百万tokens量级,并且这件事是有架构基础、不依赖补贴的。

但是这一次,全行业把成本打下来并不是那么简单,面对了一个更复杂的系统性命题。

原文链接:点击前往 >

文章作者:腾讯科技

版权申明:文章来源于腾讯科技。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch103
限时免费报名中!5.27-28广州,上半年最大的出海ToB展会











限时免费报名中!找人脉,找合作就来PAGC
PAGC2026 | 第六届
全球产品与增长展会
2026.5.27-28 | 限时免费报名
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与16万+出海人同行!