大模型降价使用成本反而更高？缓存命中率暗藏服务商牟利空间,模型价钱

今年来，以“龙虾”（OpenClaw）、“爱马仕”（Hermes）为代表的智能体热度攀升，词元（Token）也调用量不断提升，数据显示，到2026年3月，我国日均Token调用量已超过140万亿，相比2024年初增长了1000多倍，这标志着AI发展已进入以推理和应用为核心的快速增长阶段。

但是，据业内人士观察，Token需求量的指数级爆发，Agent执行复杂任务时需要反复观察、调用工具与修正错误，单次任务消耗量可达十万甚至百万级，算力市场目前出现了极度的供需失衡。

算力供不应求进一步带来了Token服务质量的下滑。清程极智联合创始人师天麾告诉南都记者，“今年相比去年，大家（提供Token服务的正规厂商）的服务质量明显下降了，因为Token需求量增多，但是算力比较缺乏，导致Token生产有限，出现供不应求的情况，所以整个的质量都有所下降。”那么这些服务究竟有存在哪些需要关注的质量问题？用户又该如何判断？

Token服务商质量下滑，延迟吞吐可靠性难全天候保障

当前，市面上的Token售卖服务无非三类，一是大模型原厂，二是云平台，国内包括以阿里云、百度智能云、华为云为代表的云大厂，以及以无问芯穹、硅基流动、PPIO派欧云、七牛云为代表的AI基础设施创业公司等，三则是通过小红书、闲鱼等平台引流至个人网站后开展服务的AI中转站，当前处于不合规的灰色地带。

此前，南都N视频记者报道市面上AI中转站生意所暗藏的玄机，多位业内人士向南都记者透露，多数AI中转站货源来路不正，靠“薅”大模型原厂羊毛获取资源，向用户售卖时还存在掺假造假情况，另外，信息安全问题也未有明确保障，最好的方法还是通过官方渠道购买服务。（南都此前报道：AI中转站低至1元引流：薅大模型羊毛掺假倒卖token）

也就是说，用户尽量选择原厂和各类云平台所提供的服务较好。近年来，随着AI逐步落地，Token调用量提升，云平台的用户数量也大幅提升。举例来看，公开资料介绍，今年3月，阿里云MaaS平台百炼客户数量已同比增长八倍。七牛云自2025年开启MaaS平台以来，MaaS相关用户数快速放量突破18万，截至今年1月14日，平台注册用户总量已突破192万。

面对大批涌入的用户，服务质量如何保障？业内目前存在的问题有哪些？师天麾告诉南都记者，去年大部分开源模型是FP8的精度，但有一些厂商为了降低成本用INT8或者INT4来做量化，这样就可以把成本压得更低，但是模型的回答质量也变低了，也就是说用户体验变差了。

“无论是给企业报价，还是给个人报价，或者写在官网上的时候，可以不写精度，一眼看过去和官方是一模一样的，不懂行的客户就是花了一样的钱，买了更差的东西，服务商自己利润却能提高”。

另外，延迟、吞吐、可靠性也存在问题。南都记者了解到，所谓延迟、吞吐、可靠性是指，每次发过去一条请求，然后得到一个返回结果，当中包含的几个指标——发过去多久开始返回首Token是首字延迟，后续推理过程中，一秒钟输出多少Token是输出吞吐，发过去一次请求，能否在正常时间内返回，则为可靠性。

针对于此，师天麾和其团队在结合用户诉求评测后发现，“发过去一个请求，理论上应该三五秒钟返回，结果30秒钟还没有返回，就意味着可靠性不行。当然，用户对不同模型、不同输入的延迟容忍度是不一样的，但一般流式请求的首字延迟不应该太久”。

据介绍，当前，任何一家服务商的服务性能都是一直在波动的，对中小客户无法明确保证，换言之，并非一整天都能够提供稳定的服务稳定，因为服务商一天内需求量变化很大，可能上班比较繁忙，下班比较空闲。

而这会导致“降智”的情况出现。“很多用户会发现一开始用得好好的，后来莫名其妙答复就变笨了，这种情况很常见，可能是厂商那边因为资源不够了，或者为了控制自己的成本，选择这么做”。师天麾告诉南都记者。

服务怎么选？有业内人士向南都记者透露，“互联网大厂一般来讲质量都还不错，但是中间的问题在于，有些模型他们比较重视，他们会重点往那块堆资源，不重视的模型他们就不重点推，给到的机器资源就会少，机器资源少意味着用的人多就慢。”

用户较在意折扣，缓存命中藏着哪些利润空间

其中的利润空间有多大？师天麾告诉南都记者，“大部分厂商官网的标价会和原厂对齐，明显偏贵的情况在于，模型原厂经常会分段计价，但是有些厂商不会分段，会按照最贵的来。然后就是在Cache缓存这块，像‘龙虾’这种多轮迭代对话的长上下文场景，如果缓存命中了，成本可以直接降十倍，原厂的缓存价格是输入原价的十分之一，能明显优化成本”。

公开资料介绍，“Cached Token”的意义在于让AI能够“记住”其刚读过的长内容，不用每次都在“脑子”里从头重新算一遍，这能够让回答变得极快且极便宜。同时，业内分析认为，对算力侧而言，大模型处理复杂长任务犹如阅读长篇报告，如果每次执行新指令都要从头重读，将造成巨大的算力浪费。

“很多三方厂商不提供这个功能，也许是有缓存的，但是不会把价格打到原来的十分之一，这部分很多客户不懂，就是看起来和原厂标价差不多，甚至报价比原厂更便宜，但实际用下来总成本反而更高了。另外，还有的厂商缓存做得不好，能命中多少缓存和技术实现非常相关，有的开始命中率低，给客户省的钱少，最后自己拿的钱就多，但是这部分有些会不在报价上标注，需要客户自己去测缓存命中率有多高”。

南都记者注意到，DeepSeek当前价格已经打到很低，也因此被业内称为“性价比之王”。前段时间，DeepSeek宣布其全系列API服务，输入缓存命中的价格降至首发价格的十分之一。据官网显示，当前，DeepSeek-V4-Flash每百万Tokens输入缓存命中价格已从0.2元降至0.02元。

DeepSeek-V4-Pro优惠力度更大，原价1元/百万Tokens的输入缓存命中价格在降至0.1元的基础上，叠加2.5折优惠活动，价格低至0.025元/百万Tokens。这一优惠原定6月起恢复原价，但其最新公告确认，DeepSeek-V4-Pro API将永久降为原价的1/4，即：每百万tokens输入（缓存命中）0.025元，输入（缓存未命中）3元，输出6元。

DeepSeek V4系列首发定价

DeepSeek V4系列官网当前定价

而南都记者从多家云平台上检索发现，其当前上线的DeepSeek-V4系列基本宣称，保持API定价与模型官方一致，并面向用户提供专属折扣优惠，但从缓存命中的实际定价来看，对齐DeepSeek V4系列首发价，即DeepSeek-V4-Flash输入缓存命中价格为0.2元/百万Tokens，DeepSeek-V4-Pro输入缓存命中价格为1元/百万Tokens。

多家云平台DeepSeek V4定价（图源官网）

不过，也有与DeepSeek官方优惠定价一致的厂商，比如硅基流动。据其公众号介绍，其AI云部署的 DeepSeek-V4系列，支持1M Tokens 最大上下文长度，支持缓存命中功能。其中，V4-Flash缓存命中定价为0.02元/百万tokens，V4-Pro的调用价格限时2.5折，缓存命中价格为0.025元/百万tokens。

对齐官方价格的难点在何处？硅基流动方面告诉南都记者，“一方面是推理性能优化与算力的弹性伸缩要做得足够好，另一方面是要有足够多的用户来用，不然因为潮汐算力的问题，晚上使用的用户比较少，会导致很难打平付出的算力成本”。

硅基流动官网DeepSeek-V4定价

从定价这块整体来看，师天麾认为，当前行业内并非定价不透明，而是厂商标注出来了用户也看不懂，比如缓存这块很多企业采购时不在意，换言之，主要还是赚信息差。“我们很多客户是刚开始学AI，或者公司高层刚决定要开始用AI，可能比较关心折扣这块，但折扣下面还有很多事，比如有没有缓存、命中率怎么样，这部分十分重要。”

运营商入局卖Token，“国家队”的市场在哪？

除前述云厂商外，今年5月，作为“国家队”的运营商们也纷纷开始入局“卖Token”。5月16日，上海电信宣布，即日起面向上海电信用户正式推出Token算力服务，一是按量订购，1元对应25万额度点；二是按需选择，多买可享折扣，支持话费账单支付。同日，上海联通发布多档Token产品及融合套餐。

5月17日，中国电信推出系列试商用Token套餐。其中，面向个人及家庭客户资费方面，轻享版每月资费9.9元，每月1000万Tokens；畅享版每月29.9元，Tokens额度为每月4000万；尊享版每月49.9元，每月8000万Tokens，三档均可重复订购。同日，上海移动推出Token通用服务，并联合腾讯推出AI原生工作台，1元可购40万Tokens，可实现“一个额度、一个价格、任选模型”，并支持话费账单支付。

“运营商采购量会很大，所以价格可能会便宜一些。但Token并非卖货的逻辑，不是说从哪大批量采购之后摆到货架上，直接买走就完事了，Token非常看技术，同样几台机器各自部署推理运行生产出来的Token，效率会差很多，生产效率高，Token成本就低。从技术上来看，运营商在AI Infra的技术看起来没有那么强，要自己生产Token往外卖性价比可能不太高”。有业内人士分析表示。

运营商的市场在哪里？有业内人士告诉南都记者，“‘国家队’有更强资质，比如说国央企对安全有需求，Token服务又是要往外发数据的，国有企业有数据安全需求，首选的会是私有化部署，买机器自己部署，安全需求稍微弱一点的会选择运营商”。

当前，用户对于第三方平台使用的安全性问题也十分关注。上海中联(广州)律师事务所高级合伙人、广东省律协行政委员会委员、广州市律协金融委员会委员吴宇志律师告诉南都记者，AI领域的Token售卖目前被界定为技术服务的商业化售卖，而非金融产品。因此，国家没有出台专门针对“Token售卖”的法律。

虽然没有专门法律，但服务提供商在售卖时必须遵循《数据安全法》《个人信息保护法》《生成式人工智能服务管理暂行办法》等，确保数据处理合规、内容安全。平台是否足够安全，用户难以判断，但也有开发者告诉南都记者，“大模型的输出是否‘安全’，更适合由开发者自己来把控，而非由模型提供方来控制”。

出品：南都政商数据新闻部
采写：南都N视频记者朱可轩