今年来,以“龙虾”(OpenClaw)、“爱马仕”(Hermes)为代表的智能体热度攀升,词元(Token)也调用量不断提升,数据显示,到2026年3月,我国日均Token调用量已超过140万亿,相比2024年初增长了1000多倍,这标志着AI发展已进入以推理和应用为核心的快速增长阶段。

但是,据业内人士观察,Token需求量的指数级爆发,Agent执行复杂任务时需要反复观察、调用工具与修正错误,单次任务消耗量可达十万甚至百万级,算力市场目前出现了极度的供需失衡。

算力供不应求进一步带来了Token服务质量的下滑。清程极智联合创始人师天麾告诉南都记者,“今年相比去年,大家(提供Token服务的正规厂商)的服务质量明显下降了,因为Token需求量增多,但是算力比较缺乏,导致Token生产有限,出现供不应求的情况,所以整个的质量都有所下降。”那么这些服务究竟有存在哪些需要关注的质量问题?用户又该如何判断?

1

Token服务商质量下滑,延迟吞吐可靠性难全天候保障

当前,市面上的Token售卖服务无非三类,一是大模型原厂,二是云平台,国内包括以阿里云、百度智能云、华为云为代表的云大厂,以及以无问芯穹、硅基流动、PPIO派欧云、七牛云为代表的AI基础设施创业公司等,三则是通过小红书、闲鱼等平台引流至个人网站后开展服务的AI中转站,当前处于不合规的灰色地带。

此前,南都N视频记者报道市面上AI中转站生意所暗藏的玄机,多位业内人士向南都记者透露,多数AI中转站货源来路不正,靠“薅”大模型原厂羊毛获取资源,向用户售卖时还存在掺假造假情况,另外,信息安全问题也未有明确保障,最好的方法还是通过官方渠道购买服务。(南都此前报道:AI中转站低至1元引流:薅大模型羊毛掺假倒卖token)

也就是说,用户尽量选择原厂和各类云平台所提供的服务较好。近年来,随着AI逐步落地,Token调用量提升,云平台的用户数量也大幅提升。举例来看,公开资料介绍,今年3月,阿里云MaaS平台百炼客户数量已同比增长八倍。七牛云自2025年开启MaaS平台以来,MaaS相关用户数快速放量突破18万,截至今年1月14日,平台注册用户总量已突破192万。

面对大批涌入的用户,服务质量如何保障?业内目前存在的问题有哪些?师天麾告诉南都记者,去年大部分开源模型是FP8的精度,但有一些厂商为了降低成本用INT8或者INT4来做量化,这样就可以把成本压得更低,但是模型的回答质量也变低了,也就是说用户体验变差了。

“无论是给企业报价,还是给个人报价,或者写在官网上的时候,可以不写精度,一眼看过去和官方是一模一样的,不懂行的客户就是花了一样的钱,买了更差的东西,服务商自己利润却能提高”。

另外,延迟、吞吐、可靠性也存在问题。南都记者了解到,所谓延迟、吞吐、可靠性是指,每次发过去一条请求,然后得到一个返回结果,当中包含的几个指标——发过去多久开始返回首Token是首字延迟,后续推理过程中,一秒钟输出多少Token是输出吞吐,发过去一次请求,能否在正常时间内返回,则为可靠性。

针对于此,师天麾和其团队在结合用户诉求评测后发现,“发过去一个请求,理论上应该三五秒钟返回,结果30秒钟还没有返回,就意味着可靠性不行。当然,用户对不同模型、不同输入的延迟容忍度是不一样的,但一般流式请求的首字延迟不应该太久”。

据介绍,当前,任何一家服务商的服务性能都是一直在波动的,对中小客户无法明确保证,换言之,并非一整天都能够提供稳定的服务稳定,因为服务商一天内需求量变化很大,可能上班比较繁忙,下班比较空闲。

而这会导致“降智”的情况出现。“很多用户会发现一开始用得好好的,后来莫名其妙答复就变笨了,这种情况很常见,可能是厂商那边因为资源不够了,或者为了控制自己的成本,选择这么做”。师天麾告诉南都记者。

服务怎么选?有业内人士向南都记者透露,“互联网大厂一般来讲质量都还不错,但是中间的问题在于,有些模型他们比较重视,他们会重点往那块堆资源,不重视的模型他们就不重点推,给到的机器资源就会少,机器资源少意味着用的人多就慢。”

2

用户较在意折扣,缓存命中藏着哪些利润空间

其中的利润空间有多大?师天麾告诉南都记者,“大部分厂商官网的标价会和原厂对齐,明显偏贵的情况在于,模型原厂经常会分段计价,但是有些厂商不会分段,会按照最贵的来。然后就是在Cache缓存这块,像‘龙虾’这种多轮迭代对话的长上下文场景,如果缓存命中了,成本可以直接降十倍,原厂的缓存价格是输入原价的十分之一,能明显优化成本”。

公开资料介绍,“Cached Token”的意义在于让AI能够“记住”其刚读过的长内容,不用每次都在“脑子”里从头重新算一遍,这能够让回答变得极快且极便宜。同时,业内分析认为,对算力侧而言,大模型处理复杂长任务犹如阅读长篇报告,如果每次执行新指令都要从头重读,将造成巨大的算力浪费。

“很多三方厂商不提供这个功能,也许是有缓存的,但是不会把价格打到原来的十分之一,这部分很多客户不懂,就是看起来和原厂标价差不多,甚至报价比原厂更便宜,但实际用下来总成本反而更高了。另外,还有的厂商缓存做得不好,能命中多少缓存和技术实现非常相关,有的开始命中率低,给客户省的钱少,最后自己拿的钱就多,但是这部分有些会不在报价上标注,需要客户自己去测缓存命中率有多高”。

南都记者注意到,DeepSeek当前价格已经打到很低,也因此被业内称为“性价比之王”。前段时间,DeepSeek宣布其全系列API服务,输入缓存命中的价格降至首发价格的十分之一。据官网显示,当前,DeepSeek-V4-Flash每百万Tokens输入缓存命中价格已从0.2元降至0.02元。

DeepSeek-V4-Pro优惠力度更大,原价1元/百万Tokens的输入缓存命中价格在降至0.1元的基础上,叠加2.5折优惠活动,价格低至0.025元/百万Tokens。这一优惠原定6月起恢复原价,但其最新公告确认,DeepSeek-V4-Pro API将永久降为原价的1/4,即:每百万tokens输入(缓存命中)0.025元,输入(缓存未命中)3元,输出6元。


DeepSeek V4系列首发定价


DeepSeek V4系列官网当前定价

而南都记者从多家云平台上检索发现,其当前上线的DeepSeek-V4系列基本宣称,保持API定价与模型官方一致,并面向用户提供专属折扣优惠,但从缓存命中的实际定价来看,对齐DeepSeek V4系列首发价,即DeepSeek-V4-Flash输入缓存命中价格为0.2元/百万Tokens,DeepSeek-V4-Pro输入缓存命中价格为1元/百万Tokens。


多家云平台DeepSeek V4定价(图源官网)

不过,也有与DeepSeek官方优惠定价一致的厂商,比如硅基流动。据其公众号介绍,其AI云部署的 DeepSeek-V4系列,支持1M Tokens 最大上下文长度,支持缓存命中功能。其中,V4-Flash缓存命中定价为0.02元/百万tokens,V4-Pro的调用价格限时2.5折,缓存命中价格为0.025元/百万tokens。

对齐官方价格的难点在何处?硅基流动方面告诉南都记者,“一方面是推理性能优化与算力的弹性伸缩要做得足够好,另一方面是要有足够多的用户来用,不然因为潮汐算力的问题,晚上使用的用户比较少,会导致很难打平付出的算力成本”。


硅基流动官网DeepSeek-V4定价

从定价这块整体来看,师天麾认为,当前行业内并非定价不透明,而是厂商标注出来了用户也看不懂,比如缓存这块很多企业采购时不在意,换言之,主要还是赚信息差。“我们很多客户是刚开始学AI,或者公司高层刚决定要开始用AI,可能比较关心折扣这块,但折扣下面还有很多事,比如有没有缓存、命中率怎么样,这部分十分重要。”

3

运营商入局卖Token,“国家队”的市场在哪?

除前述云厂商外,今年5月,作为“国家队”的运营商们也纷纷开始入局“卖Token”。5月16日,上海电信宣布,即日起面向上海电信用户正式推出Token算力服务,一是按量订购,1元对应25万额度点;二是按需选择,多买可享折扣,支持话费账单支付。同日,上海联通发布多档Token产品及融合套餐。

5月17日,中国电信推出系列试商用Token套餐。其中,面向个人及家庭客户资费方面,轻享版每月资费9.9元,每月1000万Tokens;畅享版每月29.9元,Tokens额度为每月4000万;尊享版每月49.9元,每月8000万Tokens,三档均可重复订购。同日,上海移动推出Token通用服务,并联合腾讯推出AI原生工作台,1元可购40万Tokens,可实现“一个额度、一个价格、任选模型”,并支持话费账单支付。

“运营商采购量会很大,所以价格可能会便宜一些。但Token并非卖货的逻辑,不是说从哪大批量采购之后摆到货架上,直接买走就完事了,Token非常看技术,同样几台机器各自部署推理运行生产出来的Token,效率会差很多,生产效率高,Token成本就低。从技术上来看,运营商在AI Infra的技术看起来没有那么强,要自己生产Token往外卖性价比可能不太高”。有业内人士分析表示。

运营商的市场在哪里?有业内人士告诉南都记者,“‘国家队’有更强资质,比如说国央企对安全有需求,Token服务又是要往外发数据的,国有企业有数据安全需求,首选的会是私有化部署,买机器自己部署,安全需求稍微弱一点的会选择运营商”。

当前,用户对于第三方平台使用的安全性问题也十分关注。上海中联(广州)律师事务所高级合伙人、广东省律协行政委员会委员、广州市律协金融委员会委员吴宇志律师告诉南都记者,AI领域的Token售卖目前被界定为技术服务的商业化售卖,而非金融产品。因此,国家没有出台专门针对“Token售卖”的法律。

虽然没有专门法律,但服务提供商在售卖时必须遵循《数据安全法》《个人信息保护法》《生成式人工智能服务管理暂行办法》等,确保数据处理合规、内容安全。平台是否足够安全,用户难以判断,但也有开发者告诉南都记者,“大模型的输出是否‘安全’,更适合由开发者自己来把控,而非由模型提供方来控制”。

出品:南都政商数据新闻部
采写:南都N视频记者 朱可轩