智通财经APP获悉,中信建投发布研报称,DeepSeek-V4与GPT-5.5同期发布,前者凭借CSA/HCA注意力压缩与mHC网络重构,在性能紧逼闭源旗舰的同时将百万上下文推理成本降至极低水平,并成功跑通国产化算力基座;后者则依靠软硬件强耦合,主攻高复杂度知识工作,延续了高定价匹配高智能的商业模式。同时,基座模型的代际跃升与OpenClaw、Hermes等Agent框架形成共振,通过智能上限拓展与推理成本优化,加速Agent生态向商业化落地发展。

中信建投主要观点如下:

4月24日,DeepSeek-V4正式发布,包含Pro(总参数1.6T,激活49B)与Flash(总参数284B,激活13B)两个版本,原生支持1M上下文长度。

在公开测评集表现上,DeepSeek-V4确立开源新标杆,紧逼顶尖闭源模型。在知识与推理维度,V4-Pro在MMLU-Pro测试中得分达87.5%,在编程竞赛基准Codeforces中获得3206的Rating评分,不仅大幅领先开源竞品,更比肩甚至局部超越了GPT-5.4(3168分)与Gemini 3.1 Pro(3052)。在长文本领域,其MRCR 1M(百万上下文多海捞针)准确率达83.5%。在Agent复杂任务基准中,V4-Pro在SWE Verified(80.6%)、Terminal Bench 2.0(67.9%)以及贴近真实商业场景的GDPval-AA(1554分)评测中,展现出极强的端到端执行与工具调用能力,稳居全球第一梯队。


核心技术方面,DeepSeek-V4主要实现了CSA、HCA与mHC三项关键技术创新:

CSA(压缩稀疏注意力):针对长序列推理中的KV缓存占用问题,V4并未采用传统的KV舍弃或标量量化策略,而是引入了Token级别的压缩机制。CSA通过带学习权重的压缩模块,将多个Token的KV特征映射为一个低维表示。同时,为了防止局部细粒度信息丢失,CSA保留了基于滑动窗口的未压缩KV条目,并内置轻量级的Lightning Indexer进行Top-k检索。这一机制在大幅减少显存占用的同时,维持了模型对关键局部信息的精确召回能力。

HCA(重度压缩注意力):面向百万级上下文的宏观信息处理,V4在CSA的基础上设计了压缩比更高的HCA模块。HCA采用全局汇聚策略,将极长序列重度压缩至数千个高密度特征块(如将百万Token压缩至约8000个节点)。在模型层级设计上,V4将CSA与HCA层进行交替排布。推理时,模型能够兼顾HCA的全局视野与CSA的局部微观精度,最终使百万上下文推理的单Token计算量降至前代V3.2的27%,KV Cache占用锐减至10%。


mHC(流形约束超连接,2025年12月梁文锋挂名的论文提出):随着模型层数加深,传统残差网络极易出现信号传递衰减与激活值方差指数级放大的训练不稳定问题。DeepSeek提出了mHC机制以替代传统残差连接。该机制对层间映射矩阵施加了严格的数学约束,要求其必须满足双随机矩阵(即矩阵所有元素非负,且每行、每列之和均为1)。这种流形约束在理论上确保了矩阵的谱范数严格等于1,从根本上抑制了深层网络的梯度爆炸与数值漂移问题。在工程实现上,mHC利用Sinkhorn-Knopp迭代算法高效完成矩阵归一化,使得构建极深层大规模模型网络成为可能。


此外,在后训练阶段,V4放弃了传统的RLHF,转而采用多教师同策略蒸馏与生成式奖励模型,有效避免了传统强化学习导致的对齐税(对齐带来的模型降智)及模型通用能力退化现象,实现了模型多维能力的高度均一化。

DeepSeek与Kimi在底层技术上相互学习与验证。在长上下文处理路线上,Kimi主张线性注意力机制以降低计算复杂度,而DeepSeek则坚持通过CSA/HCA进行张量压缩。在训练优化器方面,Kimi曾在其K2.6技术报告中率先验证了Muon优化器在大语言模型上的潜力,而DeepSeek在V4中则全面完成了Muon的工程化落地。面对Muon极易引发的训练崩溃与Logits爆炸问题,不同于竞品采用的截断策略,DeepSeek在架构侧引入了Query/KV的RMSNorm操作进行底层规范化处理,成功将Muon稳定应用于万亿参数MoE模型的全量预训练中,大幅提升了模型的收敛效率。

4月24日,OpenAI同样发布最新旗舰模型GPT-5.5。作为全新旗舰模型,GPT-5.5在推理精度、复杂任务规划及系统级自治能力上实现了对当前行业基准的全面超越。在衡量复杂命令行与代码流的Terminal-Bench 2.0测试中,GPT-5.5准确率达到82.7%(相较前代GPT-5.4提升超7个百分点,大幅领先Claude Opus 4.7的69.4%)。在评估真实专业知识工作流的GDPval测试中,GPT-5.5亦取得84.9%的成绩,超越了大部分垂直行业专家基线。


从案例测试看,GPT-5.5自主拆解、多步推理及自我代码审查与纠错能力较强。在面对前端应用开发、3D引擎渲染(如WebGL/Three.js应用重构)及高难度数学证明(如在纯数学领域协作发现拉姆齐数的新证明路径)等复杂任务展现出较好的表现。此外,OpenAI在技术披露中指出,GPT-5.5驱动的Codex系统已能够分析底层数据中心的生产流量日志,并自主编写负载均衡启发式分区算法,使系统Token生成速度提升逾20%。这种模型优化自身基础设施的案例,验证了GPT-5.5在复杂闭环系统中的高度工程自治潜力。

对比DeepSeek-V4和GPT-5.5,二者在演进方向呈现出一定的差异。

在API调用成本上, GPT-5.5的API定价为每百万Token输入5美元/输出30美元,相比前代大幅提升。而DeepSeek-V4凭借CSA/HCA架构带来的推理效率提升,将 Pro 版本定价拉低至每百万 Token 输入1 元(缓存命中)/12元(缓存未命中)、输出24元,并于4月25日起开启限时2.5折特惠;Flash版本则为输入0.2元(缓存命中)/1元(缓存未命中)、输出2元;极低的模型API定价极大地缓解了超长上下文推理场景下的成本约束。

在算力底座上,OpenAI进一步加深了与英伟达核心算力集群的系统级绑定,以定制化硬件支撑模型能力的演进。而DeepSeek-V4则成功在Nvidia GPU与华为昇腾NPU双平台上完成了验证与性能对齐,海光、寒武纪等国产算力厂商亦完成了0Day适配,有望缓解国内算力资源短缺的局部难题。

而和国内模型相比,DeepSeek-V4则依靠成本和国产适配突围:

1)纵向对比V3:在模型体量上,V4-Pro的总参数量从V3的6710亿大幅扩展至1.6万亿,预训练数据量亦由14.8T Tokens翻倍提升至33T Tokens,进一步验证Scaling Law的持续性;CSA与HCA的机制亦成功将上下文窗口从128K突破至原生1M。实测数据显示,在处理百万级长序列时,V4单Token的推理计算量仅为V3的27%,KV缓存占用更被极致压缩至10%。

2)横向对比其他国产模型:当前,以Kimi、智谱、MiniMax、阿里、小米正持续在模型智能上界不断突破。在Artificial Analysis智能指数评测中,DeepSeek-V4-Pro与上述大厂的旗舰模型能力基本相当。DeepSeek-V4的破局点更在于对国内算力资源的支持与极致化的成本,尤其在保持1.6T参数规模(头部模型厂公开最高,低于文心5.0的2.4T)、1M上下文窗口(与小米MiMo-V2.5pro、Qwen3.6-Plus等并列第一),仍保持了基本相当的价格。


全球AI产业迅速发展,大模型底层能力与应用层Agent框架形成强烈共振。年初OpenClaw 的爆火,以及随后Hermes框架的异军突起,标志着通用Agent系统正在加速演进。技术定位来看,OpenClaw作为多渠道交互的网关,具备强大的执行能力,可通过丰富的静态插件生态和严格的安全沙箱边界,解决Agent如何安全、合规地调度各类工具并跨设备执行任务的问题;而Hermes则开创了具备自我进化与技能沉淀(Skill)的闭环学习,解决了Agent如何利用历史经验实现自我优化的问题。

Agent的发展高度依赖于底层基座模型的代际迭代。一方面,模型能力的迭代使Agent能够更精准地执行框架设定的Pipeline,并自主生成高质量的执行框架;另一方面,自主化Agent带来了Tokens的指数级消耗,以DeepSeek-V4为代表的国产模型使推理成本快速下降,使得Agent在全周期运行和大规模记忆检索上具备经济可行性。

总结:DeepSeek-V4与GPT-5.5同期发布,前者凭借CSA/HCA注意力压缩与mHC网络重构,在性能紧逼闭源旗舰的同时将百万上下文推理成本降至极低水平,并成功跑通国产化算力基座;后者则依靠软硬件强耦合,主攻高复杂度知识工作,延续了高定价匹配高智能的商业模式。同时,基座模型的代际跃升与OpenClaw、Hermes等Agent框架形成共振,通过智能上限拓展与推理成本优化,加速Agent生态向商业化落地发展。

投资方向:继续看好推理算力和商业航天产业趋势。

风险提示

(1)宏观经济下行风险:计算机行业下游涉及千行百业,宏观经济下行压力下,行业IT支出不及预期将直接影响计算机行业需求;(2)应收账款坏账风险:计算机多数公司业务以项目制签单为主,需要通过验收后能够收到回款,下游客户付款周期拉长可能导致应收账款坏账增加,并可能进一步导致资产减值损失;(3)行业竞争加剧:计算机行业需求较为确定,但供给端竞争加剧或将导致行业格局发生变化;(4)国际环境变化影响:国际贸易摩擦加剧,美国不断对中国科技施压,对于海外收入占比较高公司可能形成影响。