据两名知情人士周二向路透社透露,英伟达正在准备推出一款面向中国市场的Groq人工智能芯片。

英伟达去年底以 170 亿美元收购了人工智能芯片初创公司 Groq,并在本周于加州圣何塞举行的年度开发者大会上展示了一系列基于其芯片的新产品。

英伟达首席执行官黄仁勋表示,在获得美国总统唐纳德·特朗普政府的出口许可证和中国客户的采购订单后,该公司已重启其 H200 芯片(目前旗舰芯片的前身)的生产。与此同时,英伟达也开始着手为中国市场开发芯片版本。

英伟达计划利用Groq的芯片进行推理,即人工智能系统回答问题、编写代码或为用户执行任务。在本周英伟达展示的产品中,该公司计划将即将推出的Vera Rubin芯片(该芯片无法在中国销售)与Groq芯片结合使用。

尽管英伟达在人工智能系统训练市场占据主导地位,但在推理市场却面临着更为激烈的竞争。包括百度在内的多家中国人工智能巨头,已经生产出自己的推理芯片。

一位消息人士告诉路透社,准备销往中国的芯片并非降级版本,也不是专门为中国市场制造的。该消息人士称,新版本可以适配其他系统,并补充说,Groq芯片预计将于5月上市。

英伟达终于承认为何斥资 200 亿美元收购 Groq

作为一个行业,我们几乎还没完全适应融合机架级计算系统。这个概念其实已经存在十多年了,但直到现在才开始真正普及,因为人工智能可以承担解耦的成本,而人工智能对延迟的敏感性又推动了这些解耦组件的紧密融合。

但对规模越来越大的 AI 超级计算机的需求促使英伟达将所有设备都组装起来,随着今年下半年即将交付的新一代系统,所有设备都将被组装起来:Vera-Rubin 计算机架、Vera CPU 机架、Spectrum-X 机架、BlueField-4 STX 存储机架,以及现在的 Groq LP30 低延迟推理机架。

去年12月底,英伟达斥资200亿美元“收购”了Groq的大部分开发团队,并获得了其LPU数据流引擎的底层技术授权,用于人工智能推理。我们当时预期英伟达会迅速部署由前谷歌员工乔纳森·罗斯(Jonathan Ross)开发的张量流处理器。罗斯在离开谷歌后,创建了一种完全可调度、可编程的张量处理单元。随着GenAI(人工智能世代)的兴起,这些处理器被更名为语言处理单元(LPU),但其架构并未改变。如今,英伟达正与三星合作,将第三代LP30芯片推向市场。英伟达联合创始人兼首席执行官黄仁勋在GTC 2026大会的开幕主题演讲中表示,该芯片将于今年下半年发布,很可能在第三季度。

英伟达没有浪费任何时间,因为它根本没有时间可以浪费。Groq原本有望在低延迟推理领域取得进展,就像Cerebras Systems和SambaNova Systems一样,后者专注于超高带宽SRAM内存而非相对较低的计算能力,从而在大量计算引擎上实现快速推理。在速度至关重要的领域,这些系统制造商以及数十家试图大规模解决推理问题的初创公司,就像一群食人鱼涌向亚马逊河(指亚马逊河,而非书商和云服务公司)里一头肥牛。因此,英伟达不得不迅速行动……

因此,Vera以200亿美元巨资收购了Groq。由于直接收购可能需要一到两年的时间,而且可能无法通过全球反垄断监管机构的审查,因此无法直接完成。于是,Groq被立即整合到Vera-Rubin平台中。考虑到黄仁勋在主题演讲中提到,低延迟、高价代币的生成应该占人工智能集群计算量的25%左右,这个平台或许应该被称为Vera-Rubin-Groq平台。

还记得英伟达在 2025 年 9 月预览的Rubin CPX 大型上下文计算引擎吗?它基于 Rubin 架构的变体,并配备了更便宜、更容易获得的 GDDR7 显存。

英伟达人工智能与高性能计算副总裁伊恩·巴克在GTC 2026大会前的一次电话会议上谈到系统发布时表示:“我们发现了一个绝妙的想法,那就是将LPU和LPX集成到我们的Rubin平台中,以优化解码。这是我们目前的工作重点,我们很高兴能将这项技术推向市场。”

换句话说,取消 Rubin CPX 项目。

黄仁勋将我们推测为“Rubin”R200 GPU加速器的设备,与我们推测为“Alan-3”Groq LP30推理加速器的设备并排放置。其中一台是通用型动态调度计算引擎,它非常擅长批量处理大量推理任务,并通过HBM堆叠内存进行流水线式处理,延迟合理,并支持多个并发用户。(这应该就是GPU。)另一台则是一机架或更多机架相对较小的、专用于推理的、静态调度的确定性计算引擎,它们协同工作,支持少量用户(大多数情况下可能只有一个用户),并将模型权重(而非数据)分布到其聚合SRAM中,使得随着机器数量的增加,生成令牌的响应时间会相应缩短。GPU负责处理大量数据,而LPU则负责加速。它们可以与Dynamo推理堆栈协同工作,从而在不同的吞吐量和延迟范围内提供更均衡的推理性能帕累托曲线。

以下是 R200 和 LP30 芯片的进给量和速度:


更全面的比较需要考虑这些系统的完整内存层次结构,包括主机处理器中的闪存和主内存,但您应该明白我的意思。此外,我们将性能归一化到 FP8 浮点运算次数,这表明在相同的数据精度下,性能差距为 21 倍。如果您的 AI 工作负载的解码部分可以利用 FP4 处理(这是一个相当大的假设),那么 R200 的理论峰值性能将是 LP30 的 42 倍。

但仔细看看GPU的复杂度,它与成本成正比——R200的大部分物料清单都将用于支付HBM4堆叠式内存以及将其连接到GPU所需的中介层的成本。因此,我们必须考虑到,这款速度型芯片的延迟不仅会低于普通芯片,而且在实现合理交互水平的情况下,每个令牌的成本也可能更低。

随着我们从人类与聊天机器人互动过渡到自主人工智能系统之间相互对话,以更快的速度、更复杂的推理能力执行任务,并因此处理数量级更大的令牌,最需要考虑的是,类似 Groq、Cerebras 和 SambaNova 这样的架构将变得更加重要。我们需要开发专门针对自主人工智能推理的 Google TPU 和 Amazon Trainium 的变体,在不牺牲内存容量的前提下,更好地平衡内存带宽和计算能力。

我们将深入探讨硬件方面的问题。请放心,目前我们只是在回顾黄仁勋和巴克阐述的策略,您需要重点关注的是两条帕累托性能曲线,它们分别展示了先前、当前和未来一致性GPU内存域系统的性能,以及将Groq设计的LP30加入其中后的性能变化。目标是利用黄仁勋构想的推理领域中的推理核心,覆盖从免费到高级的各种层级,这是一种合理的理解方式。

以下是 Hopper NVL8、Grace-Blackwell NVL72 和 Vera-Rubin NVL72 系统在吞吐量(每秒每兆瓦的令牌数)和交互性(每秒每个用户的令牌数)方面的比较:


显而易见,NVSwitch 带来的更大共享 GPU 内存域有助于将性能曲线从 Hopper 拉长到 Blackwell,但随着 Rubin GPU 的升级,内存、内存带宽和计算能力的提升只能使性能曲线向上移动,而无法向右拉伸。Nvidia 最终会扩大内存域,但不会是在 2026 年的硬件世代。

现在,当您将 Groq LP30 添加到系统组合中时,就会发生这种情况:目标客户群体是中高端客户,随着越来越多的 LP30 被添加到系统中进行推理,系统将逐步扩展到利润非常丰厚的超高端客户群体:


那么,这条惊人的曲线说明了什么呢?让我用通俗易懂的方式解释一下。如果你只是做一些对响应时间要求不高的简单推理,比如聊天机器人与语速较慢的人类对话,或者几个智能体帮助自动化各种人类工作,那么 Vera-Rubin 算法就足够用了。但在智能体人工智能的世界里,需要生成的令牌数量极其庞大,而且令牌生成的延迟必须很低,才能保证大量的智能体完成任务——任何延迟都意味着损失金钱,还不如把这些钱烧掉,扔到数据中心或者纽约证券交易所——那么,绝对没有人会选择 CPU-GPU 混合系统来做这种解码工作。

这就是为什么英伟达斥资 200 亿美元收购了 Groq 的顶尖技术。

我现在只能说,AMD 与 Cerebras 的联合创始人关系非常密切。

Vera-Rubin 架构指的是 88 核“Vera”CV100 Arm 服务器处理器,搭配定制的“Olympus”内核和“Rubin”R200 GPU 加速器,共有七种不同的芯片,构成五种不同类型的机架式系统,可以在 Vera-Rubin AI 超级计算机中进行混合搭配。


黄仁勋展示了 1 GW “Hopper” H100 GPU 容量与 X86 处理器搭配,并体现在 HGX NVL8 系统中(八个 GPU 在纵向网络上共享内存,使用 InfiniBand 进行横向扩展)与我们推测的 VR200 NVL72 机架级系统集群(GPU 的 72 路内存共享)的对比。

在这个对比中,只需一半数量的GPU就能实现13.3倍的AI处理性能提升。公平地说,H100只能将精度降低到FP8,而R200将支持FP4格式(就像之前的“Blackwell”GPU一样)。因此,这13.3倍的性能提升中有两倍来自于精度的降低。而且,FP4格式的应用并非仅限于基准测试——人们正在调整模型,以在将数据量(以及处理精度)减半的情况下,将结果的精度控制在FP8的几个百分点以内。人们正在生产环境中进行这种权衡。

但问题在于,如果你只需要一半数量的GPU,但单价却翻了三四倍,那么英伟达就能通过销售至少两倍的设备来大幅提升营收,但你的IT预算并不会减少。如果你的AI工作负载正在扩展——而这几乎是必然的——那么你的IT预算也会增加。但其他所有部署AI的IT机构的预算也会增加,如今需求再次远远超过供应,迫使价格进一步上涨,从而推高英伟达的营收和利润,使其远超在不受限制的环境下可能达到的水平。

当推理之王真好。


但差点就成了推理之王的,是谷歌 TPU 的缔造者、以及公认的更优秀的 Groq 架构的缔造者乔纳森·罗斯。罗斯刚刚收到了一份无法拒绝的收购要约,我认为 Cerebras 也很有可能收到类似的要约。英特尔错失了收购 SambaNova Systems 的机会——但或许现在还有时间和资金达成交易。

(来源:内容来自半导体行业观察综合)