英伟达200亿美元Groq技术加持新LPX机架系统大幅提升AI响应速度_前沿科技

英伟达200亿美元Groq技术加持新LPX机架系统大幅提升AI响应速度

创始人

2026-03-18 08:49:53

0次

在周一的GTC主题演讲中，英伟达CEO黄仁勋透露，公司将在其新发布的Vera Rubin机架系统中使用Groq的语言处理单元（LPU）技术来提升推理性能，这项技术英伟达花费了200亿美元收购。

英伟达超大规模和高性能计算副总裁Ian Buck在周日黄仁勋主题演讲前告诉媒体，通过这项技术，这家GPU巨头现在能够以每用户每秒数百甚至数千Token的速度为大规模万亿参数的大语言模型提供服务。

到目前为止，超低延迟推理一直被少数几家精品芯片公司主导，如Cerebras、SambaNova，当然还有Groq，英伟达去年底通过人才收购几乎完全吸收了后者。

过去一年中，对这些所谓高端Token的需求不断增长。OpenAI正在使用Cerebras的餐盘大小的加速器为GPT-5.3 Codex-Spark等模型实现近乎瞬时的代码生成。

通过将其GPU与Groq的LPU结合，英伟达预计推理服务提供商将能够对每百万生成的Token收费高达45美元。作为对比，OpenAI目前对其顶级GPT-5.4模型的API访问每百万输出Token收费约15美元。

需要明确的是，LPU不会替代英伟达的GPU，而是对其进行增强。

解码阶段的速度优势

大语言模型推理包含两个阶段：计算密集型的预填充阶段（处理提示）和带宽密集型的解码阶段（生成响应）。

英伟达新发布的Rubin GPU具有高达50 petaFLOPS的计算能力，在计算方面表现出色，但在内存带宽方面，Groq的最新芯片技术拥有22 TB/s的HBM4内存带宽，速度快近7倍，达到150 TB/s。

这使得Groq的LPU成为理想的解码加速器。英伟达计划在新的LPX机架系统中装入256个这样的芯片，该系统将通过定制的Spectrum-X互连连接到相邻的Vera-Rubin NVL72机架系统。GPU将处理计算密集型的提示处理，而LPU则负责输出Token。

这家GPU巨头需要如此多的芯片，因为虽然SRAM速度很快，但这些芯片在容量和计算密度方面都不够强大。

每个Groq 3 LPU能够提供1.2 petaFLOPS的FP8性能，包含500 MB的板载内存。这大约只有英伟达Rubin GPU容量的1/500。

Buck解释说："LPU专门针对极低延迟的Token生成进行优化，提供每秒数千Token的速率。当然，权衡是你需要很多芯片才能实现这种性能。每个芯片的每秒Token数实际上相当低。"

换句话说，要做任何有意义的事情，英伟达需要大量的这些芯片。

即使每个机架有256个芯片，也只有128 GB的超快内存，这对于Kimi K2等万亿参数模型来说远远不够。以4位精度计算，你至少需要512 GB的内存或大约一千个LPU才能将1万亿参数模型保存在内存中。

英伟达表示，多个LPX机架可以组合在一起支持这些更大的模型。

将Groq最新的LPU集成到英伟达的LPX机架中，对这家AI基础设施巨头来说代表了某种程度的路线修正。英伟达此前在去年的Computex上宣布了一款名为Rubin CPX的专用预填充处理器。基本想法是使用配备GDDR7的Rubin CPX处理器进行预填充处理，使用配备HBM的Rubin GPU进行解码。然而，该项目似乎已被放弃，转而支持基于Groq LPU的解码加速器。

Buck说："将LPU和LPX集成到我们的书面平台中以优化解码，这是我们现在关注的重点。"

英伟达并不是唯一一家希望将其计算密集型AI加速器与像Groq这样的SRAM密集型架构融合的公司。

周五，亚马逊云服务(AWS)宣布与Cerebras合作开发联合推理平台，类似于英伟达的Groq 3 LPX。在这种情况下，该平台将使用AWS的Trainium 3加速器进行提示处理，使用Cerebras的WSE-3 ASIC生成低延迟Token，每个芯片在晶圆级芯片上集成44 GB的SRAM。

英伟达基于Groq的LPX系统预计将与其Vera Rubin机架系统一起在今年晚些时候发货，尽管访问权限和软件支持可能会有所限制。至少最初，英伟达专注于需要为万亿级参数模型提供高Token速率服务的模型构建者和服务提供商。

Buck还指出，虽然英伟达使用Groq的ASIC来加速其推理平台，但它们还不原生支持CUDA。

他解释说："目前CUDA没有变化。我们利用LPU作为在Vera NVL 72平台上运行的CUDA的加速器。"

Q&A

Q1：Groq的LPU技术有什么特殊优势？

A：Groq的LPU专门针对极低延迟的Token生成进行优化，能够提供每秒数千Token的速率，其22 TB/s的HBM4内存带宽比英伟达GPU快近7倍，达到150 TB/s，是理想的解码加速器。

Q2：英伟达的LPX系统如何工作？

A：LPX系统装入256个Groq LPU芯片，通过定制Spectrum-X互连连接到Vera-Rubin NVL72机架系统。GPU处理计算密集型的提示处理，LPU负责输出Token，两者协同工作提升推理性能。

Q3：这项技术对AI服务定价有什么影响？

A：英伟达预计，通过结合GPU和LPU技术，推理服务提供商将能够对每百万生成的Token收费高达45美元，相比之下OpenAI目前对其顶级模型收费约15美元每百万输出Token。

上一篇：长沙重点产业链优化整合为11条：“瘦身”只为“强身”

下一篇：山东移动茌平分公司：吹响青年文明号，心级服务在身边

英伟达200亿美元Groq技术加持新LPX机架系统大幅提升AI响应速度

相关内容

热门资讯

英伟达200亿美元Groq技术加持新LPX机架系统 大幅提升AI响应速度

相关内容

热门资讯

英伟达200亿美元Groq技术加持新LPX机架系统大幅提升AI响应速度