英伟达200亿美元Groq技术加持新LPX机架系统 大幅提升AI响应速度
创始人
2026-03-18 08:49:53
0

在周一的GTC主题演讲中,英伟达CEO黄仁勋透露,公司将在其新发布的Vera Rubin机架系统中使用Groq的语言处理单元(LPU)技术来提升推理性能,这项技术英伟达花费了200亿美元收购。

英伟达超大规模和高性能计算副总裁Ian Buck在周日黄仁勋主题演讲前告诉媒体,通过这项技术,这家GPU巨头现在能够以每用户每秒数百甚至数千Token的速度为大规模万亿参数的大语言模型提供服务。

到目前为止,超低延迟推理一直被少数几家精品芯片公司主导,如Cerebras、SambaNova,当然还有Groq,英伟达去年底通过人才收购几乎完全吸收了后者。

过去一年中,对这些所谓高端Token的需求不断增长。OpenAI正在使用Cerebras的餐盘大小的加速器为GPT-5.3 Codex-Spark等模型实现近乎瞬时的代码生成。

通过将其GPU与Groq的LPU结合,英伟达预计推理服务提供商将能够对每百万生成的Token收费高达45美元。作为对比,OpenAI目前对其顶级GPT-5.4模型的API访问每百万输出Token收费约15美元。

需要明确的是,LPU不会替代英伟达的GPU,而是对其进行增强。

解码阶段的速度优势

大语言模型推理包含两个阶段:计算密集型的预填充阶段(处理提示)和带宽密集型的解码阶段(生成响应)。

英伟达新发布的Rubin GPU具有高达50 petaFLOPS的计算能力,在计算方面表现出色,但在内存带宽方面,Groq的最新芯片技术拥有22 TB/s的HBM4内存带宽,速度快近7倍,达到150 TB/s。

这使得Groq的LPU成为理想的解码加速器。英伟达计划在新的LPX机架系统中装入256个这样的芯片,该系统将通过定制的Spectrum-X互连连接到相邻的Vera-Rubin NVL72机架系统。GPU将处理计算密集型的提示处理,而LPU则负责输出Token。

这家GPU巨头需要如此多的芯片,因为虽然SRAM速度很快,但这些芯片在容量和计算密度方面都不够强大。

每个Groq 3 LPU能够提供1.2 petaFLOPS的FP8性能,包含500 MB的板载内存。这大约只有英伟达Rubin GPU容量的1/500。

Buck解释说:"LPU专门针对极低延迟的Token生成进行优化,提供每秒数千Token的速率。当然,权衡是你需要很多芯片才能实现这种性能。每个芯片的每秒Token数实际上相当低。"

换句话说,要做任何有意义的事情,英伟达需要大量的这些芯片。

即使每个机架有256个芯片,也只有128 GB的超快内存,这对于Kimi K2等万亿参数模型来说远远不够。以4位精度计算,你至少需要512 GB的内存或大约一千个LPU才能将1万亿参数模型保存在内存中。

英伟达表示,多个LPX机架可以组合在一起支持这些更大的模型。

将Groq最新的LPU集成到英伟达的LPX机架中,对这家AI基础设施巨头来说代表了某种程度的路线修正。英伟达此前在去年的Computex上宣布了一款名为Rubin CPX的专用预填充处理器。基本想法是使用配备GDDR7的Rubin CPX处理器进行预填充处理,使用配备HBM的Rubin GPU进行解码。然而,该项目似乎已被放弃,转而支持基于Groq LPU的解码加速器。

Buck说:"将LPU和LPX集成到我们的书面平台中以优化解码,这是我们现在关注的重点。"

英伟达并不是唯一一家希望将其计算密集型AI加速器与像Groq这样的SRAM密集型架构融合的公司。

周五,亚马逊云服务(AWS)宣布与Cerebras合作开发联合推理平台,类似于英伟达的Groq 3 LPX。在这种情况下,该平台将使用AWS的Trainium 3加速器进行提示处理,使用Cerebras的WSE-3 ASIC生成低延迟Token,每个芯片在晶圆级芯片上集成44 GB的SRAM。

英伟达基于Groq的LPX系统预计将与其Vera Rubin机架系统一起在今年晚些时候发货,尽管访问权限和软件支持可能会有所限制。至少最初,英伟达专注于需要为万亿级参数模型提供高Token速率服务的模型构建者和服务提供商。

Buck还指出,虽然英伟达使用Groq的ASIC来加速其推理平台,但它们还不原生支持CUDA

他解释说:"目前CUDA没有变化。我们利用LPU作为在Vera NVL 72平台上运行的CUDA的加速器。"

Q&A

Q1:Groq的LPU技术有什么特殊优势?

A:Groq的LPU专门针对极低延迟的Token生成进行优化,能够提供每秒数千Token的速率,其22 TB/s的HBM4内存带宽比英伟达GPU快近7倍,达到150 TB/s,是理想的解码加速器。

Q2:英伟达的LPX系统如何工作?

A:LPX系统装入256个Groq LPU芯片,通过定制Spectrum-X互连连接到Vera-Rubin NVL72机架系统。GPU处理计算密集型的提示处理,LPU负责输出Token,两者协同工作提升推理性能。

Q3:这项技术对AI服务定价有什么影响?

A:英伟达预计,通过结合GPU和LPU技术,推理服务提供商将能够对每百万生成的Token收费高达45美元,相比之下OpenAI目前对其顶级模型收费约15美元每百万输出Token。

相关内容

热门资讯

东风汽车集团申请阻燃柔性固态电... 金融界2025年1月31日消息,国家知识产权局信息显示,东风汽车集团股份有限公司申请一项名为“一种阻...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
我市特步5G工厂入选国家5G工... 日前,工业和信息化部发布《关于2024年5G工厂名录的公示》,我市特步5G工厂入选国家5G工厂名录,...
360智脑张向征:构建安全可信... 人工智能的加速发展,有力推动了社会的数智化转型;与此同时,带来的相关安全风险也日益凸显。近日,在北京...
无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
联想宣布旗下AIPC个人智能体... DoNews2月7日消息,近日,联想宣布个人智能体“小天”已接入DeepSeek,除了目前可以在联想...
2025年消脂设备产业数据报告 消脂仪是医学美容领域的医疗器械。 它使用激光和微波等设备根据其波长向真皮/皮下平面发射能量; 通过加...
卫星化学获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示卫星化学(002648)新获得一项实用新型专利授权,专利名为“...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
原创 3... 一、iQOO 12 参考价格:2659元(12G+256G)。 性能强劲,游戏无忧 首先不得...