优化信号“物流中心”,港科广最新研究为AI大模型“提速”
创始人
2025-07-16 00:20:35
0

如果把信号比作“包裹”,把信号传输比作“物流”,如何提升传输速度,高效地把“包裹”派送到“客户”手中?香港科技大学(广州)给出了一个新的方案。

近日,由香港科技大学(广州)功能枢纽微电子学域博士生秦乐担任第一作者,博士生崔峻伟、蔡玮林为合作作者,教授黄嘉逸为通讯作者的论文“Chimera: Communication Fusion for Hybrid Parallelism in Large Language Models”(Chimera:大型语言模型中混合并行性的通信融合)发表于计算机体系结构顶会ISCA 2025并获得Best Artifact Award(最佳工件奖)。

ISCA(International Symposium on Computer Architecture,计算机体系结构国际研讨会)是计算机体系结构领域的旗舰国际会议,致力于为计算机体系结构研究人员和从业者提供一个展示前沿研究成果的平台。会议涵盖了处理器设计、多核系统、加速器架构、内存层次结构、互连网络、容错机制、计算机系统优化等多个主题。ISCA不仅关注硬件架构创新,还强调系统级优化与软硬件协同设计,是推动高性能计算、分布式系统和人工智能加速器发展的重要学术交流平台。

据悉,在大规模语言模型的分布式训练和推理任务中,多种并行模式常被混合使用以提高计算效率。在实现计算加速的同时,各种并行模式都会引入相应的集合通信来进行设备间的数据同步以保证结果的正确性。随着集群规模的增加,集合通信开销逐渐成为系统性能的瓶颈。本工作提出一种全新的优化机制Chimera,定义和分析了混合并行中的通信冗余,并通过融合相邻通信算子的方式消除冗余通信量,有效地缓解了混合并行中的通信瓶颈。

“信号传输就像快递分拣一样,以往不同区域的分拣中心各自为政,快递会在不同区域的分拣中心进行分包流转,有的包裹会产生反复中转造成不必要的绕路流转(通信冗余),导致配送变慢。”黄嘉逸解释道,Chimera对跨区域的“分拣中心”进行统一规划,大幅减少不必要的“包裹”周转环节(去冗余),提升配送效率。测试显示,Chimera通过融合分布式大模型中的通信步骤,减少了数据同步的冗余,使通信速度提升1.2到7倍,整体训练效率提高1.2到1.6倍,为AI大模型的快速训练和推理提供了新思路。

文|记者 孙唯 通讯员 港科广

图|学校提供

相关内容

热门资讯

东风汽车集团申请阻燃柔性固态电... 金融界2025年1月31日消息,国家知识产权局信息显示,东风汽车集团股份有限公司申请一项名为“一种阻...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
我市特步5G工厂入选国家5G工... 日前,工业和信息化部发布《关于2024年5G工厂名录的公示》,我市特步5G工厂入选国家5G工厂名录,...
卫星化学获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示卫星化学(002648)新获得一项实用新型专利授权,专利名为“...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
360智脑张向征:构建安全可信... 人工智能的加速发展,有力推动了社会的数智化转型;与此同时,带来的相关安全风险也日益凸显。近日,在北京...
原创 3... 一、iQOO 12 参考价格:2659元(12G+256G)。 性能强劲,游戏无忧 首先不得...
联想宣布旗下AIPC个人智能体... DoNews2月7日消息,近日,联想宣布个人智能体“小天”已接入DeepSeek,除了目前可以在联想...
2025年消脂设备产业数据报告 消脂仪是医学美容领域的医疗器械。 它使用激光和微波等设备根据其波长向真皮/皮下平面发射能量; 通过加...