优化信号“物流中心”,港科广最新研究为AI大模型“提速”
创始人
2025-07-16 00:20:35
0

如果把信号比作“包裹”,把信号传输比作“物流”,如何提升传输速度,高效地把“包裹”派送到“客户”手中?香港科技大学(广州)给出了一个新的方案。

近日,由香港科技大学(广州)功能枢纽微电子学域博士生秦乐担任第一作者,博士生崔峻伟、蔡玮林为合作作者,教授黄嘉逸为通讯作者的论文“Chimera: Communication Fusion for Hybrid Parallelism in Large Language Models”(Chimera:大型语言模型中混合并行性的通信融合)发表于计算机体系结构顶会ISCA 2025并获得Best Artifact Award(最佳工件奖)。

ISCA(International Symposium on Computer Architecture,计算机体系结构国际研讨会)是计算机体系结构领域的旗舰国际会议,致力于为计算机体系结构研究人员和从业者提供一个展示前沿研究成果的平台。会议涵盖了处理器设计、多核系统、加速器架构、内存层次结构、互连网络、容错机制、计算机系统优化等多个主题。ISCA不仅关注硬件架构创新,还强调系统级优化与软硬件协同设计,是推动高性能计算、分布式系统和人工智能加速器发展的重要学术交流平台。

据悉,在大规模语言模型的分布式训练和推理任务中,多种并行模式常被混合使用以提高计算效率。在实现计算加速的同时,各种并行模式都会引入相应的集合通信来进行设备间的数据同步以保证结果的正确性。随着集群规模的增加,集合通信开销逐渐成为系统性能的瓶颈。本工作提出一种全新的优化机制Chimera,定义和分析了混合并行中的通信冗余,并通过融合相邻通信算子的方式消除冗余通信量,有效地缓解了混合并行中的通信瓶颈。

“信号传输就像快递分拣一样,以往不同区域的分拣中心各自为政,快递会在不同区域的分拣中心进行分包流转,有的包裹会产生反复中转造成不必要的绕路流转(通信冗余),导致配送变慢。”黄嘉逸解释道,Chimera对跨区域的“分拣中心”进行统一规划,大幅减少不必要的“包裹”周转环节(去冗余),提升配送效率。测试显示,Chimera通过融合分布式大模型中的通信步骤,减少了数据同步的冗余,使通信速度提升1.2到7倍,整体训练效率提高1.2到1.6倍,为AI大模型的快速训练和推理提供了新思路。

文|记者 孙唯 通讯员 港科广

图|学校提供

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
东风汽车集团申请阻燃柔性固态电... 金融界2025年1月31日消息,国家知识产权局信息显示,东风汽车集团股份有限公司申请一项名为“一种阻...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
原创 3... 一、iQOO 12 参考价格:2659元(12G+256G)。 性能强劲,游戏无忧 首先不得...
原创 预... 从销量上来看,两千元左右的手机更受大众消费者的喜爱,这其中爆发了不少爆款手机,而国内各大手机厂商也都...
宁德时代取得温度传感器相关专利... 金融界2024年12月19日消息,国家知识产权局信息显示,宁德时代新能源科技股份有限公司取得一项名为...
“最准最快最久最少”纷纷亮相,... 医疗器械及医药保健展区一直都是进博会上“最卷”的展区之一。要得到关注,不拿出“绝活”不行。在本届进博...
原创 千... 在上个月联发科抢先高通,率先发布了自己的新款旗舰处理器天玑9400,并且在新机这块也比搭载高通的骁龙...
中越媒体互访活动在广西启程 8月4日,“同志加兄弟 携手向未来”——中越媒体互访活动出发仪式在南宁举办。活动旨深化广西与越南各领...