今天分享的是:大模型专题:大模型推理框架升级之路
报告共计:26页
该文档主要围绕大模型推理框架性能优化展开,介绍了量化、投机采样、TTFT与TPOT优化以及通信优化四个专项内容。量化是大模型重要的性能优化手段,通过对weight、kv cache、激活等进行量化,可降低显存占用、减少访存量和计算耗时,不同量化方案如weight-int8 + KV_cache_int8、Activation int8、Weight-int4 + kv_cache-int4等分别实现了降低成本、提升效率和支持低端卡部署等效果,通信量化和Attention QKV int8也在研究推进中 。投机采样利用decode过程算力冗余,生成多个候选token并行验证,以提升效率。Clover模型通过设计独特结构和Sample策略提升了命中率和端到端推理速度,Clover2模型在此基础上进行结构升级,增加数据蒸馏loss、前置主模型预测token信息、改进regressive attention block和增加Augmenting Block层数,进一步提升了性能,在多个数据集上超越了eagle模型 。TTFT与TPOT优化旨在平衡首token耗时与decode每个token间耗时,Chunk prefill技术将单次prefill计算拆分为多段计算,降低decode间隔时间,Split fused技术将其与decode计算整合提升计算利用率,PD分离则是解决该平衡问题的终极方案,根据请求长度动态调度,同时还介绍了Session cache等缓存策略 。通信优化方面,针对4090卡通信能力弱、通信耗时占比高以及A800卡计算与通信占比极端的情况,分别采用通信量化和gemm切块等策略,通过计算通信overlap提升效率,不同场景下根据计算与通信占比的关系设计了相应的优化手段,在4090卡和A800卡上都取得了一定的收益 。
以下为报告节选内容