大模型专题：大模型推理框架升级之路_前沿科技

大模型专题：大模型推理框架升级之路

创始人

2025-02-07 21:23:57

0次

今天分享的是：大模型专题：大模型推理框架升级之路

报告共计：26页

该文档主要围绕大模型推理框架性能优化展开，介绍了量化、投机采样、TTFT与TPOT优化以及通信优化四个专项内容。量化是大模型重要的性能优化手段，通过对weight、kv cache、激活等进行量化，可降低显存占用、减少访存量和计算耗时，不同量化方案如weight-int8 + KV_cache_int8、Activation int8、Weight-int4 + kv_cache-int4等分别实现了降低成本、提升效率和支持低端卡部署等效果，通信量化和Attention QKV int8也在研究推进中。投机采样利用decode过程算力冗余，生成多个候选token并行验证，以提升效率。Clover模型通过设计独特结构和Sample策略提升了命中率和端到端推理速度，Clover2模型在此基础上进行结构升级，增加数据蒸馏loss、前置主模型预测token信息、改进regressive attention block和增加Augmenting Block层数，进一步提升了性能，在多个数据集上超越了eagle模型。TTFT与TPOT优化旨在平衡首token耗时与decode每个token间耗时，Chunk prefill技术将单次prefill计算拆分为多段计算，降低decode间隔时间，Split fused技术将其与decode计算整合提升计算利用率，PD分离则是解决该平衡问题的终极方案，根据请求长度动态调度，同时还介绍了Session cache等缓存策略。通信优化方面，针对4090卡通信能力弱、通信耗时占比高以及A800卡计算与通信占比极端的情况，分别采用通信量化和gemm切块等策略，通过计算通信overlap提升效率，不同场景下根据计算与通信占比的关系设计了相应的优化手段，在4090卡和A800卡上都取得了一定的收益。

以下为报告节选内容

上一篇：为什么BAT没做出DeepSeek

下一篇：人工智能掀潮造浪，全新蓝山化身车界“DeepSeek”

大模型专题：大模型推理框架升级之路

相关内容

热门资讯