今天分享的是:AIGC专题:2024年多模态大模型(MLLMs)轻量化方法研究现状和展望报告(1)
报告共计:14页
多模态大语言模型(MLLMs)融合多模态处理能力,在诸多任务中性能卓越,但庞大的规模和高成本限制了其广泛应用。本文介绍了其轻量化方法及研究现状,并展望未来发展方向。MLLMs由视觉编码器、预训练大语言模型和视觉 - 语言投影器组成,轻量化措施主要针对这些模块改进,并引入视觉token压缩技术和高效结构设计。视觉编码器常沿用大规模模型中常用的,预训练大语言模型可直接用小模型或通过模型压缩技术处理,视觉 - 语言投影器有基于注意力、CNN、Mamba和混合结构等轻量化方式。视觉token压缩通过多视图输入、token处理、多尺度信息融合和视频特定方法减少计算量。高效结构包括专家混合模型、Mamba和推理加速等方向。然而,MLLMs轻量化仍处于初期,面临多模态信息处理局限,未来需突破此局限,扩展输入输出模态,如适应更多样输入类型、增强生成能力,还应推动可在边缘部署的模型发展,以提升智能设备性能,促进人机交流协作,拓展应用领域。
以下为报告节选内容