文 | 钱钱
编辑 | 阿景
现在咱们打开手机,不管是问ChatGPT天气,还是用豆包写文案,这些大模型每天都在处理海量的文本交互。
但你有没有发现,这些交互大多被局限在文字世界里想让AI根据一张图片生成视频?或者用一段音频让AI输出3D模型?目前还真没那么容易。
这就是多模态检索增强生成(MM-RAG)要解决的问题,最近华中科技大学、复旦大学等团队联合发布的综述论文,把这个新兴领域的家底给扒得明明白白。
大模型火了这么久,RAG技术早就不是新鲜事。
简单说,RAG就是让模型先“查资料”再“写答案”,比如你问历史问题,它会先检索相关文献再生成回答,accuracy确实高了不少。
但现在的交互基本还停留在“你打字,它回字”的阶段。
用户想要的可不止这些老师可能需要AI根据教案文本和课堂视频自动剪出微课,设计师希望输入3D模型和材料数据就能得到优化方案,这些都得靠多模态技术。
模态鸿沟,传统RAG的“短板”在哪?
传统RAG为啥搞不定这些?核心问题就出在“模态单一”。
现在的技术处理文本、表格还行,但遇到图片、音频、视频这些非文本数据,要么直接“罢工”,要么就得先转换成文字,信息损耗一大半。
就拿医学影像来说,医生需要AI结合CT图像和病历文本给出诊断建议,但传统RAG只能处理文字病历,图像里的病灶细节根本用不上。
这种“看得见的用不了,用得上的看不见”的情况,就是所谓的“模态鸿沟”。
2024年,华中科技大学、复旦大学、中国电信还有美国伊利诺伊大学芝加哥分校的团队联手,搞出了一份MM-RAG综述论文。
这份论文不简单,它第一次把文本、图像、音频、视频、代码、表格、知识图谱、3D对象这8种模态全拉进来,系统研究它们之间的输入-输出组合。
这就像给混乱的菜市场画了张地图,以后大家研究起来就不会摸瞎了。
论文里有个特别有意思的发现,8种模态两两组合,理论上能搞出54种交互方式,但目前真正被研究过的只有18种。
你想想,大半的可能性还没人碰呢!这里面藏着不少宝贝,比如“文本+视频输入-视频输出”以后你写个剧情梗概,再丢段原始素材,AI直接帮你剪出成片,这不就是自媒体人的梦想?
还有“3D对象+知识图谱输入-3D对象输出”,机械设计师输入零件模型和材料性能数据,AI自动优化结构,效率不得翻几番?
MM-RAG的“四维工作流”,从数据到输出的全流程
光发现空白还不够,论文还搞了个“四维工作流”,把MM-RAG系统的运作拆成四步,每一步该干啥说得清清楚楚。
第一步是预检索,简单说就是“整理材料”。
图片要抽关键特征,音频得降噪,不同模态的数据还得按规矩存进知识库,不然后面检索起来就是一团乱麻。
就像做饭前要洗菜切菜,这一步没做好,后面准翻车。
然后是检索阶段,核心是“找对东西”。
跨模态检索可比单文本检索难多了,图片和文字怎么比相似度?
论文里提到可以借鉴CLIP模型的思路,把不同模态的信息转换成同一个“特征空间”的向量,这样就能比出谁跟谁更像。
但视频、3D对象这种带时间、空间信息的,还得专门优化索引方式,不然检索速度慢得能急死人。
第三步是增强阶段,相当于“把材料拌匀”。
不同模态的信息捞出来了,怎么捏合到一起是门学问。
比如文本和医学影像,总不能简单把文字贴在图片上吧?得在特征层面深度融合,让AI真正“看懂”文字描述的病灶和图片里的实际位置。
而且信息太多也不行,大模型输入有长度限制,还得学会“压缩”,留下最关键的内容。
最后是生成阶段,也就是“出锅装盘”。
输出视频可能得用Sora,生成图片也许是StableDiffusion,选对工具很重要。
更关键的是要保证输出质量,比如文字描述的是“红色苹果”,AI不能画个绿的,这种“模态一致性”得严格把关,不然生成的东西就是个笑话。
论文还搞了个技术组件对比表,把不同模态组合需要的核心技术列得明明白白。
文本配表格,重点在解析结构化数据,音频配视频,就得搞定时空同步。
这一下就把以前零散的研究串起来了,以后大家开会讨论,至少术语能统一,不会你说东我说西。
现在的问题是,MM-RAG要落地,还有不少坎儿要迈。
数据层面最头疼的是标注成本,给视频每一帧标语义,人工成本高得吓人,不同模态数据质量也参差不齐,病历文本写得潦草,医学影像拍得模糊,AI再聪明也没用。
算法层面,模态间的“语义鸿沟”没那么好填,文字说“开心”,音频可能是哭腔,AI怎么判断哪个是真的?视频一两个小时,检索起来耗时太长,实时性根本保证不了。
工程层面也麻烦,处理3D模型可能需要超强的GPU算力,文本处理又更吃CPU,硬件适配是个大问题。
直播场景要求多模态交互秒级响应,现在的技术恐怕还跟不上。
不过话说回来,这些挑战恰恰说明这个领域有大把机会。
短期来看,先把“文本+图像输入-视频输出”这种大家急需的组合突破了,再开发些开源工具,让小团队也能用得起。
长期嘛,肯定是要搞出跨模态通用大模型,实现“任意输入-任意输出”,到那时候,MM-RAG说不定就成了通用人工智能的一块重要拼图。
这份MM-RAG综述论文最牛的地方,就是用“全景扫描”和“系统框架”,把多模态交互从“东一榔头西一棒子”的状态,拉上了正轨。
未来54种模态组合慢慢被填满,内容创作、智能交互、科学研究这些领域肯定会被彻底改变。
当然,这事儿不能只靠学术界,产业界也得跟上,数据共享、算法创新、工程优化,缺了哪一环都不行。
说不定过个三五年,咱们真能实现“说句话就让AI生成3D模型”的日子,想想还有点小期待呢。