本文为粉丝投稿,介绍一篇很有趣的多智能体领域的新研究。
背景:为何大模型会在图文推理中说错话
近两年多模态大模型越来越会看图会读表会看视频,它们在很多公开榜单上表现亮眼,但只要真正用过就会发现,它们经常一本正经地胡说,看到不存在的物体,编造并不存在的数字,把图里的关键信息理解错。
本质上大模型的推理能力是建立在符号和模态联合分布之上的统计相关,而不是显式的事实校验,只要数据分布暗示某种高概率答案,模型就可能自信输出,即便这和图像里的真实内容不一致,这就是多模态幻觉问题。
社区里一个热门解决思路是多智能体辩论,让多个模型相互讨论,通过投票达成一个看似更可靠的结论,这种 Multi Agent Debate 思路的隐含前提是所有智能体都是理性辩手,会认真听取别人的观点,会反思自己的错误并主动修正,然而在真实模型上这个前提并不成立,如果每个智能体本身都可能带着幻觉,它们的共识就可能只是多个幻觉叠加后的集体自信。
这篇论文的工作正是从这里出发的,思考能不能设计一种不依赖理性假设的协作协议,在多智能体之间主动找出那个说错话的,而不是盲信少数服从多数。
灵感:“谁是卧底”的多智能体游戏化视角
论文把目光投向了一个熟悉的线下游戏—谁是卧底。在这个游戏里每个人拿到的词条略有不同,卧底拿到的是一个细节被改动的词,大家围绕自己的词描述互相质询互相怀疑,最终通过投票把卧底找出来,这和背景中提到的要解决的问题非常相似,在多模态推理里那个看错图或理解错细节的智能体就是带着幻觉的卧底,如果论文能把多智能体推理过程变成一场有信息不对称的博弈游戏,让模型在博弈中暴露和发现自己的错误,就有机会更稳健地消除幻觉。
基于这个想法,论文提出了多智能体卧底博弈框架,Multi-agent Undercover Gaming(MUG),把传统多智能体辩论改造为一个有卧底的推理与抓错游戏。
核心要点:如何构造高质量反事实图像
反事实图像的设计是整个框架的核心之一,论文希望通过非常细微却关键的改动,在保持整体视觉风格接近的前提下,改变和问题相关的语义焦点。
例如关于问题“图像的主体关注点是什么?”,原图中一个女孩红发非常醒目,手机是次要元素,论文通过图像编辑模型,把女孩的头发变为自然黑直发,这样视觉注意力会从发型弱化,而手机可能成为新的关注焦点。如果有智能体依旧坚持发型是核心,它大概率拿到的是原图,如果它在反事实图像上给出和事实不符的判断,就会暴露出幻觉行为。
在实际实现中,论文先用大模型对问题进行分类。例如,多少类问题对应数量编辑,是什么对象类问题对应实体编辑,然后基于真实图像构建场景图,选出需要编辑的目标实体与关系,再生成对应的编辑提示词,交给图像编辑模型执行。
博弈:让智能体主动去拆穿漏洞
有了反事实图像之后,论文随机选择一名智能体作为卧底。给它分配反事实图,其余智能体看到真实图,然后进入多轮博弈。
如果被投出的恰好是卧底,说明卧底被成功识别,卧底将从系统中移除,游戏进入总结阶段。如果误杀了普通辩手或仍未找到卧底 则继续下一轮推理与投票,直到达到轮数上限。
这个游戏过程引入了强烈的信息不对称,普通辩手必须通过给出足够细致的描述,来证明自己确实看到了真实图中的关键信息。而卧底则要在有限信息下,同时对抗来自多个角度的质询。在这种压力下,含糊其辞变成了一种高风险策略,更鼓励智能体主动做出细粒度推理。
实验:把卧底藏在辩论中为何有效?
为了验证 MUG 的有效性,论文在四个具有代表性的多模态基准上进行了实验。
第一类是通用推理基准:MMStar 和 MMMU。前者包含多个领域的高难度视觉问题,后者覆盖多个学科的大学级别题目。
第二类是专门为幻觉设计的基准:HallusionBench 和 POPE。前者通过视觉错觉和语言诱导,刻意触发模型的图文幻觉,后者系统地测试模型在物体存在与否上的幻觉。
论文选取了多个主流开源与闭源多模态大模型,例如 Qwen 系列、InternVL 系列,以及 GPT 系列、Gemini Claude 等,并对比了三种策略:单智能体自我反思式的 Self Refine 策略、传统多智能体辩论MAD策略以及论文提出的 MUG策略。
在 Qwen2.5VL-7B模型上引入 MUG 之后, 在跨学科综合考试题里能明显减少看错图和想当然导致的失分,在MMMU上大约提升了5%左右精度;在更偏重多步推理和复杂场景的 MMStar上精度提升接近2.6%。 在专门考察图文幻觉的 HallusionBench和POPE上,即使面对刻意制造图文不一致和语言诱导的极端样本也能有效拆穿错误描述,MUG相比MAD的简单投票策略平均提升13.0%以上。而在更大的 Intern3VL-14B基座上也有不同程度的提升,说明框架在不同模型基座上具有一定的拓展性。
为了进一步理解 MUG 的关键因素,论文做了两类消融实验:
(1)去掉反事实视觉编辑模块,直接让所有智能体都拿原图进行辩论。结果发现在 MMStar、HallusionBench和MMMU上,性能分别下降一个到三个百分点不等,尤其是在幻觉相关的指标上下降明显,说明精心设计的反事实视觉编辑确实能有效挖掘模型的认知差异。
(2)保留了反事实图像,但是不再区分卧底角色,也不进行博弈式投票,仅把多视角信息简单合并。这时性能下降更为明显,在 HallusionBench上的跌幅接近五个百分点,说明单纯提供反事实图像信息会适得其反,卧底机制和投票博弈对暴露幻觉与提升最终答案质量至关重要。
此外,论文还分析了观察轮数对效果的影响,结果发现,在只进行一轮观察轮的话,框架性能通常会达到峰值或接近峰值,再继续增加轮数,收益开始变小甚至略有下降,这说明适度的互动足以让模型暴露关键矛盾,而给卧底更多的议论轮数可能会导致更多智能体被策反或迷惑。
论文还统计了不同轮次下卧底仍然存活的样本数量,可以看到,在第二轮后卧底数量出现陡降,说明在MUG框架中,大部分卧底都能在早期回合被准确识别。
论文给出了一个很有趣的例子:原图中有两只红色公牛,但下面的文字写着Red Deer,那这张图就不是某知名饮料品牌的logo。
但单智能体推理时,模型往往会凭视觉惯性,直接认定这是 Red Bull 的标志,因为两个红色公牛和黄色圆形的视觉信息更强烈。在传统多智能体辩论中也是如此,如果多个智能体都有类似的偏见,那么多数投票结果,依然会指向错误答案。
而在 MUG 中,论文会让卧底看到一个反事实版本,例如图中文字就是被改为“Red Bull”,而其他智能体看到写着“Red Deer”的真实图。在互相描述和质询的过程中,因为卧底会坚持图中有文字就写着“Red Bull”,这会让其他智能体慢慢围绕文字信息展开争论,从而让拥有原图的智能体更加关注到文字的信息,从而排除卧底,并在总结阶段给出正确结论。
小结
这篇 AAAI 工作提出的多智能体卧底博弈框架试图从协议设计的角度来降低多模态大模型的幻觉问题,并且在多个强基座模型上都带来了稳定提升,尤其是在幻觉检测与鲁棒推理方面。未来论文希望把这种博弈式协议推广到视频推理医学影像等更多场景,也希望和社区一起探索,如何在保持推理效率的前提下进一步提升多智能体辩论的可靠性。
如果你正在研究多模态大模型幻觉问题,或者在工业场景中遇到模型看图乱说的困扰,欢迎关注并尝试论文的 MUG 框架,代码正在整理开源中。
@misc{liang2025mug,
title={Multi-agent Undercover Gaming: Hallucination Removal via Counterfactual Test for Multimodal Reasoning},
author={Dayong Liang and Xiao-Yong Wei and Changmeng Zheng},
year={2025},
eprint={2511.11182},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2511.11182},
}