微软新的 AI 代理可以控制软件和机器人
创始人
2025-02-21 23:00:32
0

周三,微软研究院推出了 Magma,这是一个集成的 AI基础模型,结合了视觉和语言处理能力,可以控制软件界面和机器人系统。如果这些结果在微软内部测试之外依然有效,这可能标志着一个支持多模态的通用 AI 在现实和数字空间中进行交互操作的重要进展。

微软声称,Magma 是第一个不仅能处理多模态数据 (如文本、图像和视频),还能对其进行原生操作的 AI 模型——无论是导航用户界面还是操控物理对象。该项目是微软、KAIST马里兰大学、威斯康星麦迪逊大学和华盛顿大学研究人员合作的成果。

我们已经见过其他基于大语言模型的机器人项目,如 GooglePALM-E 和 RT-2,或微软的 ChatGPTfor Robotics,它们都将大语言模型用作接口。然而,与许多需要单独模型来进行感知和控制的传统多模态 AI 系统不同,Magma 将这些能力整合到一个基础模型中。

微软将 Magma 定位为朝着代理式 AI 迈出的一步,这意味着系统可以代表人类自主制定计划并执行多步骤任务,而不仅仅是回答关于所见内容的问题。

微软在其研究论文中写道:"给定一个描述性目标,Magma 能够制定计划并执行行动来实现它。通过有效地从免费获取的视觉和语言数据中转移知识,Magma 将语言、空间和时间智能结合起来,以应对复杂的任务和场景。"

微软并不是唯一追求代理式 AI 的公司。OpenAI一直在通过 Operator 等项目实验 AI 代理,该项目可以在网页浏览器中执行 UI任务,而 Google 则通过 Gemini 2.0 探索多个代理项目。

空间智能

虽然 Magma 建立在基于 Transformer 的大语言模型技术之上,将训练 Token输入神经网络,但它与传统的视觉语言模型 (如 GPT-4V) 不同,它超越了所谓的"语言智能",还包括"空间智能" (规划和行动执行)。通过对图像、视频、机器人数据和 UI 交互的混合训练,微软声称 Magma 是一个真正的多模态代理,而不仅仅是一个感知模型。

Magma 模型引入了两个技术组件:Set-of-Mark,通过为交互元素(如 UI 中的可点击按钮或机器人工作空间中的可抓取物体)分配数字标签来识别可在环境中操作的对象;以及 Trace-of-Mark,用于从视频数据中学习移动模式。微软表示,这些功能使模型能够完成导航用户界面或指导机器人手臂抓取物体等任务。

微软 Magma 研究员 Jianwei Yang 在 Hacker News 的评论中解释说,"Magma"代表"M(ultimodal) Ag(entic) M(odel) at Microsoft(Rese)A(rch)",这是因为有人指出"Magma"已经被一个现有的矩阵代数库使用,可能会在技术讨论中造成混淆。

相比之前模型的改进

在 Magma 的介绍中,微软声称 Magma-8B 在各项基准测试中表现出色,在 UI 导航和机器人操作任务中展现了强大的结果。

例如,它在 VQAv2 视觉问答基准测试中得分为 80.0,高于 GPT-4V 的 77.2,但低于 LLaVA-Next 的 81.8。它在 POPE 测试中的得分为 87.4,领先所有对比模型。在机器人操作方面,Magma 据报道在多个机器人操作任务中表现优于开源视觉语言动作模型 OpenVLA。

一如既往,我们对 AI 基准测试持谨慎态度,因为许多测试尚未经过科学验证,无法证明其能够测量 AI 模型的有用特性。一旦其他研究人员能够访问公开发布的代码,对微软的基准测试结果进行外部验证就成为可能。

与所有 AI 模型一样,Magma 并非完美。根据微软的文档,它在需要随时间推移进行多个步骤的复杂决策方面仍然面临技术限制。该公司表示,将通过持续研究来改进这些能力。

Yang 表示,微软将在下周在 GitHub上发布 Magma 的训练和推理代码,允许外部研究人员在此基础上继续研究。如果 Magma 实现其承诺,它可能会推动微软的 AI 助手超越有限的文本交互,使其能够自主操作软件并通过机器人执行现实世界的任务。

Magma 也表明 AI 文化可以如何快速变化。就在几年前,这种代理式的讨论还让许多人感到恐惧,他们担心这可能导致 AI 接管世界。虽然一些人仍然担心这种结果,但在 2025 年,AI 代理已成为主流 AI 研究的常见话题,而且这种研究的进行通常不会引发暂停所有 AI 开发的呼声。

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
原创 预... 从销量上来看,两千元左右的手机更受大众消费者的喜爱,这其中爆发了不少爆款手机,而国内各大手机厂商也都...
“最准最快最久最少”纷纷亮相,... 医疗器械及医药保健展区一直都是进博会上“最卷”的展区之一。要得到关注,不拿出“绝活”不行。在本届进博...
原创 千... 在上个月联发科抢先高通,率先发布了自己的新款旗舰处理器天玑9400,并且在新机这块也比搭载高通的骁龙...
原创 日... 科技浪潮的奔涌向前,正重塑着人类社会的生活形态。近年来,AI智能技术的蓬勃发展,让科幻作品中的奇幻场...
叠彩区:加快促进“人工智能+”... 3月13日,记者在位于叠彩区北仓路的力源智能配送中心看到,3000平方米的仓库里,17台橘黄色的小机...
eaapp错误代码ec201怎... eaapp是许多玩家常用的游戏平台之一,像ea的体育竞技类游戏,在游戏市场中热度极高。但一些玩家在使...
座头鲸迁徙1.3万公里或创纪录 ◎荆晶 海洋生物学家发现,有一头先前生活在太平洋东部海域的雄性座头鲸出现在印度洋西海域,两地距离超过...