今天分享的是:星海系列:人形机器人与AI大模型之Robot+AI的Transformer之旅
报告共计:54页
Transformer不仅用于语言处理,还扩展到多模态任务,推动了多模态大模型发展。谷歌RT - 2通过大规模视觉 - 语言预训练,将视觉识别与机器人控制结合,实现强大泛化能力;英伟达MimicGen自动生成大量模仿学习数据,减少人工干预;谷歌RoboCat基于Gato模型,具备多任务和多具身平台自我迭代学习能力。特斯拉FSD引入Transformer模型,走向数据驱动,其V12版本实现端到端自动驾驶,感知决策一体化,减少对代码依赖。英伟达Robocasa构建大规模模拟框架,通过模拟数据收集,首次论证real - sim - real,为通用机器人训练提供支持。李飞飞团队Rekep提出关系关键点约束,用视觉基础表示方法解决机器人操控任务约束问题,实现自动化流程。1x世界模型从原始传感器数据学习构建模拟器,首证扩展定律,提升机器人在复杂环境中的适应性和智能性,但存在物体失真等问题。字节GR - 2通过预训练与微调,具备高效动作预测与泛化能力,符合Scaling Law,在多场景任务中表现出色。数字表亲优化机器人训练法,降低成本并提高泛化能力,通过ACDC算法自动创建数字表亲,在模拟和真实环境中表现优异,为机器人学习提供新可能。
以下为报告节选内容