机器人掌握语言 开启自动化的开放世界 2024-03-26 

  

  麻省理工学院的CSAIL推出了F3RM机器人系统,该系统结合了视觉和语言特征,使机器人能够按照开放式指令抓取物体。这项创新支持从少量示例中归纳出任务,可显著提高仓库的效率,并扩展到包括家政服务在内的各种实际应用中。  用于机器人操纵的特征字段(F3RM)使机器人能够使用自然语言解释开放式文本提示,帮助机器操纵不熟悉的物体。该系统的三维特征字段在仓库等包含成千上万物体的环境中很有帮助。

  通过将二维图像与基础模型相融合以建立三维特征场,麻省理工学院的一种新方法可以帮助机器人通过开放式语言提示来理解和操作附近的物体。
  受人类处理陌生物品能力的启发,麻省理工学院计算机科学与人工智能实验室(CSAIL)的一个研究小组设计出了机器人操纵特征场(F3RM),该系统将二维图像与基础模型特征融合到三维场景中,帮助机器人识别和抓取附近的物品。F3RM可以解释来自人类的开放式语言提示,这使得该方法在包含成千上万物品的真实世界环境(如仓库和家庭)中大有用武之地。
  机器人的适应性和任务通用性
  F3RM为机器人提供了使用自然语言解释开放式文本提示的能力,帮助机器操控物体。因此,机器可以理解人类提出的不太具体的要求,但仍能完成所需的任务。例如,如果用户要求机器人“拿起一个高脚杯”,机器人就能找到并拿起最符合这一描述的物品。
  美国国家科学基金会人工智能与基础交互研究 所(National Science Foundation AI Institute for Artificial Intelligence and Fundamental Interactions)和麻省理工学院CSAIL的博士后Ge Yang说:“制造能够在现实世界中真正实现泛化的机器人是非常困难的。我们真的很想知道如何做到这一点,所以在这个项目中,我们试图推动一个积极的泛化水平,从三四个物体到我们在麻省理工学院斯塔塔中心找到的任何东西。我们想学习如何让机器人像我们自己一样灵活,因为我们可以抓住和放置物体,即使我们以前从未见过它们。”
  通过观察了解“什么在哪里”
  这种方法可以帮助机器人在存在杂乱和不可预测性的大型仓储中心拣选物品。在这些仓库中,机器人通常会收到一份库存描述,要求它们进行识别。无论包装如何变化,机器人都必须将提供的文字与物品相匹配,以便正确发送客户的订单。
  例如,大型在线零售商的履约中心可能包含数百万件商品,其中许多是机器人从未接触过的。要在这样的规模下运行,机器人需要了解不同物品的几何形状和语义,其中一些物品还位于狭小的空间内。有了F3RM先进的空间和语义感知能力,机器人就能更有效地定位物品,将其放入垃圾箱,然后送去包装。最终,这将帮助工厂工人更高效地运送客户的订单。
  “F3RM常常让人感到惊讶的一点是,同样的系统也能在房间和建筑规模上工作,并可用于构建机器人学习和大型地图的模拟环境,”Yang说,“但在进一步扩大这项工作之前,我们首先要让这个系统真正快速运转起来。这样,我们就可以将这种类型的表示法用于更动态的机器人控制任务,希望是实时的,这样处理更动态任务的机器人就可以用它来进行感知。”
  跨环境应用
  麻省理工学院团队指出,F3RM理解不同场景的能力可以使其在城市和家庭环境中发挥作用。例如,这种方法可以帮助个性化机器人识别和拾取特定物品。该系统能帮助机器人从物理和感知两方面把握周围环境。
  “视觉感知被定义为‘通过观察知道什么在哪里’的问题,”资深作者、麻省理工学院电子工程与计算机科学副教授兼CSAIL首席研究员菲利普·伊索拉(Phillip Isola)说,“最近的基础模型已经非常擅长了解它们在看什么;它们可以识别成千上万的物体类别,并提供详细的图像文本描述。与此同时,神经辐射场也能很好地表示场景中的物体位置。这两种方法的结合可以创建三维空间中物体所在位置的表征。”
  创建数字孪生
  F3RM通过自拍杆拍照开始了解周围环境。安装的摄像头会以不同的姿势拍摄50张照片,从而建立神经辐射场(NeRF),这是一种深度学习方法,可以通过二维图像构建三维场景。这种RGB照片的拼贴以360度呈现附近事物的形式,为周围环境创建了一个数字孪生。
  除了高度详细的神经辐射场,F3RM还建立了一个特征场,用语义信息增强几何图形。该系统使用CLIP(一种在数亿幅图像上进行过训练的视觉基础模型)来高效地学习视觉概念。通过为自拍杆拍摄的图像重建2D CLIP特征,F3RM可以有效地将2D特征提升为3D表示。
  开放式互动
  在接受了几次演示后,机器人会运用它所掌握的几何和语义知识来抓取它从未接触过的物体。一旦用户提交了文本查询,机器人就会在可能的抓取空间中进行搜索,找出最有可能成功抓取用户要求的物体的抓取方式。每个潜在选项都会根据其与提示的相关性、与机器人训练过的演示的相似性以及是否会造成碰撞等因素进行评分。然后选择并执行得分最高的抓取动作。
  为了展示该系统解读人类开放式请求的能力,研究人员让机器人拿起迪士尼《超能陆战队》中的角色“大白”。虽然F3RM从未直接接受过拾取卡通超级英雄玩具的训练,但机器人利用基础模型中的空间感知和视觉语言特点来决定抓取哪个物体以及如何拾取。
  F3RM还能让用户以不同的语言细节来指定他们希望机器人处理的物体。例如,如果有一个金属杯和一个玻璃杯,用户可以要求机器人拿“玻璃杯”。如果机器人看到两个玻璃杯,其中一个装的是咖啡,另一个装的是果汁,那么用户可以要求机器人提供“装咖啡的玻璃杯”。嵌入在特征字段中的基础模型特征可以实现这种开放式理解。
  “如果我向一个人展示如何用嘴唇拿起一个杯子,他们就可以很容易地将这些知识迁移到拿起具有类似几何形状的物体上,如碗、量杯,甚至卷尺。”麻省理工学院博士生、共同第一作者William Shen说:“对于机器人来说,实现这种程度的适应性是相当具有挑战性的。”F3RM将几何理解与在互联网规模数据上训练的基础模型的语义相结合,只需少量演示就能实现这种程度的积极泛化。
  William She和Ge Yang在伊索拉的指导下撰写了这篇论文,共同作者包括麻省理工学院教授、CSAIL首席研究员莱斯利·帕克·凯尔布林(Leslie Pack Kaelbling)。该团队的部分工作得到了亚马逊服务公司、美国国家科学基金会、空军科学研究办公室、海军研究办公室多学科大学计划、陆军研究办公室、麻省理工学院-IBM沃森实验室和麻省理工学院智能探索项目的支持。 (航柯