UMass、MIT等提出3D世界具身基础模型,机器人根据生成的世界模型无缝连接3D感知、推理和行动

news/2024/5/20 5:35:28/文章来源:https://blog.csdn.net/weixin_44887311/article/details/137064365

在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。

此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关系。

相比之下,人类在思考时会引入世界模型,可以描绘除对未来情景的想象,从而对下一步的行动进行规划。

为此,来自马萨诸塞州大学阿默斯特分校、MIT等机构的研究人员提出了3D-VLA模型,通过引入一类全新的具身基础模型(embodied foundation models),可以根据生成的世界模型无缝连接3D感知、推理和行动。

项目主页:https://vis-www.cs.umass.edu/3dvla/

论文地址:https://arxiv.org/abs/2403.09631

具体而言,3D-VLA构建在基于3D的大型语言模型(LLM)之上,并引入一组交互token来参与具身环境中。

为了将生成能力注入模型,淦创团队训练了一系列具身扩散模型,并将其对齐到LLM中以预测目标图像和点云。

为了对3D-VLA模型进行训练,通过从现有的机器人数据集中提取大量的3D相关信息来构建出一个大规模的3D具身指令数据集。

实验结果表明,3D-VLA显着提高了在具身环境中推理、多模态生成和规划的能力,展示出其在现实世界中的应用潜力。

三维具身指令调整数据集(3D Embodied Instruction Tuning Dataset)

得益于互联网上数十亿规模的数据集,VLM在各种任务中表现出了非凡的性能,百万级的视频动作数据集也为机器人控制的具身VLM奠定了基础。

但当前的数据集大多不能在机器人操作中提供深度或3D标注和精确控制,需要包含3D空间推理和交互:如果没有3D信息,机器人很难理解和执行需要3D空间推理的命令,比如「把最远的杯子放在中间的抽屉里」。

在这里插入图片描述

为了弥补这一差距,研究人员构建了一个大规模的3D指令调优数据集,该数据集提供了足够的「3D相关信息」以及「相应的文本指令」以训练模型。

研究人员设计了一个pipeline从现有的具身数据集中提取3D语言动作对,获得点云、深度图、3D边界框、机器人的7D动作和文本描述的标注。

3D-VLA基础模型

3D-VLA是一个用于在具身环境(embodied environment)中进行三维推理、目标生成和决策的世界模型。

在这里插入图片描述

首先在3D-LLM之上构建主干网络,并通过添加一系列交互token来进一步增强模型与3D世界交互的能力;再通过预训练扩散模型并使用投影来对齐LLM和扩散模型,将目标生成能力注入3D-VLA

骨干网络

在第一阶段,研究人员按照3D-LLM的方法开发3D-VLA基础模型:由于收集到的数据集没有达到从头开始训练多模态LLM所需的十亿级规模,因此需要利用多视图特征生成3D场景特征,使得视觉特征能够无缝集成到预训练VLM中,不需要自适应。

同时,3D-LLM的训练数据集主要包括对象(objects)和室内场景,与具体设置不直接一致,所以研究人员选择使用BLIP2-PlanT5XL作为预训练模型。

在训练过程中,解冻token的输入和输出嵌入,以及Q-Former的权重。

交互tokens

为了增强模型对3D场景的理解与环境中的交互,研究人员引入了一组全新的交互tokens

首先,输入中加入了object tokens,包含解析句子中的对象名词(如 a chocolate bar [loc tokens] on the table),这样模型就能更好地捕捉到被操作或提及的对象。

其次,为了更好地用语言表达空间信息,研究人员设计了一组位置token ,用 AABB 形式的六个标记来表示三维边界框。

第三,为了更好地进行动态编码,框架中引入了来包含静态场景的嵌入:通过对场景token进行组合,3D-VLA 可以理解动态场景,并管理交错三维场景和文本的输入。

通过扩展代表机器人动作的专用标记集,进一步增强了该架构。机器人的动作有 7 个自由度,用 、 和 <gripper0/1> 等离散token来表示手臂的预定绝对位置、旋转和抓手张开度,每个action由 token进行分隔。

注入目标生成能力

人类能够对场景的最终状态进行预先可视化(pre-visualize),以提升动作预测或决策的准确性,也是构建世界模型的关键方面;在初步实验中,研究人员还发现提供真实的最终状态可以增强模型的推理和规划能力。

但训练MLLM来生成图像、深度和点云并不简单:

首先,视频扩散模型并不是为具身场景量身定制的,比如Runway在生成「打开抽屉」的未来帧时,场景中会发生视图变化、对象变形、怪异的纹理替换以及布局失真等问题。

并且,如何将各种模态的扩散模型整合到一个单一的基础模型中仍然是一个难题。

所以研究人员提出的新框架,首先根据图像、深度和点云等不同形式对具体的扩散模型进行预训练,然后在对齐阶段将扩散模型的解码器对齐到3D-VLA的嵌入空间。

在这里插入图片描述

实验结果

3D-VLA是一个多功能的、基于3D的生成式世界模型,可以在3D世界中执行推理和定位、想象多模态目标内容,并为机器人操作生成动作,研究人员主要从三个方面对3D-VLA进行了评估:3D推理和定位、多模态目标生成和具身行动规划。

3D推理和定位

3D-VLA在语言推理任务上优于所有2D VLM方法,研究人员将其归因于3D信息的杠杆作用,3D信息为推理提供了更准确的空间信息。

在这里插入图片描述

此外,由于数据集中包含一组3D定位标注,3D-VLA学习定位相关对象,有助于模型更专注于关键对象进行推理。

研究人员发现3D-LLM在这些机器人推理任务中表现不佳,证明了在机器人相关的3D数据集上收集和训练的必要性。

在这里插入图片描述

并且3D-VLA在定位性能方面表现出明显优于2D基线方法,这一发现也为标注过程的有效性提供了令人信服的证据,有助于模型获得强大的3D定位能力。

多模态目标生成

与现有的零样本迁移到机器人领域的生成方法相比,3D-VLA在大多数指标方面实现了更好的性能,证实了使用「专门为机器人应用设计的数据集」来训练世界模型的重要性。

在这里插入图片描述

即使在与Instruct-P2P*的直接比较中,3D-VLA也始终性能更优,结果表明,将大型语言模型集成到3D-VLA中可以更全面、更深刻地理解机器人操作指令,从而提高目标图像生成性能。

此外,当从输入提示符中排除预测的边界框时,可以观察到性能略有下降,证实了使用中间预测边界框的有效性,可以帮助模型理解整个场景,允许模型将更多的注意力分配到给定指令中提到的特定对象,最终增强其想象最终目标图像的能力。

在这里插入图片描述

点云生成的结果对比中,具有中间预测边界框的3D-VLA性能最好,证实了在理解指令和场景的背景下结合大型语言模型和精确对象定位的重要性。

具身行动规划

3D-VLA在RLBench动作预测中的大多数任务中超过了基线模型的性能,显示了其具有规划能力。

在这里插入图片描述

值得注意的是,基线模型需要用到历史观察、对象状态和当前状态信息,而3D-VLA模型只通过开环控制执行。

在这里插入图片描述

此外,模型的泛化能力在捡杯(pick-up-cup)任务中得到了证明,3D-VLA在CALVIN中也取得了较好的结果,研究人员将这种优势归因于定位感兴趣的对象和想象目标状态的能力,为推断动作提供了丰富的信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1025795.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构——线性表(一)

线性表&#xff0c;顾名思义&#xff0c;是具有像线一样的性质的表。如同学生们在操场上排队&#xff0c;一个跟着一个排队&#xff0c;有一个打头&#xff0c;有一个收尾&#xff0c;在其中的学生都知道前一个是谁&#xff0c;后一个是谁&#xff0c;这样就像一根线将他们都串…

html页面使用@for(){},@if(){},利用jquery 获取当前class在列表中的下标

基于以前的项目进行修改优化&#xff0c;前端代码根据List元素在html里进行遍历显示 原先的代码&#xff1a; 其中&#xff0c;noticeGuide.Id是标识noticeGuide的唯一值&#xff0c;但是不是从0开始的【是数据库自增字段】 但是在页面初始化加载的时候&#xff0c;我们只想…

鸿蒙OS开发问题:(ArkTS) 【解决中文乱码 string2Uint8Array、uint8Array2String】

在进行base64编码中&#xff0c;遇到中文如果不进行处理一定会出现乱码 let result1: string CryptoJS.enc.Base64.stringify(CryptoJS.enc.Utf8.parse((一二三四五六七八九十123)))LogUtils.i("result1 " result1);let result2: string CryptoJS.enc.Base64.par…

mac-git上传至github(ssh版本,个人tokens总出错)

第一步 git clone https://github.com/用户名/项目名.git 第二步 cd 项目名 第三步 将本地的文件移动到项目下 第四步 git add . 第五步 git commit -m "添加****文件夹" 第六步 git push origin main 报错&#xff1a; 采用ssh验证 本地文件链接公钥 …

软件杯 深度学习+opencv+python实现车道线检测 - 自动驾驶

文章目录 0 前言1 课题背景2 实现效果3 卷积神经网络3.1卷积层3.2 池化层3.3 激活函数&#xff1a;3.4 全连接层3.5 使用tensorflow中keras模块实现卷积神经网络 4 YOLOV56 数据集处理7 模型训练8 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &am…

电脑windows 蓝屏【恢复—无法加载操作系统,原因是关键系统驱动程序丢失或包含错误。.......】

当你碰到下图这种情况的电脑蓝屏&#xff0c;先别急着重装系统&#xff0c;小编本来也是想重装系统的&#xff0c;但是太麻烦&#xff0c;重装系统后你还得重装各种软件&#xff0c;太麻烦了&#xff01;&#xff01; 这种情况下&#xff0c;你就拿出你的启动U盘&#xff0c;进…

OSCP靶场--GLPI

OSCP靶场–GLPI 考点(CVE-2022-35914 php执行函数绕过ssh端口转发jetty xml RCE) 1.nmap扫描(ssh端口转发) ## ┌──(root㉿kali)-[~/Desktop] └─# nmap 192.168.194.242 -sV -sC --min-rate 2500 Starting Nmap 7.92 ( https://nmap.org ) at 2024-03-26 22:22 EDT Nmap…

快速上手Spring Cloud 十一:微服务架构下的安全与权限管理

快速上手Spring Cloud 一&#xff1a;Spring Cloud 简介 快速上手Spring Cloud 二&#xff1a;核心组件解析 快速上手Spring Cloud 三&#xff1a;API网关深入探索与实战应用 快速上手Spring Cloud 四&#xff1a;微服务治理与安全 快速上手Spring Cloud 五&#xff1a;Spring …

python opencv稍基础初学

傅里叶变换 傅里叶变换f​​​​​傅里叶分析之掐死教程&#xff08;完整版&#xff09;更新于2014.06.06 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/19763358 相当nice 傅里叶变换的作用 高频&#xff1a;变化剧烈的灰度分量&#xff0c;例如边界 低频&#xff1a;变…

【搜索引擎2】实现API方式调用ElasticSearch8接口

1、理解ElasticSearch各名词含义 ElasticSearch对比Mysql Mysql数据库Elastic SearchDatabase7.X版本前有Type&#xff0c;对比数据库中的表&#xff0c;新版取消了TableIndexRowDocumentColumnmapping Elasticsearch是使用Java开发的&#xff0c;8.1版本的ES需要JDK17及以上…

Elasticsearch-相关性

相关性描述的是⼀个⽂档和查询语句匹配的程度。ES 会对每个匹配查询条件的结果进⾏算分_score。_score 的评分越高&#xff0c;相关度越高。 ES 5.0之前使用TF-IDF 相关性算法&#xff0c; 5.0之后使用了BM25算法 TF-IDF 公式 score(q,d) queryNorm(q) coord(q,d) …

数据处理库Pandas数据结构DataFrame

Dataframe是一种二维数据结构&#xff0c;数据以表格形式&#xff08;与Excel类似&#xff09;存储&#xff0c;有对应的行和列&#xff0c;如图3-3所示。它的每列可以是不同的值类型&#xff08;不像 ndarray 只能有一个 dtype&#xff09;。基本上可以把 DataFrame 看成是共享…

@EnableWebMvc 导致自定义序列化器失效

目录 前言 一. 自定义序列化器失效 1.1 EnableWebMvc 的作用 1.2 EnableWebMvc 带来了什么后果 1.3 原理分析 1.4 问题解决 二. 总结 前言 在使用Swagger的时候用 到了EnableWebMvc&#xff0c;发现之前为了解决Long类型、日期类型等自定义序列化器失效了 Configurati…

基于javaweb宠物领养平台管理系统设计和实现

基于javaweb宠物领养平台管理系统设计和实现 博主介绍&#xff1a;多年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐留言 文末获取源码联…

Android ddms在macOS上面卡死和Java版本异常无法关闭弹窗处理

背景 在macOS上面打开ddms工具遇到错误。产留的uix文件无法打开,弹出无法关闭和进入ddms无任何响应。 问题-无法关闭的弹窗 首先ddms在Android SDK中位置/sdk/tools/monitor这个二进制文件就是ddms程序了。 终端执行这个程序即可。第一个遇到的问题,打开ddms之后,弹出一个…

MySQL 高级语句(二)

一、子查询 1.1 相同表子查询 1.2 不同表/多表子查询 1.3 子查询的应用 1.3.1 语法 1.3.2 insert 子查询 1.3.3 update 子查询 1.3.4 delete 子查询 1.4 exists 关键字 1.4.1 true 1.4.2 false 1.5 as别名 二、视图 2.1 视图和表的区别和联系 2.1.1 区别 2.1.2 …

阿里云云服务器资源规格推荐指南

资源规格推荐可以根据您的特定业务场景&#xff0c;为您推荐最合适的计算资源规格以及满足您算力需求的资源规模。本文介绍如何根据物理机规格推荐ECS资源和根据总算力推荐ECS资源。 根据物理机规格推荐ECS资源 IDC上云可以帮助您在将线下IDC服务器搬迁上云前&#xff0c;根据…

单臂路由和三层交换机

目录 一.单臂路由 1.单臂路由的工作原理 2.单臂路由的配置 2.1画出拓扑图 2.2配置PC 2.3配置交换机 2.4配置路由器 2.5测试 二.三层交换机 1.三层交换机的概述 2.三层交换机的配置 2.1画出拓扑图 2.2配置PC 2.3配置二层交换机 2.4配置三层交换机 2.5测试 3.拓展 三.总结 一.…

iOS_convert point or rect 坐标和布局转换+判断

文章目录 1. 坐标转换2. 布局转换3. 包含、相交 如&#xff1a;有3个色块 let view1 UIView(frame: CGRect(x: 100.0, y: 100.0, width: 300.0, height: 300.0)) view1.backgroundColor UIColor.cyan self.view.addSubview(view1)let view2 UIView(frame: CGRect(x: 50.0, …

AI视频渲染原理是什么?

一、AI渲染原理 AI视频渲染是一种结合了人工智能技术的新型渲染方式&#xff0c;它主要通过深度学习和其他机器学习方法来优化传统渲染流程&#xff0c;以提高效率和质量。以下是AI视频渲染可能涉及的一些基本原理&#xff1a; 1. **智能采样**&#xff1a; - AI可以帮助决定在…