新火种AI|GPT-4诞生1年,OpenAI把它放到了机器人上

news/2024/5/25 9:52:17/文章来源:https://blog.csdn.net/2301_81027856/article/details/136723381

作者:一号

编辑:美美

ChatGPT拥有了身体,机器人也有了灵魂。

从OpenAI在去年3月14日拿出GPT-4后,已经过了整整一年。显然,在GPT-4诞生之后的这一年,一切都迭代得太快了,从GPT-4展现多模态能力,到千行百业都在谈论AI,再到Sora引爆AI生成视频的市场。

资深机器人专家Eric Jang在不久之前还预言,“ChatGPT曾在一夜之间出现。我认为,有智慧的机器人技术也将如此。”

他或许没错,在一年后的今天,一家名为Figure的公司在X上上传了一段人形机器人的视频。

在视频中,Figure的人形机器人Figure 01,能够完全与人类流畅对话,理解人类的想法,同时根据理解进行抓取和放置的操作,并解释自己这么做的原因。而这只是OpenAI宣布和Figure共同合作推进人形机器人领域前沿的第十三天。

这段Demo迅速吸引了广大网友的眼球,有人感叹,AGI的曙光似乎就在眼前了。

没弄虚未作假,这些都是机器人自学的

视频发布之后,Figure AI的掌门人Brett Adock,在X上来了一番精彩解读。

视频中Figure展示了端到端神经网络(end-to-end neural networks)框架下与人类对话的应用。在此过程中没有任何远程操作。并且机器人的速度也有了显著的提升,开始接近人类的速度。

那具体是怎么做到的呢?

首先,Figure AI会将机器人摄像头拍摄到的图像和通过板载麦克风记录到的语言转录成文本输入到一个由OpenAI训练的大模型中,这是一个能够同时处理图像和文本信息的模型。

然后,这个模型会处理整个对话的历史记录,包括以往的图像,然后通过文本到语音的方式,生成语音进行响应,向人类回话。

这个模型还同时负责决定执行哪种已学习的闭环行为来响应给定的命令,它将特定的神经网络权重加载到GPU上,并执行相应的策略。

这样做之后,Figure 01就有了很多有趣的新功能。例如描述它周围的环境、在做决定的时候运用常识进行推理,并且会理解一些含糊的高级指令,例如当人类说“我饿了”的时候,它会将桌面上唯一的食物——苹果,递给人类,并用简单的英语说明它为什么这么做。

而关于Figure 01通过学习掌握的精细双手操作技能,这些所有的行为都是由神经网络的视觉-运动转换器策略驱动,能将像素直接映射到动作。这些网络以每秒10帧的速率接收机载图像,并以200hz的频率生成24-DOF动作,包括手腕姿势和手指关节角度。

简单来说,预训练模型会首先对图像和文本进行常识推理,然后给出动作计划;接着,机器人再基于已学习的视觉-动作执行策略,做出快速的反应行动。同时通过全身控制器确保动作的安全性和稳定性,保持机器人的平衡。

Figure,众人看好的具身智能公司

人工智能的后半场,以机器人为代表的具身智能将成为新的智能增长点。

英伟达CEO黄仁勋曾说,“具身智能将引领下一波人工智能浪潮”。这样的观点正在被越来越多的公司所赞同。当前,生成式AI的竞争已经从连续对话走向长文本以及多模态,各家科技公司和机构也开始投资具身智能。

而这家名为Figure的具身智能公司,除了被OpenAI看好,还拿到了多方的投资,成为了硅谷备受关注的新星。

公开资料显示,Figure成立于2022年,成立之初就瞄准了通用人形机器人领域。在3月1日,它宣布完成了惊人的6.75亿美元B轮融资,公司估值达到了26亿美元。而它的投资方,几乎占据了硅谷的半壁江山。除了OpenAI,微软、英特尔、英伟达、亚马逊创始人贝索斯以及“木头姐”等,都是它的投资方。

而在获得融资之后,Figure也没有让人失望。在今年1月,它们的产品Figure就通过端到端神经网络,仅用10小时就掌握了制作咖啡的技能。1个月后,它又展示了把箱子搬运到传送带的新技能,而现在,它又学会了理解人类的意图。

当然,在商业化的道路上,Figure也在积极探索。目前,Figure已经和宝马制造公司签订了商业协议,Figure 01已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试。

从ChatGPT到Figure 01,OpenAI想的依旧是AGI

尽管OpenAI在2021年夏天悄悄关闭了其机器人团队,但显然,OpenAI对于机器人领域的关注并未减少。

除了Figure,OpenAI在一年之前就投资了挪威一家名为1X Technologies的机器人制造商。与此同时,OpenAI还被彭博社爆料,说它投资了一家新成立的机器人AI公司Physical Intelligence,他们的创始团队分别来自谷歌研究团队、加州大学伯克利分校以及斯坦福大学教授等。而这家公司也是研究未来能够成为通用机器人系统的人工智能。

显然,将OpenAI大模型融入Figure 01是OpenAI有意的战略布局。

对于计算机视觉、机器人等领域来说,具身智能是一个很有挑战的目标:如果AI智能体(机器人)不仅能够接收来自数据集的静态图像,还能够在三维的世界中,无论是虚拟还是真实的,四处移动并与环境进行交互,那么我们将能迎来一次重大的突破,即从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务。

而当机器人能够执行类人任务后,通过数据的迭代升级,将会越来越像人。而到了那个时候,也许AGI能够取得突破,这也是OpenAI一直以来的目标。

一年之前,OpenAI发布了GPT-4,向世界证明了大模型的威力,而在一年后的今天,Figure 01的表现,也许会是机器人领域的GPT-4时刻。不过,正与OpenAI争得不可开交的马斯克,他的Optimus也是机器人领域的佼佼者,这两者之间还会有什么样的故事,我们拭目以待。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1007577.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx、LVS、HAProxy工作原理和负载均衡架构

当前大多数的互联网系统都使用了服务器集群技术,集群是将相同服务部署在多台服务器上构成一个集群整体对外提供服务,这些集群可以是 Web 应用服务器集群,也可以是数据库服务器集群,还可以是分布式缓存服务器集群等等。 在实际应用…

EMQX 4.0和EMQX 5.0集群架构实现1亿MQTT连接哪些改进

EMQX 5.0水平扩展能力得到了指数级提升,能够更可靠地承载更大规模的物联网设备连接量。 在EMQX5.0正式发布前的性能测试中,我们通过一个23节点的EMQX集群,全球首个达成了1亿MQTT连接每秒100万消息吞吐,这也使得EMQX 5.0成为目前为…

自然语言处理实验2 字符级RNN分类实验

实验2 字符级RNN分类实验 必做题: (1)数据准备:academy_titles.txt为“考硕考博”板块的帖子标题,job_titles.txt为“招聘信息”板块的帖子标题,将上述两个txt进行划分,其中训练集为70%&#xf…

【matlab】如何将.mat文件与.nii文件互转

【matlab】如何将.mat文件与.nii文件互转 .mat转为.nii文件 有时候代码需要读取的是.nii文件,但是如何现有的数据是.mat格式,需要将.mata转化为.nii文件 1、先加载.mat文件 % 加载.mat文件 load(your_mat_file.mat); % 请将your_mat_file.mat替换为实…

《家庭的觉醒》(二)提升觉悟的日常提示

尊重内心的本质 专注于你的孩子今天是谁,而不是今天他做了什么。 不要执着于他们的学业表现,测验成绩,成就或功课。 敞开心扉 发自内心与孩子分享你自己。还记得当孩子生病,在急诊室或医院的时候吗?还记得认识的另…

配置阿里云加速器

国内镜像中心常用阿里云或者网易云。在本地docker中指定要使用国内加速器的地址后&#xff0c;就可以直接从阿里云镜像中心下载镜像。 2024阿里云-上云采购季-阿里云 [rootlocalhost /]# mkdir -p /etc/docker [rootlocalhost /]# tee /etc/docker/daemon.json <<-EOF &…

信号与系统学习笔记——信号的分类

目录 一、确定与随机 二、连续与离散 三、周期与非周期 判断是否为周期函数 离散信号的周期 结论 四、能量与功率 定义 结论 五、因果与反因果 六、阶跃函数 定义 性质 七、冲激函数 定义 重要关系 作用 一、确定与随机 确定信号&#xff1a;可以确定时间函数…

阿里云免费证书改为3个月,应对方法很简单

情商高点的说法是 Google 积极推进90天免费证书&#xff0c;各服务商积极响应。 情商低点的话&#xff0c;就是钱的问题。 现在基本各大服务商都在2024年停止签发1年期的免费SSL证书产品&#xff0c;有效期都缩短至3个月。 目前腾讯云倒还是一年期。 如果是一年期的话&#x…

冒泡排序,详详解解

目录 基本概念&#xff1a; 上图&#xff1a; 核心思路&#xff1a; 基本步骤&#xff1a; 关键&#xff1a; 代码核心&#xff1a; 补充&#xff1a; 代码&#xff08;规范&#xff09; &#xff1a; 代码&#xff08;优化&#xff09;&#xff1a; 今天我们不刷力扣了&…

CSDN 编辑器设置图片缩放和居中

CSDN 编辑器设置图片缩放和居中 文章目录 CSDN 编辑器设置图片缩放和居中对齐方式比例缩放 对齐方式 Markdown 编辑器插入图片的代码格式为 ![图片描述](图片路径)CSDN 的 Markdown 编辑器中插入图片&#xff0c;默认都是左对齐&#xff0c;需要设置居中对齐的话&#xff0c;…

ChatGPT-Next-Web SSRF漏洞+XSS漏洞复现(CVE-2023-49785)

0x01 产品简介 ChatGPT-Next-Web 是一种基于 OpenAI 的 GPT-3.5 、GPT-4.0语言模型的产品。它是设计用于 Web 环境中的聊天机器人,旨在为用户提供自然语言交互和智能对话的能力。 0x02 漏洞概述 2024年3月,互联网上披露CVE-2023-49785 ChatGPT-Next-Web SSRF/XSS 漏洞,未经…

CompletableFuture原理与实践-外卖商家端API的异步化

背景 随着订单量的持续上升&#xff0c;美团外卖各系统服务面临的压力也越来越大。作为外卖链路的核心环节&#xff0c;商家端提供了商家接单、配送等一系列核心功能&#xff0c;业务对系统吞吐量的要求也越来越高。而商家端API服务是流量入口&#xff0c;所有商家端流量都会由…

IDEA如何删除git最新一次远程提交

IDEA如何删除git最新一次远程提交 选择应用 -> Git -> Show History 选择最新提交上一次提交 -> Reset Current Branch to Here… Reset 提示框选择 Hard push到远程分支 -> 选择Force Push 结果验证 &#xff08;最新分支已被删除&#xff09;

Docker-基本命令

目录 一、Docker与虚拟机技术 二、Docker功能 三、安装 安装&#xff1a; 1、环境准备&#xff1a; 2、安装docker 3、配置阿里云镜像加速 镜像加速源 4、Docker是怎么工作的 5、Docker为什么比虚拟机快 四、docker命令 1、镜像命令 Docker官方镜像库&#xff1a…

小程序学习3 goods-card

pages/home/home home.wxml <goods-listwr-class"goods-list-container"goodsList"{{goodsList}}"bind:click"goodListClickHandle"bind:addcart"goodListAddCartHandle"/> <goods-list>是一个自定义组件&#xff0c;它具…

什么是制作视频内容?如何搞好视频内容制作?

写在前面 视频内容已成为希望吸引数字观众的企业、品牌和创作者的必备资产。事实上&#xff0c;根据NogenTech的一份报告&#xff0c;在2023年&#xff0c;91%的营销部门使用了这种动态内容。 视频内容创作和优化性能的技巧和窍门的增加绝非巧合。TikTok以及Instagram Reels和…

BMJ杂志方法学推荐:断点回归方法

直播课程 郑老师本周六&#xff1a;真实世界临床研究直播课&#xff08;点击了解详情&#xff09; 2024年2月27日&#xff0c;顶级医学期刊BMJ发表了一篇有关断点回归设计研究的指南&#xff0c;文中所介绍的断点回归既具有类似随机对照组的优势&#xff0c;又能依托于观察性研…

软考--软件设计师(磁盘管理的例题)

流水线的理论公式&#xff1a; 单缓冲区&#xff1a;同一时间内只能允许一个进程进行写入读出&#xff0c;所以每个盘块经过缓冲区的时间是&#xff08;155微秒&#xff09;&#xff0c;之后再用1微秒的时间进行处理。在处理的同时&#xff0c;下一个盘块写入缓冲区&#xff0c…

增删卜易——八宫六十四卦

之前看倪海厦的《天纪》笔记里面提到了六十四卦世应,觉得不知道这个世应是啥意思。很长时间就没看了,偶然间看到了张文江教授写的一本书《潘雨廷先生谈话录》提到了《卜筮正宗》,“卜筮最后的判断是非理性转义,其他一切都只是形式”,“明人的著作,从京氏易出,如今天几日…

Kubernetes Prometheus 系列|Prometheus介绍和使用|Prometheus+Grafana集成

目录 第1章Prometheus 入门1.1 Prometheus 的特点1.1.1 易于管理1.1.2 监控服务的内部运行状态1.1.3 强大的数据模型1.1.4 强大的查询语言 PromQL1.1.5 高效1.1.6 可扩展1.1.7 易于集成1.1.8 可视化1.1.9 开放性 1.2 Prometheus 的架构1.2.1 Prometheus 生态圈组件1.2.2 架构理…