端到端自动驾驶通用算法框架UniAD

news/2024/4/16 14:55:20/文章来源:https://blog.csdn.net/Jack___E/article/details/136557870

端到端自动驾驶通用算法框架UniAD

引言

自动驾驶是一项高度复杂的技术,需要多个学科领域的知识和技能,包括传感器技术、机器学习、路径规划等方面。自动驾驶还需要适应不同的道路规则和交通文化,与其他车辆和行人进行良好的交互,以实现高度可靠和安全的自动驾驶系统。面对这种复杂的场景,大部分自动驾驶相关的工作都聚焦在具体的某个模块,关于框架性的研讨则相对匮乏。自动驾驶通用算法框架——Unified Autonomous Driving(UniAD)首次将检测、跟踪、建图、轨迹预测,占据栅格预测以及规划整合到一个基于 Transformer 的端到端网络框架下, 完美契合了 “多任务”和“高性能”的特点,可称为自动驾驶中的技术突破。地平线与上海人工智实验室提出了自动驾驶通用算法框架——Unified Autonomous Driving(UniAD)。UniAD 首次将检测,跟踪,建图,轨迹预测,占据栅格预测以及规划整合到一个基于 Transformer 的端到端网络框架下,在 nuScenes 数据集下的所有相关任务都达到 SOTA 性能,尤其是预测和规划效果远超其他模型。
在这里插入图片描述

感知决策一体化自动驾驶大模型

自动驾驶是一个高度复杂的技术体系,不仅需要多个学科领域的知识和技能,包括传感器硬件、机器学习、多模态融合等内容,还需要适应不同国家与地区的道路规则和交通文化,与车辆及行人进行良好的交互,以实现高度的可靠性和安全性。
自动驾驶系统中包含三大主任务即,感知、预测和规划。当前,业界主流的方案架构分别采用不同的模块来处理这些具体任务,但由于各模块并非以驾驶为最终目标进行优化,因而自动驾驶系统的整体性能提升受到了很大限制。
在UniAD中,研究人员首次将感知、预测和规划等三大类主任务、六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到统一的基于 Transformer的端到端网络框架下,实现了全栈关键任务驾驶通用模型。在 nuScenes 真实场景数据集下,UniAD的所有任务均达到领域最佳性能(State-of-the-art),尤其是预测和规划效果远超之前的最佳方案。其中,多目标跟踪准确率超越SOTA 20%,车道线预测准确率提升30%,预测运动位移和规划的误差则分别降低了38%和28%。
在这里插入图片描述

核心技术

多组 query 的全 Transformer 模型

UniAD利用多组query 实现了全栈Transformer的端到端模型,我们可以从具体 Transformer的输入输出感受到信息融合。

  • 在TrackFormer中,Track query通过与BEV特征通过attention的方式进行交互,输出Track特征QA。
  • Map query经过MapFormer的更新后,得到特征QM
  • MotionFormer使用Motion query与QA、QM以及BEV特征进行交互,得到未来轨迹特征QX。
  • OccFormer 以密集的BEV特征为Q和稀疏的特征QA对应的位置信息PA和QX作为K和V来构建实例级别的占据栅格。

基于最终“规划”为目标

在 TrackFormer 中,Track query 中包含一个特定的 ego-vehicle query 用来表示自车属性。规划模块 (Planner) 将 MotionFormer 更新后的 ego-vehicle query 与 BEV 特征进行交互,此时 ego-vehicle query 包含对整个环境的感知与预测信息,因此能更好的学习 planning 任务。为了减少碰撞,我们还利用占据栅格预测模块 OccFormer 的输出对自车路径进行优化,避免行驶到未来可能有物体占用的区域。在这个过程中,全部的模块通过输出特定的特征来帮助实现最终的目标“规划”。

整体流程优化

当前大部分自动驾驶系统研究,都聚焦在具体的某个模块,缺少能够实现端到端联合优化的通用网络模型。现有的自动驾驶系统可大致归为三类:(a)模块化组成的系统;(b)多任务模块架构的系统;(c)端到端自动驾驶系统。在这里插入图片描述

其中传统的端到端算法可分为:基础的端到端算法,直接从传感器输入预测控制输出,但是优化困难,在充满复杂视觉信息的真实场景中应用面临较大挑战;(按照任务划分网络的显式设计,但是网络模块之间缺乏有效的特征沟通,需要分阶段的输出结果,任务间缺乏有效交互。本文提出的决策导向的感知决策一体设计方法,用token特征按照感知-预测-决策的流程进行深度融合,使得以决策为目标的各项任务指标一致提升。

未来展望

总的来说,UniAD 作为一项极具创新性的自动驾驶技术,具有很大的潜力和应用价值。尽管该技术目前仍处于发展初期,但其已经引起了人们的广泛兴趣和关注,未来的发展前景非常值得期待。希望UniAD能充分利用现在海量数据驱动的优势,在未来实现高阶的自动驾驶人工智能。

参考链接

  • https://blog.csdn.net/CV_Autobot/article/details/131356302
  • https://mp.weixin.qq.com/s/8svV4yxRi6TikcRivgHr_A
  • https://zhuanlan.zhihu.com/p/616433397

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_999634.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【SQL】550. 游戏玩法分析 IV (关键点:确定连续两次登录)

前述 常见函数用法示例: DATEDIFF(col1, col2) 1DATE_ADD(MIN(col), INTERVAL 1 DAY)ROUND(3.1415926,3) > 四舍五入得到 3.142 题目描述 leetcode原题:550. 游戏玩法分析 IV 思路 确定连续两次登录统计,保留两位小数 写法一 关键…

python基础9_序列类型

回顾: 什么是变量?,有什么用? 可以变化的量, 就是个容器,多次变化,方便后续使用, 前面介绍了哪些数据类型? bool, str, int, float 用什么函数查看数据的类型? a "hello" print(type(a)) 到了这一步,,我们认识了哪些数据类型呢? int 整型(整数), float…

如何选择阿里云的服务器地域?看这一篇就够了

阿里云服务器地域选择方法,如何选择速度更快、网络延迟更低的地域节点,地域指云服务器所在的地理位置区域,地域以城市划分,如北京、杭州、深圳及上海等,如何选择地域?建议根据用户所在地区就近选择地域&…

基于Spring Boot+Vue的论坛网站

末尾获取源码作者介绍:大家好,我是墨韵,本人4年开发经验,专注定制项目开发 更多项目:CSDN主页YAML墨韵 学如逆水行舟,不进则退。学习如赶路,不能慢一步。 目录 一、项目简介 二、开发技术与环…

三色标记过程

可达性分析 GC过程中需要对对象图遍历做可达性分析。使用了三色标记法进行分析。 什么三色? 白色:尚未访问过。 黑色:本对象已访问过,而且本对象 引用到 的其他对象 也全部访问过了。 灰色:本对象已访问过&#xff0…

http代理IP适合什么场景使用?HTTP代理IP的优势在哪里呢?

HTTP代理IP在多种场景下都能发挥重要作用,尤其是在网络请求处理、数据抓取、爬虫应用以及隐私保护等方面。下面,我们将详细探讨HTTP代理IP适用的场景以及其所具备的优势。 一、HTTP代理IP适合什么场景使用? 1. 网络请求处理:在进行…

#QT(网络编程-UDP)

1.IDE:QTCreator 2.实验:UDP 不分客户端和服务端 3.记录 (1)做一个UI界面 (2)编写open按钮代码进行测试(用网络调试助手测试) (3)完善其他功能测试 4.代码 …

Python快速入门系列-1

Python快速入门系列 第一章: Python简介1.1 Python的历史与发展1.2 Python的优势与特点1.2.1 易学易用1.2.2 动态类型1.2.3 丰富的标准库与第三方库1.2.4 面向对象与函数式编程1.2.5 广泛应用领域 1.3 Python的应用领域 第一章: Python简介 1.1 Python的历史与发展 Python是一…

three.js如何实现简易3D机房?(一)基础准备-上

目录 一、tips 二、功能说明 1.模型初始化 2.功能交互 三、初始化准备 1.目录结构 2.创建三要素 3.创建轨道控制器 4.初始化灯光 5.适配 6.循环渲染 一、tips 1.three.js入门的相关基础性知识就不在此过多赘述了,可以自行提前了解 three.js docs&…

Unity编辑器功能Inspector快捷自动填充数据和可视化调试

我们有时候可能需要在面板增加一些引用,可能添加脚本后要手动拖动,这样如果有大量的脚本拖动也是不小的工作量 实例 例如:我的脚本需要添加一个Bone的列表,一个个拖动很麻烦。 实现脚本 我们可以用这样的脚本来实现。 public…

Linux系统——Haproxy高性能负载均衡软件

目录 一、Haproxy介绍 1.Haproxy定义 2.Haproxy主要特性 二、安装Haproxy 1.yum安装 2.第三方rpm包安装 3.编译安装 3.1解决Lua环境 3.2编译安装Haproxy 三、配置文件详解 1.状态页 2.日志管理 2.1定义日志到其他主机站点 3.指定进程线程个数 4.cpu亲缘性 5.多进…

一文帮助快速入门Django

文章目录 创建django项目应用app配置pycharm虚拟环境打包依赖 路由传统路由include路由分发namenamespace 视图中间件orm关系对象映射操作表数据库配置model常见字段及参数orm基本操作 cookie和sessiondemo类视图 创建django项目 指定版本安装django:pip install dj…

【Photoshop2020版本】零基础笔记(一)

哈喽大家好~最近博客内容换方向了哈哈哈~换成“实用版”了。 今天给大家带来的是 PS 相关内容 其实我也是刚学PS,所以想着自己做笔记还不如发布出去,让大家都能看到,有兴趣的伙伴们,可以跟着我的笔记一块学习,这个专…

探索手指套的多功能用途

什么是手指套? 手指套,戴在手指上的用品。作为一种小巧实用的用品,在我们的生活中扮演着多种角色。无论是在工业生产中的保护,医疗操作中的防护,还是日常生活中的装饰,甚至是性生活中的辅助,手…

ChatGPT推出新“朗读”功能 支持多语言与声音;使用大型语言模型增强分类数据集

🦉 AI新闻 🚀 ChatGPT推出新“朗读”功能 支持多语言与声音 摘要:OpenAI最新为其流行的聊天机器人ChatGPT引入了一项名为“朗读”的功能,这使得ChatGPT能用五种不同的声音朗读回复,并支持37种语言的自动检测与朗读。…

Aop注解+Redis解决SpringBoot接口幂等性(源码自取)

目录 一、什么是幂等性? 二、哪些请求天生就是幂等的? 三、为什么需要幂等 1.超时重试 2.异步回调 3.消息队列 四、实现幂等的关键因素 关键因素1 关键因素2 五、引入幂等性后对系统的影响 六、Restful API 接口的幂等性 实战Aop注解redis解…

Java代码审计安全篇-常见Java SQL注入

前言: 堕落了三个月,现在因为被找实习而困扰,着实自己能力不足,从今天开始 每天沉淀一点点 ,准备秋招 加油 注意: 本文章参考qax的网络安全java代码审计,记录自己的学习过程,还希望…

el根据需求合并列

将 列分为 3 3 1 的格式 以下是vue代码&#xff1a; <el-table:data"dataSource":border"true":header-cell-style"{ font-weight: normal, text-align: center }":cell-style"{ text-align: center }"size"mini"style…

git分布式管理-头歌实验搭建Git服务器

一、Git服务器搭建 任务描述 虽然有提供托管代码服务的公共平台&#xff0c;但是对一部分开发团队来说&#xff0c;为了不泄露项目源代码、节省费用及为项目提供更好的安全保护&#xff0c;往往需要搭建私有Git服务器用做远程仓库。Git服务器为团队的开发者们&#xff0c;提供了…

智能驾驶规划控制理论学习08-自动驾驶控制模块(轨迹跟踪)

目录 一、基于几何的轨迹跟踪方法 1、基本思想 2、纯追踪 3、Stanly Method 二、PID控制器 三、LQR&#xff08;Linear Quadratic Regulator&#xff09; 1、基本思想 2、LQR解法 3、案例学习 基于LQR的路径跟踪 基于LQR的速度跟踪 4、MPC&#xff08;Mode…