论文阅读-Policy Optimization for Continuous Reinforcement Learning

news/2024/4/29 12:20:42/文章来源:https://blog.csdn.net/hzlalb/article/details/137103851

摘要

我们研究了连续时间和空间环境下的强化学习( RL ),其目标是一个具有折扣的无限时域,其动力学由一个随机微分方程驱动。基于连续RL方法的最新进展,我们提出了占用时间(专门针对一个折现目标)的概念,并展示了如何有效地利用它来推导性能差异和局部近似公式。我们进一步扩展这些结果,以说明它们在PG (策略梯度)和TRPO / PPO (信赖域政策优化/近端政策优化)方法中的应用,这些方法在离散RL环境中是熟悉和强大的工具,但在连续RL中不发达。通过数值实验,我们证明了我们方法的有效性和优势。

受两个问题的启发

  1. 定义MDP (带有折扣的目标)中的访问频率为:,其中{ Yt }为状态空间为S:= { s }的马尔可夫链,γ∈( 0、1 )为折扣因子。它在许多MDP的RL算法中起着重要的作用。因此,一个自然的问题是,什么是ρ ( s )的连续对应物?
  2. 对于连续RL,如何表征两种策略之间的性能差异?具体来说,我们能否推导出类似于MDP情形中的性能差异公式?能否将高效的策略优化方法的思想和工具应用到连续的RL设置中?  

主要贡献

1. 提供了一个统一的理论框架,用于连续时间和空间中的策略优化问题。

2. 引入了驻留时间/度量概念,解决了折扣目标下的策略优化问题。

3. 通过摄动分析推导了连续强化学习的性能差异公式。

4. 开发了策略梯度的连续对应项,以及性能度量的局部近似方法。

5. 提出了次优化-主优化算法,并推导了其性能上界。

6. 发展了信任区域策略优化/近端策略优化的连续对应项。

7. 展示了这些算法在连续时间和空间中的随机控制任务上的收敛性。

算法和实验

Sample-based Algorithms

超参数:

  1. 学习率α
  2. 轨迹截断参数(时间范围)T(需要足够大)
  3. 总样本量 N或采样间隔δt,其中 N·δt = T
  4. 从环境中观察到数据的时刻,记 ti:= i·δt,i = 0, . . . , N − 1

Continuous Policy Gradient (CPG)

为了从数据中估计策略梯度,首先采样一个独立的指数变量τexp(β) 以获得 。如果存在 q 函数 oracle,则可以获得策略梯度的无偏估计(其收敛分析遵循)。由于缺少这样的预言,我们采用广义优势估计 (GAE) 技术 来获得 q(Xt, at)≈(Q∆t(Xt, at;π)−V (Xt;π)) /δt≈(rtδt + e−βδtV (Xt+δt)−V (Xt))/δt。这产生了策略梯度算法 1。

Continuous PPO (CPPO)

我们现在给出算法2,它是PPO的连续版本,也是3.3节中MM算法的近似。为此,我们需要更多的超参数:容忍度水平ε和KL散度半径δ。此外,令

(经验地,我们发现对x取平均而不是取上确界,在减少计算负担的同时并不影响算法的性能,这与文献中在离散时间TRPO中观察到的情况类似。)

实验

LQ stochastic control

考虑一个由具体线性动力学和二次奖励的SDE驱动环境。线性二次(LQ)控制问题不仅因为具有优雅简单的解决方案,还因为它可以近似更复杂、非线性的问题。

将 CPO 和 CPPO 的性能与直接离散化时间,然后应用经典离散时间 PG 和 PPO 算法的方法进行了比较。实验表明,我们提出的 CPO 和 CPPO 在样本效率方面具有可比性,并且在许多情况下,它们在各种时间离散化下优于离散时间算法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1027765.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【超图 SuperMap3D】【基础API使用示例】51、超图SuperMap3D - 绘制圆|椭圆形面标注并将视角定位过去

前言 引擎下载地址:[添加链接描述](http://support.supermap.com.cn/DownloadCenter/DownloadPage.aspx?id2524) 绘制圆形或者椭圆形效果 核心代码 entity viewer.entities.add({// 圆中心点position: { x: -1405746.5243351874, y: 4988274.8462937465, z: 370…

关于异业联盟模式做成小程序的可行性分析

随着移动互联网的快速发展,小程序作为一种轻量级应用,受到了越来越多企业和用户的青睐。而异业联盟模式则是一种有效的商业合作方式,能够实现资源共享、优势互补和共同发展。将异业联盟模式做成小程序,不仅可以提高用户体验&#…

Pytorch的hook函数

hook函数是勾子函数,用于在不改变原始模型结构的情况下,注入一些新的代码用于调试和检验模型,常见的用法有保留非叶子结点的梯度数据(Pytorch的非叶子节点的梯度数据在计算完毕之后就会被删除,访问的时候会显示为None&…

react-navigation:

我的仓库地址:https://gitee.com/ruanjianbianjing/bj-hybrid react-navigation: 学习文档:https://reactnavigation.org 安装核心包: npm install react-navigation/native 安装react-navigation/native本身依赖的相关包: react-nativ…

时序预测 | Matlab实现SSA-BP麻雀算法优化BP神经网络时间序列预测

时序预测 | Matlab实现SSA-BP麻雀算法优化BP神经网络时间序列预测 目录 时序预测 | Matlab实现SSA-BP麻雀算法优化BP神经网络时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现SSA-BP麻雀算法优化BP神经网络时间序列预测(完整源码和数据…

工业镜头常用参数之实效F(Fno.)和像圈

Fno. 工业镜头中常用到的参数F,有时候用F/#,Fno.来表示,指的是镜头通光能力的参数。它可用镜头焦距及入瞳直径来表示,也可通过镜头数值孔径(NA)和光学放大倍率(β)来计算。有效Fno.…

maven的依赖继承

先说一下创建子maven工程的步骤 继承 继承的作用:在父工程中,统一管理项目中的依赖信息,进行统一的版本控制 继承的背景是:对一个大型的项目进行了模块拆分,一个project下,创建了很多的module&#xff0c…

golang grpc和protobuf的版本降级问题(version4 -> version3)

最后更新于2024年3月28日 10:57:52 简中没查到类似的文章。一点小事闹麻了,搞了一天,特意发出来造福大家。 所谓的版本就是下面这个东西proto.ProtoPackageIsVersion4或者proto.ProtoPackageIsVersion3: 目的 为了适配旧代码&#xff0c…

linux shell命令(进程管理、用户管理)

一、进程的概念 主要有两点: 1.进程是一个实体。每一个进程都有它自己的地址空间,一般情况下,包括文本区域(text region)、数据区域(data region)和堆栈(stack region)…

百度智能小程序源码系统简洁版 SEO关键词排名推广优化 带完整的安装代码包以及搭建教程

移动互联网的快速发展,小程序以其轻量级、无需下载、即用即走的特点,迅速成为了各大平台争相推广的重要产品形态。百度智能小程序作为百度生态下的重要一环,凭借其强大的流量入口和丰富的功能组件,为开发者提供了广阔的创作空间。…

fastadmin学习05-开启debug以及配置

FastAdmin 框架提供了对 .env 环境变量配置的支持,并附带一个默认示例文件 .env.sample。在安装后,框架并不会自动启用 env 环境变量,需要手动将 .env.sample 复制为 .env 并进行配置。 如果不开启.env会读取database.php中的配置 下面测试…

基于单片机智能可控电源系统设计

**单片机设计介绍,基于单片机智能可控电源系统设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机智能可控电源系统设计的主要目标是实现电源的智能控制、监测和保护功能,以满足不同应用场景下…

计算机网络:物理层 - 信道极限容量

计算机网络:物理层 - 信道极限容量 实际信道中的数字信号奈式准则香农公式练习 实际信道中的数字信号 信号在传输过程中会受到各种因素的影响,如图所示: 这是一个数字信号,当它通过实际的信道后,波形会产生失真&#…

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement 相关链接:arXiv GitHub 关键字:LLM、Data Augmentation、Fine-tuning、NLP、Low-data Regime 摘要 预训练的大型语言模型(LLMs)目前是解决绝大多数自然语言处理任…

如何选择最适合Shopee店铺的支付方式?

Shopee平台为卖家提供了多元化的收款选项,包括了在线支付、虚拟账户余额支付以及线下支付方式。卖家在选择收款方式时,必须充分考虑到市场适应性这一关键因素。因为不同地区和不同国家的消费者对于支付方式有着不同的偏好和习惯,因此&#xf…

零基础入门数据挖掘系列之「特征工程」

摘要:对于数据挖掘项目,本文将学习应该从哪些角度做特征工程?从哪些角度做数据清洗,如何对特征进行增删,如何使用PCA降维技术等。 特征工程(Feature Engineering)对特征进行进一步分析&#xf…

AI+软件工程:10倍提效!用ChatGPT编写系统功能文档

系统功能文档是一种描述软件系统功能和操作方式的文档。它让开发团队、测试人员、项目管理者、客户和最终用户对系统行为有清晰、全面的了解。 通过ChatGPT,我们能让编写系统功能文档的效率提升10倍以上。 ​《Leetcode算法刷题宝典》一位阿里P8大佬总结的刷题笔记…

深入理解PHP+Redis实现分布式锁的相关问题

概念 PHP使用分布式锁,受语言本身的限制,有一些局限性。 通俗理解单机锁问题:自家的锁锁自家的门,只能保证自家的事,管不了别人家不锁门引发的问题,于是有了分布式锁。分布式锁概念:是针对多个…

通过Caliper进行压力测试程序,且汇总压力测试问题解决

环境要求 第一步. 配置基本环境 部署Caliper的计算机需要有外网权限;操作系统版本需要满足以下要求:Ubuntu >= 16.04、CentOS >= 7或MacOS >= 10.14;部署Caliper的计算机需要安装有以下软件:python 2.7、make、g++(gcc-c++)、gcc及git。第二步. 安装NodeJS # …

RegSeg 学习笔记(待完善)

论文阅读 解决的问题 引用别的论文的内容 可以用 controlf 寻找想要的内容 PPM 空间金字塔池化改进 SPP / SPPF / SimSPPF / ASPP / RFB / SPPCSPC / SPPFCSPC / SPPELAN  ASPP STDC:short-term dense concatenate module 和 DDRNet SE-ResNeXt …