采用经验复用的高效强化学习控制方法 采用经验复用的高效强化学习控制方法

采用经验复用的高效强化学习控制方法

  • 期刊名字:华南理工大学学报(自然科学版)
  • 文件大小:
  • 论文作者:郝钏钏,方舟,李平
  • 作者单位:浙江大学控制科学与工程学系,浙江大学航空航天学院
  • 更新时间:2022-04-06
  • 下载次数:
论文简介

使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.

论文截图
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。