采用经验复用的高效强化学习控制方法
- 期刊名字:华南理工大学学报(自然科学版)
- 文件大小:
- 论文作者:郝钏钏,方舟,李平
- 作者单位:浙江大学控制科学与工程学系,浙江大学航空航天学院
- 更新时间:2022-04-06
- 下载次数:次
论文简介
使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.
论文截图
上一条:论资本逻辑的基本内涵
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。
热门推荐
-
C4烯烃制丙烯催化剂 2022-04-06
-
煤基聚乙醇酸技术进展 2022-04-06
-
生物质能的应用工程 2022-04-06
-
我国甲醇工业现状 2022-04-06
-
JB/T 11699-2013 高处作业吊篮安装、拆卸、使用技术规程 2022-04-06
-
石油化工设备腐蚀与防护参考书十本免费下载,绝版珍藏 2022-04-06
-
四喷嘴水煤浆气化炉工业应用情况简介 2022-04-06
-
Lurgi和ICI低压甲醇合成工艺比较 2022-04-06
-
甲醇制芳烃研究进展 2022-04-06
-
精甲醇及MTO级甲醇精馏工艺技术进展 2022-04-06