效用驱动的Markov强化学习

doi:10.3778/j.issn.1002-8331.2009.04.012

计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (4): 42-44.DOI: 10.3778/j.issn.1002-8331.2009.04.012

效用驱动的Markov强化学习

韩伟

南京财经大学信息工程学院，南京 210046

收稿日期:2008-01-10 修回日期:2008-03-31 出版日期:2009-02-01 发布日期:2009-02-01
通讯作者: 韩伟

Markov reinforcement learning driven by utility

HAN Wei

College of Information Science，Nanjing University of Finance and Economics，Nanjing 210046，China

Received:2008-01-10 Revised:2008-03-31 Online:2009-02-01 Published:2009-02-01
Contact: HAN Wei

摘要/Abstract

摘要： 对智能体Q强化学习方法进行了扩展，讨论效用驱动的Markov强化学习问题。与单吸收状态相比，学习过程不再是状态驱动，而是效用驱动的。智能体的学习将不再与特定的目标状态相联系，而是最大化每步的平均期望收益，即最大化一定步数内的收益总和，因此学习结果是一个平均收益最大的最优循环。证明了多吸收状态下强化学习的收敛性，将栅格图像看作具有多个吸收状态的格子世界，测试了确定性环境下多吸收状态Q学习的有效性。

关键词: 强化学习, 智能体, Markov决策过程

Abstract: This paper puts forward an extended model of Q learning and discusses a utility-drive Markov reinforcement learning.Compared with learning algorithm with single absorbed states，the learning target is not a state but to maximize the averaged utilities of agent in each decision process.The learning result is always a circle which lets agent acquire maximal rewards.Convergence of Q-learning is proved and the simulations in image grids indicates the learning result is a circle.

Key words: reinforcement learning, intelligent agent, Markov decision process

韩伟. 效用驱动的Markov强化学习[J]. 计算机工程与应用, 2009, 45(4): 42-44.

HAN Wei. Markov reinforcement learning driven by utility[J]. Computer Engineering and Applications, 2009, 45(4): 42-44.

[1]	张鑫，张席. 优先状态估计的双深度Q网络[J]. 计算机工程与应用, 2021, 57(8): 78-83.
[2]	伍京华，吴学桥. 基于Agent的改进贴近度的多属性评价模型[J]. 计算机工程与应用, 2021, 57(5): 65-70.
[3]	王晓，唐伦，贺小雨，陈前斌. 基于深度强化学习的服务功能链多维资源优化[J]. 计算机工程与应用, 2021, 57(4): 68-76.
[4]	陈世明，林子朋，高彦丽，裴惠琴. 自适应耦合权重下的异质群体一致性研究[J]. 计算机工程与应用, 2021, 57(4): 231-235.
[5]	赖俊，魏竞毅，陈希亮. 分层强化学习综述[J]. 计算机工程与应用, 2021, 57(3): 72-79.
[6]	马志豪，朱响斌. 拟双曲动量梯度的对抗深度强化学习研究[J]. 计算机工程与应用, 2021, 57(24): 90-99.
[7]	李宝帅，叶春明. 深度强化学习算法求解作业车间调度问题[J]. 计算机工程与应用, 2021, 57(23): 248-254.
[8]	王军，曹雷，陈希亮，赖俊，章乐贵. 多智能体博弈强化学习研究综述[J]. 计算机工程与应用, 2021, 57(21): 1-13.
[9]	李振涛，冯元珍，王正新. 事件触发下多智能体系统固定时间二分一致性[J]. 计算机工程与应用, 2021, 57(21): 80-86.
[10]	成怡，郝密密. 改进深度强化学习的室内移动机器人路径规划[J]. 计算机工程与应用, 2021, 57(21): 256-262.
[11]	况立群，李思远，冯利，韩燮，徐清宇. 深度强化学习算法在智能军事决策中的应用[J]. 计算机工程与应用, 2021, 57(20): 271-278.
[12]	孔松涛，刘池池，史勇，谢义，王堃. 深度强化学习在智能制造中的应用展望综述[J]. 计算机工程与应用, 2021, 57(2): 49-59.
[13]	李浩，宁浩宇，康雁，梁文韬，霍雯. 针对文本情感转换的SMRFGAN模型[J]. 计算机工程与应用, 2021, 57(2): 170-176.
[14]	张荣霞，武长旭，孙同超，赵增顺. 深度强化学习及在路径规划中的研究进展[J]. 计算机工程与应用, 2021, 57(19): 44-56.
[15]	杨薛钰，陈建平，傅启明，陆悠，吴宏杰. 基于随机方差减小方法的DDPG算法[J]. 计算机工程与应用, 2021, 57(19): 104-111.

效用驱动的Markov强化学习

Markov reinforcement learning driven by utility

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics