计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (30): 23-25.
周 彤1,洪炳镕1,朴松昊1,周洪玉2
ZHOU Tong1,HONG Bing-rong1,PIAO Song-hao1,ZHOU Hong-yu2
摘要: 强化学习是提高机器人完成任务效率的有效方法,目前比较流行的学习方法一般采用累积折扣回报方法,但平均值回报在某些方面更适于多机器人协作。累积折扣回报方法在机器人动作层次上可以提高性能,但在多机器人任务层次上却不会得到很好的协作效果,而采用平均回报值的方法,就可以改变这种状态。本文把基于平均值回报的蒙特卡罗学习应用于多机器人合作中,得到很好的学习效果,实际机器人实验结果表明,采用平均值回报的方法优于累积折扣回报方法。