基于增强学习协商策略的研究及优化

计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (23): 44-46.

基于增强学习协商策略的研究及优化

孙天昊，邓俊昆，陈飞，朱庆生

重庆大学计算机学院，重庆 400030

出版日期:2012-08-11 发布日期:2012-08-21

Research on reinforcement learning negotiation strategy and its optimization

SUN Tianhao, DENG Junkun, CHEN Fei, ZHU Qingsheng

College of Computer Science, Chongqing University, Chongqing 400030, China

Online:2012-08-11 Published:2012-08-21

摘要/Abstract

摘要： 增强学习在电子商务中可以帮助Agent选择最优行动，并达成目标。在传统增强学习协商策略中，Agent一开始便进行大幅度的妥协，这是不合理的，与现实不符，降低了Agent的期望。通过期望还原率来还原Agent的真实期望，对协商策略进行优化；讨论了期望还原率的取值对协商过程的影响；通过实验验证了优化的协商策略在保证协商效率的同时，提高了协商解的质量。

关键词: 协商策略, 增强学习, 期望还原率

Abstract: Reinforcement learning can help negotiation agent to select its best actions and reach its final goal. Agent of traditional reinforcement learning negotiation strategy significantly compromises at the beginning of negotiation, which is irrational, loses touch with reality, and greatly reduces expectation of Agent. Expectation restoration rate is used to restore the true expectations of agent to optimize the negotiation strategy；the impact of value of expectation restoration rate on negotiation process is discussed; experimental results show that optimized negotiation strategy improves the quality of the negotiation result, while ensuring negotiation efficiency.

Key words: negotiation strategy, reinforcement learning, expectation restoration rate

孙天昊，邓俊昆，陈飞，朱庆生. 基于增强学习协商策略的研究及优化[J]. 计算机工程与应用, 2012, 48(23): 44-46.

SUN Tianhao, DENG Junkun, CHEN Fei, ZHU Qingsheng. Research on reinforcement learning negotiation strategy and its optimization[J]. Computer Engineering and Applications, 2012, 48(23): 44-46.

[1]	季挺，张华. 基于CMAC的非参数化近似策略迭代增强学习[J]. 计算机工程与应用, 2019, 55(2): 128-136.
[2]	陈春晓1，陈治亚1，2，陈维亚1. 基于多智能体增强学习的公交驻站控制方法[J]. 计算机工程与应用, 2015, 51(17): 8-13.
[3]	李健利，霍光磊，刘博，高勇. 使用案例推理的协商策略研究[J]. 计算机工程与应用, 2012, 48(8): 119-121.
[4]	郑明，王玲娟，蔚承建. 用多Agent系统分配具有启动成本的有限资源[J]. 计算机工程与应用, 2010, 46(4): 219-222.
[5]	孙天昊,朱庆生,李双庆,周明强. 一种优化的基于增强学习协商策略[J]. 计算机工程与应用, 2008, 44(30): 24-25.
[6]	修国明,张积滨,潘启树. 基于实例的POMDP问题的近似求解[J]. 计算机工程与应用, 2008, 44(29): 82-85.
[7]	刘国栋,杨宝庆. 多智能体的增强学习及其在RoboCup中的应用[J]. 计算机工程与应用, 2008, 44(23): 46-48.
[8]	姚慧,高承实,戴青,张徐. 一种基于树建模的自动信任协商策略[J]. 计算机工程与应用, 2008, 44(15): 127-130.
[9]	孙天昊朱庆生李双庆. 一对多协商协调策略[J]. 计算机工程与应用, 2007, 43(3期): 230-230.
[10]	杨克巍，张少丁，岑凯辉，谭跃进. 基于半自治agent的profit-sharing增强学习方法研究[J]. 计算机工程与应用, 2007, 43(15): 72-75.