计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (15): 219-227.DOI: 10.3778/j.issn.1002-8331.1809-0134
陈建平,康怡怡,胡龄爻,陆悠,吴宏杰,傅启明
CHEN Jianping, KANG Yiyi, HU Lingyao, LU You, WU Hongjie, FU Qiming
摘要: 提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于:在经验回放过程中引入自模拟度量方法,通过计算样本之间的距离,选取低相似度的样本构造多样样本池,Agent的学习过程从多样样本池中选取样本学习,可有效避免浪费学习资源。实验包括在仿真房间模型上与Q-Learning算法的对比实验和与经典PID控制方法的对比实验。实验结果表明,所提出的并行算法有更快的学习速率和收敛速度,能更快地求解出最优策略,并拥有更高的运行效率。