公用池资源系统中的深度多主体强化学习
中的论文中的实验源代码。 该论文已被接受并发表在IEEE CEC 2019上。
介绍
在复杂的社会生态系统中,具有不同目标的多个代理机构采取的行动会影响系统的长期动态。 共同资产池是此类系统的子集,在这些系统中,财产权通常定义不清,先验性未知,因此造成了社会困境,这是众所周知的公地悲剧反映出来的。 在本文中,我们研究了在公共资源池系统的多主体设置中进行深度强化学习的功效。 我们使用了系统的抽象数学模型,表示为部分可观察到的一般和马尔可夫博弈。 在第一组实验中,独立主体使用具有离散动作空间的深度Q网络来指导决策。 但是,明显的缺点是显而易见的。 因此,在第二组实验中,具有连续状态和动作空间的深度确定性策略梯度学习模型指导了主体学习。 仿真结果表明,使用第二种深度学习模型时,代理商在可持续性和经济目标方面的表现均明显更好。 尽管代理商没有完全的预见力或对他
1