这是一篇论文,作者:陈前斌 谭颀 魏延南 贺兰钦 唐伦。 摘 要:针对面向混合能源供应的 5G 异构云无线接入网(H-CRANs)网络架构下的动态资源分配和能源管理问 题,该文提出一种基于深度强化学习的动态网络资源分配及能源管理算法。首先,由于可再生能源到达的波动性 及用户数据业务到达的随机性,同时考虑到系统的稳定性、能源的可持续性以及用户的服务质量(QoS)需求,将 H-CRANs网络下的资源分配以及能源管理问题建立为一个以最大化服务提供商平均净收益为目标的受限无穷时 间马尔科夫决策过程(CMDP)。然后,使用拉格朗日乘子法将所提CMDP问题转换为一个非受限的马尔科夫决策 过程(MDP)问题。最后,因为行为空间与状态空间都是连续值集合,因此该文利用深度强化学习解决上述 MDP问题。仿真结果表明,该文所提算法可有效保证用户QoS及能量可持续性的同时,提升了服务提供商的平均 净收益,降低了能耗。
1