基于强化学习的无线传感器网络路由协议研究
现有的临时路由协议基于节点之间链接的离散双峰模型:链接存在或断开。该模型通常仅将最新传输视为确定链路状态。不幸的是,该模型无法将由于干扰或拥塞而失败的传输与由于目标超出传输范围而失败的传输区分开。本文提出了一种基于连续(而不是离散)模型的网络中新的自组织路由协议。我们使用链接性能随时间的统计量度来表示链接的质量。
我们建议,这样的模型对于现实无线网络中的有效操作是必需的。
为了在具有可变质量链接的网络中定义最佳路由,我们将自组织路由建模为协作式强化学习问题。协作式强化学习描述了机器学习中的一类问题,其中代理试图通过反复试验和信息共享来优化其与动态环境的交互。我们为路由分配一个值,该值代表使用该路由的座席成本。因此,临时路由问题表示为路由值的优化。
我们的链接质量模型是一种统计模型,需要随着时间的推移收集数据。我们设计了一种学习策略,可收集有关可用路线及其链接质量的信息。该学习策略按需运行,仅针对正在使用的业务流收集信息,并与这些业务流的流量成比例地收集信息。该学习以在线方式完成:路由发现与数据包传递同时进行。
我们的学习策略大致基于群体智能的工作:那些设计受社会昆虫行为模型启发的系统。尤其是,我们将蚁群优化元启发式算法作为自组织路由学习问题的学习策略。在我们的协议中,协议路由的每个数据包都会导致网络路由策略的增量更改。我们发现,链路质量的连续模型在拥塞的多跳网络中非常有用。
双峰链路模型会将任何丢弃的数据包解释为指示节点移动性并触发整个网络的路由更新,而基于连续模型的路由协议则可以通过逐步调整其路由行为来响应丢弃的数据包。在NS-2中模拟的拥塞网络场景中,我们的协议在数据包传输率和路由流量方面的性能被发现优于AODV或DSR。
1