美文网首页
Applications of Deep Reinforceme

Applications of Deep Reinforceme

作者: 斑驳岁月再难觅 | 来源:发表于2020-04-22 23:25 被阅读0次

深度强化学习在通信和网络中的应用:一项调查
Applications of Deep Reinforcement Learning in Communications and Networking: A Survey - IEEE Journals & Magazine
[1810.07862] Applications of Deep Reinforcement Learning in Communications and Networking: A Survey
N. C. Luong et al., "Applications of Deep Reinforcement Learning in Communications and Networking: A Survey," in IEEE Communications Surveys & Tutorials, vol. 21, no. 4, pp. 3133-3174, Fourthquarter 2019.

摘要

本文提供了有关深度强化学习(DRL)在通信和网络中的应用的综合文献综述。
物联网(IoT)和无人机(UAV)网络等现代网络变得更加分散和自治。在这样的网络中,网络实体需要在本地做出决策,以在网络环境不确定的情况下最大化网络性能。
当状态和动作空间较小时,给定它们的状态,强化学习已被有效地用于使网络实体能够获得包括例如决策或动作的最佳策略。
但是,在复杂的大规模网络中,状态和动作空间通常很大,强化学习可能无法在合理的时间内找到最佳策略。
因此,已经开发了DRL,将强化学习与深度学习相结合,以克服该缺点。

在此调查中,我们首先提供从基本概念到高级模型的DRL教程。
然后,我们回顾了为解决通信和网络中出现的新问题而提出的DRL方法。
这些问题包括动态网络访问数据速率控制无线缓存数据分载网络安全性连接性保留,这些对5G及更高版本等下一代网络都很重要。
此外,我们介绍了DRL在流量路由资源共享数据收集中的应用。
最后,我们重点介绍了应用DRL的重要挑战,未解决的问题以及未来的研究方向。

INTRODUCTION

强化学习[1]是机器学习最重要的研究方向之一,在过去20年中对人工智能(AI)的发展产生了重大影响。强化学习是一个学习过程,在该过程中,代理可以定期做出决策,观察结果,然后自动调整其策略以实现最佳策略。但是,尽管这种学习过程已经收敛,但仍需要花费大量时间才能制定出最佳策略,因为它必须探索并获得整个系统的知识,从而使其不适用于大规模网络。因此,强化学习的应用在实践中非常有限。
最近,深度学习[2]被引入作为一种新的突破技术。它可以克服强化学习的局限性,从而为强化学习的发展开辟新纪元,即深度强化学习(DRL)。 DRL拥有深度神经网络(DNN)的优势来训练学习过程,从而提高了学习速度和强化学习算法的性能。
结果,DRL已在实践中的众多强化学习应用中被采用,例如机器人技术,计算机视觉,语音识别和自然语言处理[2]。DRL最著名的应用程序之一是AlphaGo,这是第一个计算机程序,它可以在全尺寸19×19板上无障碍地击败人类专业人员。

在通信和网络领域,DRL最近已被用作有效解决各种问题和挑战的新兴工具。尤其是,诸如物联网(IoT),异构网络(HetNets)和无人机(UAV)网络之类的现代网络在本质上变得更加分散,临时和自治。诸如IoT设备,移动用户和UAV之类的网络实体需要做出本地和自主决策,例如频谱访问,数据速率选择,发射功率控制和基站关联,以实现包括吞吐量在内的不同网络的目标最大化和能耗最小化。在不确定和随机的环境下,大多数决策问题可以通过所谓的马尔可夫决策过程(MDP)建模[4]。可以采用动态编程[5],[6]和其他算法(例如值迭代)以及强化学习技术来求解MDP。但是,现代网络规模庞大且复杂,因此技术的计算复杂度迅速变得难以控制。结果,DRL已经发展成为克服挑战的替代解决方案。

通常,DRL方法具有以下优点:

  • DRL可以获得复杂的网络优化解决方案。
    因此,它使现代网络中的网络控制器(例如基站)能够解决非凸和复杂的问题(例如,联合用户关联,计算和传输时间表),从而在没有完整而准确的网络信息的情况下获得最佳解决方案。
  • DRL使网络实体可以学习和建立有关通信和网络环境的知识
    因此,通过使用DRL,例如移动用户的网络实体可以在不知道信道模型和移动性模式的情况下学习最优策略,例如基站选择,信道选择,切换决策,缓存和卸载决策。
  • DRL提供自主决策
    使用DRL方法,网络实体可以进行观察并在本地之间以最少的信息交换或不进行信息交换的情况下获得最佳策略。 这不仅减少了通信开销,而且提高了网络的安全性和鲁棒性。
  • DRL显着提高了学习速度,尤其是在状态动作空间较大的问题中。
    因此,在大规模网络(例如具有数千个设备的IoT系统)中,DRL允许网络控制器或IoT网关动态控制用户关联,频谱访问以及为大量IoT设备和移动用户传输功率。
  • 通信和网络中的其他一些问题,例如网络物理攻击,干扰管理和泛洪数据,可以建模为游戏,例如非合作游戏。
    DRL最近被用作解决游戏的有效工具,例如,在没有完整信息的情况下找到纳什均衡。

尽管有一些与DRL相关的调查,但它们并不专注于通信和网络。例如,可以在[7]和[8]中找到DRL在计算机视觉和自然语言处理中的应用调查。此外,还有一些调查仅与使用“深度学习”进行联网有关。例如,在[9]中给出了无线网络机器学习的调查,但它并不专注于DRL方法。
据我们所知,没有一项调查专门讨论DRL在通信和网络中的应用。这促使我们通过DRL教程和有关DRL在解决通信和网络问题方面的应用的综合文献回顾进行调查。

深度强化学习在通信和网络中的应用分类

为了方便起见,本次调查的相关工作是基于通信和网络问题进行分类的,如图2所示。主要问题包括网络访问,数据速率控制,无线缓存,泛洪数据,网络安全性,连接保留,业务路由,以及数据收集。
同样,在图1(a)和1(b)中示出了针对不同网络和网络中不同问题的DRL相关作品的百分比。从图可以看出,大多数相关工作是针对蜂窝网络的。另外,与无线缓存和无线广播相关的工作比其他问题受到了更多的关注。

本文的其余部分安排如下。
第二节 介绍了强化学习的内容,并讨论了DRL技术及其扩展。
第三节 回顾了DRL在动态网络访问自适应数据速率控制中的应用。
第四节 讨论了DRL在无线缓存泛洪数据中的应用。
第五节 介绍了与DRL相关的网络安全性连接性保留工作。
第六节 考虑了如何在通信和联网中使用DRL与其他问题进行交易。
第七节 概述了重要的挑战未解决的问题以及未来的研究方向
第八节 总结全文。
表I列出了本文中常见的缩写词。
请注意,DRL由两种不同的算法组成,即深度Q学习(DQL)和策略梯度[10]。
特别是,DQL主要用于DRL相关作品。
因此,在本文的其余部分,我们互换使用“ DRL”和“ DQL”来指代DRL算法。

总结

本文对深度强化学习在通信和网络中的应用进行了全面的调查。
首先,我们概述了强化学习,深度学习和深度强化学习。
然后,我们介绍了各种深度强化学习技术及其扩展。
之后,我们提供了深度强化学习的详细评论,分析和比较,以解决通信和网络中的不同问题。 问题包括动态网络访问,数据速率控制,无线缓存,数据分载,网络安全性,连接性保留,业务路由和数据收集。
最后,我们概述了重要的挑战,未解决的问题以及未来的研究方向。

相关文章

网友评论

      本文标题:Applications of Deep Reinforceme

      本文链接:https://www.haomeiwen.com/subject/khhgihtx.html