200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > (论文分析)基于深度强化学习方法的有效边缘学习激励机制设计

(论文分析)基于深度强化学习方法的有效边缘学习激励机制设计

时间:2023-01-01 11:13:07

相关推荐

(论文分析)基于深度强化学习方法的有效边缘学习激励机制设计

论文题目:An Incentive Mechanism Design for Efficient Edge Learning by Deep Reinforcement Learning Approach(INFOCOM论文)

研究目的:提高边缘学习的学习效率,解决动态确定定价策略以最小化边缘学习开销的问题。

针对问题:如何在网络边缘设计激励机制实现有效的边缘学习

解决方案:研究了一种分布式ML方案,即边缘学习,其中训练模型被分发给在本地数据上执行训练任务的EN。设计了在动态环境中实施边缘学习的激励机制,该机制能够在延迟和支付之间进行权衡。由于网络动态和隐私保护,在边缘学习中,提出了一种算法,以实现支付和学习时间之间的理想折衷。本文提出的基于DRL的激励机制,可以在不知道动态网络中EN的先验信息的情况下,有效地学习聚合器的最优定价策略。每个EN不仅在动态计算环境中计算个人学习任务,而且还计划在时变网络环境中传输个人更新。

驻留在云中的单个聚合器,一组EN通过网元连接到聚合器,聚合器将通过奖励激励新用户使用更多计算资源参与边缘学习。在边缘学习系统中,ENs和聚合器协商相应的策略以最大化自身利益,即聚合器总成本最低、EN总效益最高。

在第k论迭代中最优解分析:试用单轮优化方法解决激励机制设计问题时,且证明了第k轮中存在最优策略且唯一的,算法2在第k轮中,聚合器首先给出价格,然后EN根据此价格确定其相应的计算资源策略。为了获得最优价格, 聚合器需要知道EN的私有信息。算法2用于在第k轮中能够获得最优解的聚合器和网络,在每轮中,每个EN首先与聚合器共享自己的信息。在聚合器接收到来自EN的私有信息后,确定其最优定价策略,但单轮优化方法中聚合器要获得EN的私有信息是有挑战性,算法2中定义的单轮优化方法总是会做出不适当的决策。当前的决策可能会对未来产生不利影响。

基于DRL的边缘学习系统:与使用基于模型的方法进行单轮优化不同,DRL努力根据当前状态和给定奖励,从过去的经验中学习一般行动决策。在第k轮,聚合器观察一个状态sk并选择一个操作pk。当此操作完成时,当前状态将传输到下一状态sk+1,聚合器将收到一个奖励rk。如果聚合器继续此过程直到达到预期精度,它将在每次操作完成后获得累计奖励。DRL的目标是找到一个最佳策略π,将一个状态sk映射到一个动作pk,该动作pk可以最大化预期的折扣累积回报。

算法3说明了所提出的基于DRL的学习机制的总体工作流程。在学习之前,聚合器初始化其状态s0和学习参数(第1行)。在边缘学习任务的第k轮训练中,聚合器首先通过将其状态sk作为参与者πθ(第7行)的输入来确定其价格剖面pk。然后,EN将根据(13)(第8行)确定其CPU周期频率贡献曲线δk。然后,EN从聚合器下载全局ML模型,并通过自己的训练数据更新ML模型(第9行)。EN完成本地模型训练并上传本地ML模型参数(第10行)后,聚合器将通过聚合分布式ML模型(第11行)来更新全局训练模型,并计算其奖励rk(第12行)。最后,聚合器将更新其状态(第13行),并将状态、动作和奖励信息存储到回放缓冲区B中。给定输入sk,它将输出当前状态的估计累计奖励。

实验结果:

算法是收敛的,将本文的方法与两个基线进行比较。第一种是贪婪方法,它是一种启发式算法,贪婪地从重播缓冲区中选择一个回报最大的策略。第二种是随机的,聚合器在每轮中随机选择定价策略。基于DRL的方法实现了最低的成本,性能最佳,他也可以用于连续带宽变化的情况。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。