200字范文 > (论文分析)基于深度强化学习方法的有效边缘学习激励机制设计

(论文分析)基于深度强化学习方法的有效边缘学习激励机制设计

时间：2023-01-01 11:13:07

论文题目：An Incentive Mechanism Design for Efficient Edge Learning by Deep Reinforcement Learning Approach（INFOCOM论文）

研究目的：提高边缘学习的学习效率，解决动态确定定价策略以最小化边缘学习开销的问题。

针对问题：如何在网络边缘设计激励机制实现有效的边缘学习

解决方案：研究了一种分布式ML方案，即边缘学习，其中训练模型被分发给在本地数据上执行训练任务的EN。设计了在动态环境中实施边缘学习的激励机制，该机制能够在延迟和支付之间进行权衡。由于网络动态和隐私保护，在边缘学习中，提出了一种算法，以实现支付和学习时间之间的理想折衷。本文提出的基于DRL的激励机制，可以在不知道动态网络中EN的先验信息的情况下，有效地学习聚合器的最优定价策略。每个EN不仅在动态计算环境中计算个人学习任务，而且还计划在时变网络环境中传输个人更新。

驻留在云中的单个聚合器，一组EN通过网元连接到聚合器，聚合器将通过奖励激励新用户使用更多计算资源参与边缘学习。在边缘学习系统中，ENs和聚合器协商相应的策略以最大化自身利益，即聚合器总成本最低、EN总效益最高。

在第k论迭代中最优解分析：试用单轮优化方法解决激励机制设计问题时，且证明了第k轮中存在最优策略且唯一的，算法2在第k轮中，聚合器首先给出价格，然后EN根据此价格确定其相应的计算资源策略。为了获得最优价格, 聚合器需要知道EN的私有信息。算法2用于在第k轮中能够获得最优解的聚合器和网络，在每轮中，每个EN首先与聚合器共享自己的信息。在聚合器接收到来自EN的私有信息后，确定其最优定价策略，但单轮优化方法中聚合器要获得EN的私有信息是有挑战性，算法2中定义的单轮优化方法总是会做出不适当的决策。当前的决策可能会对未来产生不利影响。

基于DRL的边缘学习系统：与使用基于模型的方法进行单轮优化不同，DRL努力根据当前状态和给定奖励，从过去的经验中学习一般行动决策。在第k轮，聚合器观察一个状态sk并选择一个操作pk。当此操作完成时，当前状态将传输到下一状态sk+1，聚合器将收到一个奖励rk。如果聚合器继续此过程直到达到预期精度，它将在每次操作完成后获得累计奖励。DRL的目标是找到一个最佳策略π，将一个状态sk映射到一个动作pk，该动作pk可以最大化预期的折扣累积回报。

算法3说明了所提出的基于DRL的学习机制的总体工作流程。在学习之前，聚合器初始化其状态s0和学习参数（第1行）。在边缘学习任务的第k轮训练中，聚合器首先通过将其状态sk作为参与者πθ（第7行）的输入来确定其价格剖面pk。然后，EN将根据（13）（第8行）确定其CPU周期频率贡献曲线δk。然后，EN从聚合器下载全局ML模型，并通过自己的训练数据更新ML模型（第9行）。EN完成本地模型训练并上传本地ML模型参数（第10行）后，聚合器将通过聚合分布式ML模型（第11行）来更新全局训练模型，并计算其奖励rk（第12行）。最后，聚合器将更新其状态（第13行），并将状态、动作和奖励信息存储到回放缓冲区B中。给定输入sk，它将输出当前状态的估计累计奖励。

实验结果：

算法是收敛的，将本文的方法与两个基线进行比较。第一种是贪婪方法，它是一种启发式算法，贪婪地从重播缓冲区中选择一个回报最大的策略。第二种是随机的，聚合器在每轮中随机选择定价策略。基于DRL的方法实现了最低的成本，性能最佳，他也可以用于连续带宽变化的情况。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。