200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 【论文阅读】基于强化学习的上下文感知的自适应路由变异方案

【论文阅读】基于强化学习的上下文感知的自适应路由变异方案

时间:2023-03-21 15:31:56

相关推荐

【论文阅读】基于强化学习的上下文感知的自适应路由变异方案

【论文阅读】基于强化学习的上下文感知的自适应路由变异方案

Context-Aware Adaptive Route Mutation Scheme:A Reinforcement Learning Approach

1. 摘要

1.1 问题背景

移动目标防御(MTD)是一种新兴的主动防御技术,可以降低漏洞被攻击的风险。

MTD技术介绍:使攻击面动态化,而不是通过监测,预防,监视,跟踪或补救威胁来防御不变的基础设施。主要技术包括系统随机化,受生物启发的MTD,动态网络配置等。

存在的问题:路由变异(RM)作为MTD的重要组成部分,在防御DDos攻击方面面临着几个问题:1)学习攻击行为不足,无法进行最优的变异选择;2)网络环境是时变的,RM在变异参数上也缺乏自适应能力

1.2 解决方法

提出了上下文感知Q学习算法(CQ-RM),通过学习攻击策略赖优化变异路径的选择,具体方法:

将四种具有代表性的攻击策略整合成一个统一的数学模型,并将多个网络约束形式化;考虑网络限制,将RM建模为了马尔可夫过程(MDP),为了寻找MDP的最优策略,开发了一种上下文估计机制,进一步提出了能够自适应调整学习速率和突变周期的CQ-RM方案,同时理论证明了CQ-RM算法的最优收敛性;最后,实验证明方法的有效性。

1.3 主要贡献

作者总结了文章的主要贡献在以下几方面:

考虑了实际情况,对多网络需求进行建模,将需求转换为多个网络约束,以保证路由变化的可行性;同时也将四种有代表性的攻击策略整合成统一的数学模型。将RM过程建模为多约束的马尔可夫过程,将当前流分布定位为状态,选择突变路径为动作;将选择最优突变路径的问题转化为MDP的最优策略,将攻击者的恶意行为作为环境的一部分。创新地提出了一个智能CQ-RM方法,设计了一种上下文估计机制准确地描述和分析网络情况,不同于直接运用Q学习算法,CQ-RM能够自适应地调节变异周期和学习速率减少网络负荷、加速学习收敛。从理论上分析了CQ-RM算法的复杂度和最优收敛性,并进行了仿真验证。

2. 模型及实验

本文中的MDP建模过程和一些细节就不多加叙述了,主要介绍重点几点,感兴趣的阅读原文/document/9377451

2.1 基于上下文感知的强化学习路由变异方案

CQ-RM方案存在两个循环,分别是学习周期感知周期。在每个时点,防御者选择一个可行的突变动作,然后根据攻击者的行为决定,将奖励和状态转换返回给防御者进行迭代学习,称为学习周期。上下文估计机制从防御者和环境中收集信息,然后输出威胁值来帮助调整学习速率和变异周期,称为感知周期

1、上下文估计机制

上下文估计机制的目的是分析上下文的可靠性,这取决于所选路由是否被攻击者破坏。在本文中上下文被视为当前网络情况,形式为四元组⟨Cta,Gta,Ctd,Gtd⟩\left\langle C_{t}^{a}, G_{t}^{a}, C_{t}^{d}, G_{t}^{d}\right\rangle⟨Cta​,Gta​,Ctd​,Gtd​⟩,分别代表着攻击成本和效益、防御成本和效益。

上下文值被描述为:

Ω(T)≜1T∑t=1T(∑i=1nϕt,i+∑i=1nc^t,ia−Ctd)(1)\Omega(T) \triangleq \frac{1}{T} \sum_{t=1}^{T}\left(\sum_{i=1}^{n} \phi_{t, i}+\sum_{i=1}^{n} \widehat{c}_{t, i}^{a}-C_{t}^{d}\right) \tag{1}Ω(T)≜T1​t=1∑T​(i=1∑n​ϕt,i​+i=1∑n​ct,ia​−Ctd​)(1)

其中,ϕt,i\phi_{t, i}ϕt,i​为iii节点在ttt时刻攻防效益,c^t,i\widehat{c}_{t, i}ct,i​为iii节点在ttt时刻估计攻击代价。CtdC_{t}^{d}Ctd​为路由变换的代价。为了在不受不完整信息影响的情况下提高上下文感知的准确性,我们将威胁值定义为上下文值的负导数:

K(t0)≜−Ω′(t0)=−lim⁡Δt→0Ω(t0+Δt)−Ω(t0)Δt(2)\mathcal{K}\left(t_{0}\right) \triangleq-\Omega^{\prime}\left(t_{0}\right)=-\lim _{\Delta t \rightarrow 0} \frac{\Omega\left(t_{0}+\Delta t\right)-\Omega\left(t_{0}\right)}{\Delta t} \tag{2}K(t0​)≜−Ω′(t0​)=−Δt→0lim​ΔtΩ(t0​+Δt)−Ω(t0​)​(2)

威胁值利用上下文值得趋势来表示上下文的可靠性。当K>0\mathcal{K} > 0K>0时,由于攻击者在攻击防御对抗中获利较大,可靠性较低。反之,当K<0\mathcal{K} < 0K<0时,由于防御者在攻防对抗中获利较大,可靠性较高。上下文估计机制的伪代码如算法1所示:

2、优化问题的扩展Q学习算法

与直接应用q学习不同,文中提出了一种扩展q学习算法,可以自适应地调整学习速率和变异周期

动态学习率模块

为了加快q学习的收敛速度,通过上下文估计机制调整学习速率。状态转换后的状态-动作价值函数更新过程可以如下表示:

Qt+1(S(t),A(t))=Qt(S(t),A(t))+αt(K)δ=(1−αt(K))Qt(S(t),A(t))+αt(K)[R(t)+γmax⁡A′Qt(S(t),A′)](3)\begin{aligned} Q_{t+1}(S(t), A(t))=& Q_{t}(S(t), A(t))+\alpha_{t}(\mathcal{K}) \delta \\ =&\left(1-\alpha_{t}(\mathcal{K})\right) Q_{t}(S(t), A(t))+\alpha_{t}(\mathcal{K})\left[\mathcal{R}(t)+\gamma \max _{A^{\prime}} Q_{t}\left(S(t), A^{\prime}\right)\right] \end{aligned} \tag{3}Qt+1​(S(t),A(t))==​Qt​(S(t),A(t))+αt​(K)δ(1−αt​(K))Qt​(S(t),A(t))+αt​(K)[R(t)+γA′max​Qt​(S(t),A′)]​(3)

其中,αt(K)\alpha_{t}(\mathcal{K})αt​(K)代表着动态学习率,取决于威胁值:αt(K)≜1/(1+e−K)τ\alpha_{t}(\mathcal{K}) \triangleq 1 /\left(1+e^{-\mathcal{K}}\right) \tauαt​(K)≜1/(1+e−K)τ,其中τ\tauτ是由多个时隙组成的时间持续时间。学习率α\alphaα确定新信息覆盖旧信息的速度,当路线上大部分的节点被攻击,学习率接近1,这指出防御者更关注于新信息。当路由中的大多数节点避免攻击时,α\alphaα应该更接近于0。这表明防御者将更关注旧信息。自适应突变周期模块

变异周期是影响防御表现的重要特征,短变异周期导致高额的网络负载,长周期将减少RM的影响。因此,确定突变周期的长度是在防御性能和网络开销之间的权衡。自适应突变周期模块的原理描述如下:

Np={τm,whenK>φlthClτm,whenK≤φlthandK>φhthChτm,whenK≤φhth(4)N_{p}= \begin{cases}\tau_{m}, & \text { when } \mathcal{K}>\varphi_{l}^{\text {th }} \\ \mathcal{C}_{l} \tau_{m}, & \text { when } \mathcal{K} \leq \varphi_{l}^{\text {th }} \text { and } \mathcal{K}>\varphi_{h}^{\text {th }} \\ \mathcal{C}_{h} \tau_{m}, & \text { when } \mathcal{K} \leq \varphi_{h}^{\text {th }}\end{cases} \tag{4}Np​=⎩⎪⎨⎪⎧​τm​,Cl​τm​,Ch​τm​,​whenK>φlth​whenK≤φlth​andK>φhth​whenK≤φhth​​(4)

其中,Cl\mathcal{C}_{l}Cl​和Cm\mathcal{C}_{m}Cm​为固定值。当威胁值较高时,突变周期变短。反之,当威胁值较低时,突变周期变长。文中是设计一个自适应突变周期模块,以减少网络开销。该自适应规则可根据实际实验数据设置多个参数。

RM的扩展q学习伪代码如图所示:

2.2 实验分析

防御表现

进行了一系列仿真,并将CQ-RM与I-RRM和Mutipath进行了比较:虽然在刚开始CQ-RM防御效果较弱,但随着自适应的学习防御效果明显好于其他两种防御方法。CQ-RM能够学习攻击策略,避免被攻击。

环境感知分析

上下文值是攻击-防御对抗过程中所有利润和成本的总和。

如下图红色虚线表示利润与成本之和为零。与红色虚线的对比可以间接反映出谁在攻防对抗中具有优势。

可以看出,攻击策略的上下文值都是先下降后上升的。这是由于进攻成功率的下降,使防守方在对抗中逐渐获得更多的利益。由于路由在很大程度上避免了攻击,节点攻击的上下文值只下降了一点点,然后迅速增加。在此基础上,用上下文价值的负导数来定义威胁值是合理的。

突变的性能开销

RM的成本主要包括网络开销和管理开销。因此,增加的网络性能开销是导致RM方案可用性较差的关键因素。考虑到每个时隙的突变会造成大量的资源消耗,提出的自适应突变周期模块可以减少学习过程中的资源消耗。

结果表明,自适应变异周期模块不会显著降低CQ-RM的防御性能,同时对CQ-RM的收敛时间影响较小。原因是上下文估计机制可以保证在相对安全的环境中不发生突变。

此外,如下图所示,突变的数量大幅减少,这意味着突变开销可以在很大程度上减少。

结果表明,节点攻击下突变数减少最多,经验攻击下突变数减少最少。由于经验攻击依赖于攻击历史,所以防御者必须多次采取变异动作使攻击者的知识背景无效。

网络表现

收敛表现

✔️网络安全研究小白,如有问题和建议,欢迎指正🥺

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。