200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 读书笔记 - 多Agent强化学习下的自适应交通信号控制研究综述

读书笔记 - 多Agent强化学习下的自适应交通信号控制研究综述

时间:2023-06-12 14:25:21

相关推荐

读书笔记 - 多Agent强化学习下的自适应交通信号控制研究综述

《多Agent强化学习下的城市路网自适应交通信号协调配时决策研究综述》

系统地总结了多Agent强化学习协调机制的研究方法,详细地分析了国内外研究现状,并指出现有研究中存在的问题,在此基础上对未来研究进行了展望。

研究结果表明,既有研究主要针对规模较小的路网;存在维数灾难问题;强化学习与协调机制结合研究还不够深入;相关学习参数分析不够细致;仿真环境和情景现实性不强。

未来研究可以引入马尔科夫博弈提高决策协调性;嵌入混合交通流、公交优先等交通管理思想增强决策实用性;引入先验知识及其他学习技术加快学习速度;融入物联网、主动管理、大数据等前沿技术增加决策的实时性;与交通诱导等集成提升决策的系统性。

背景

(1)传统的交通信号配时决策方法不能适应实时多变的较大规模路网的交通流特征

传统的交通信号决策系统,如SCATS、TRANSYT和SCOOT需要建立复杂的交通模型,其不能充分处理过饱和交通状态;

传统的交通信号决策方法,如专家系统、模糊控制、神经网络、进化算法等在一定程度上不能适应实时多变的较大规模路网的交通流特。如模糊逻辑不能充分表示实时交通的不确定性,更适合孤立交叉口的交通信号配时决策。在大规模路网的交通信号配时决策下神经网络及遗传算法所需计算量大,优化参数难确定。

(2)多Agent强化学习更能适应城市路网交通环境的变化

由于多Agent系统与城市交通控制系统在结构上、机理上具有很大的相似性,如自学习、交互式等。因此多Agent强化学习非常适合于解决分布式交通信号配时问题,并能适应城市路网交通环境的变化。

(3)引入协调机制能更有效地进行路网自适应交通信号配时决策

由于城市路网中各交叉口处的交通流是相互关联和影响的(特别是在较高饱和度交通条件下),各交叉口控制策略间存在博弈现象。因此为了更有效地进行多交叉口交通信号配时决策,有必要引入协调机制。

因此,融合多Agent强化学习和协调机制来进行路网自适应交通信号配时决策研究是多年来的一个热点问题。

多 Agent 强化学习及协调机制 研究方法分类

多Agent强化学习分类

共享多Agent强化学习:更多地强调如何利用分布式强化学习来提高学习速度;

基于对策的多Agent强化学习:必须满足两个性质——理性和收敛性;

最佳响应多Agent强化学习:着重研究在其他Agent采用某种策略的情况下,算法如何获得最优策略。

多 Agent 协调机制分类

显式协调:即协商,基于对策论的协商研究是多Agent协商研究的主要方法。

隐式协调中的社会规则(如交通管理与控制中的公交优先)等可以降低协调的费用,更可以体现多 Agent 系统的社会性,平衡个体利益与群体利益的矛盾。

国外研究现状

(1)强化学习算法

常用到的强化学习算法主要有:

Q-学习(如 Abdulhai等[9]、Arel等[14]、Ba⁃laji等[38]、Lu等[40])

类似Q-学习(如 Oliveira等[11])

修正Q-学习(如 Richter等[13]、Salkham等[15])

基于模型的Q-学习(如 Wiering[10])

SARSA(λ)(如Thorpe[39])

(2)强化学习要素

状态变量通常有两类:

车辆数类:如通向交叉口的路径车辆数和位置、排队长度、最近时间步总排队长度的变化;

时间类:如当前周期长度、当前相位持续时间、交叉口总延误、通向交叉口某一车道的延误等。

回报函数通常有两类:

车辆数类:如交叉口前等待的车辆数,最近时间步设法通过交叉口的车辆数与仍在等待的车辆数的差值、最近时间步总排队长度的变化等

时间类:如放行经过路网固定交通量所需的时间、连续决策点间发生的总延误、延误的减少值等。

动作选择方法常采用:

∈-Greedy(如 Thorp[39]、Wiering[10]、Lu等[40]、Balaji等[38]、Arel等[14]、Oliveira等[11])

Softmax(如 Abdulhai等[9]、Richter等[13]、Salkham等[15])

(3)相关研究

对于多Agent强化学习下的自适应交通信号配时决策,国外的研究主要集中在三个方面:

(1)应用于较小路网的自适应交通信号配时决策

现有多Agent强化学习在主干道的绿波带信号协调配时方面研究较深入,对于较大路网自适应交通信号配时决策还在不断探索之中。

Mannion等[7]提出将启发式预见性建议融入到强化学习中来进行单交叉口的交通信号配时决策,加快了学习收敛速度,减少了延误和排队长度,但对于推广到多交叉口的交通信号协调配时决策中还存在计算复杂性的问题。Prashanth等[8]提出了将Q-学习算法与函数估计相结合的交通信号配时决策方法,但采用了基于交通灯的状态描述方法,遭遇了由于状态选取不合理而产生的状态空间爆炸问题,此算法只能用于较小路网而不能应用到较大路网。

(2)基于完全状态表示强化学习的自适应交通信号配时决策

Abdulhai等[9]、Wiering[10]、Medina等[16]在自适应交通信号配时决策中应用强化学习时需要完全状态表示,但随着交叉口和车道的个数增加,其复杂性呈指数增长,于是就会遭受维数灾难问题,因此在中等大小的网络路网中也很难实现。

(3)基于独立强化学习的自适应交通信号配时决策

Oliveira等[11]:将强化学习应用扩展到多个交叉口,其能处理由于交通动态性而产生的随机交通模式问题,Mannion等[12]:将并行计算应用于交叉口之间的强化学习,但两者均强调各个交叉口之间进行独立学习。虽然在Medina等[6]、Richter等[13]、Arel等[14]、Salkham等[15]、Medina等[16]进行的自适应交通信号配时决策研究中分别考虑了相邻交叉口的状态、相对交通量、延误、拥挤水平等信息,但是这些方法没有包含任何外在协调机制

(4)引入协调机制

目前仅有少数学者如Wiering[10]、Kuyer等[17]、Alvarez等[18]在自适应交通信号配时决策中考虑了交叉口在学习过程中的协调机制。

Kuyer等【17】:在Wiering【10】研究的基础上使用协调图来考虑交叉口信号配时决策Agent间的外在协调机制,通过在相连的交叉口交通信号配时决策Agent间发送局部最优信息,利用Max-plus算法来估计最优联合控制方案。

Medina【16】:利用Max-plus算法来寻求全网的交通信号配时协调策略。但是,Max-plus算法对计算要求较高,并且其利用了基于模型的强化学习方法,相对于非模型的强化学习方法(如Q-学习)来说增加了不必要的复杂性,其仅仅适用于树形结构网络,对于一般的循环网络,它不能确保收敛到最优策略。

Alvarez等【18】、Clempnera等【19】:将每一交叉口看作非合作对策,利用马尔科夫决策过程为交叉口交通信号配时决策建模,在每一迭代过程中求得Stackelberbg平衡和Nash平衡,但其研究的是孤立交叉口。

国内研究现状

(1)路网自适应交通信号配时决策中强化学习与协调机制结合研究还不够深入

国内学者也已经意识到自适应交通信号配时决策中协调机制研究的重要性,但研究还不够深入。

现有交通系统和技术的交通信号配时协调机制通常应用在主干道的绿波带信号配时方面,而在允许交叉口间进行网络范围的协调方面应用还不够。

首艳芳等[20]:通过引入群体动力学来进行交叉口群协调控制机制研究,但未结合强化学习研究

谌永荣等[24]:研究了区域信号配时模型的非平衡交通分配算法,采用遗传算法来求解,但遗传算法存在早熟收敛、全局搜索能力不强的问题,从而无法快速找到最佳配时方案。

闫飞等[25]:研究了城市区域交通信号迭代学习控制策略,但未引入协调机制。

张邻等[26]:建立了基于动态信号配时的非线性规划模型,考虑了各路段机动车的流量特征,但主要针对单交叉口,没有考虑相邻交叉口的关联性。

Li等[36]:通过建立深度神经网络来学习强化学习的Q函数,但主要应用在单交叉口的交通信号配时决策中。

(2)路网交通信号配时决策中博弈思想的应用还处于起步阶段

目前,博弈论在交通领域中的应用大多集中在交通诱导和交通管理方面,而在交通信号配时决策中,博弈思想的应用还处于起步阶段。

较多学者在多Agent强化学习中尝试利用博弈论初步探讨了交叉口交通信号配时决策Agent间的协调机制。

马寿峰等[27]、赵晓华等[28]、朱铭琳等[29]:利用二人非零和合作型对策来进行交叉口间的信号协调控制,但假定交叉口交通信号配时决策Agent的效用值为公共知识,即完全信息假设;

杜荣华等[30]、李振龙等[31]:应用博弈论的Nash平衡理论建立了交叉口之间的交互模型并给出协调算法,但对各个交叉口间的交互约束关系没有进行研究;

李建明等[32]:通过引入演化博弈理论和选择机制来对单交叉口交通信号配时决策进行优化,但其研究的是孤立交叉口,没有推广至多交叉口。

马赞甫等[33]:利用斗鸡博弈来进行单交叉口的信号配时决策,但其没有引入强化学习,也没有考虑平衡策略的唯一性问题。由于博弈论中Nash平衡点具有不唯一性,利用博弈论来研究自适应交通信号配时决策都存在多个均衡控制策略问题,并且没有很好地解决此问题,从而也影响了协调性能。

问题

(1)交叉口交通信号配时决策 Agent 间缺乏协调机制,均衡策略不唯一

(2) 维数灾难问题

(3) 强化学习的参数选择

虽然强化学习在自适应交通信号配时决策研究中取得了很大进展,但主要针对强化学习算法本身的要素设计,而缺乏对一些学习参数对交通信号配时的性能影响的精细分析,如学习方法、交通状态表示、动作选择方法、交通信号相位方案、回报函数的定义、到达交叉口流量的变化等的定量评价分析

(4) 仿真环境和情景过于简单,不具有现实性

一些研究仅考虑简单仿真环境及假设的交通流,其并不一定能模拟现实的交通网络,缺乏对现实大规模的城市交通仿真网络的验证。

展望

(1)深入分析评价学习参数的影响,提高决策的动态性

对于学习参数对交通信号配时性能影响进行深入的定量评价分析,如学习方法比较 、交通状态表示比较、动作选择方法比较 (∈-Greedy vs. Softmax vs. ∈-Softmax)、交通信号相位方案比较(可变 vs. 固定)、回报函数的定义比较等。

(2)嵌入其他交通思想及要素

考虑混合交通流、司机驾驶行为、公交优先等的影响。如【41-43】

(3)提高协调机制性能

鉴于马尔科夫对策对建立多Agent系统协调模型具有较大的优势,可在此基础上引入博弈协调机制

引入深度强化学习求解博弈问题,如【44深度强化学习综述】

(4)引入集成

在系统层面上,与交通诱导、交通组织等集成,实现对城市交通系统的最佳管理和控制

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。