200字范文 > 【论文笔记】基于强化学习的连续型机械臂自适应跟踪控制

【论文笔记】基于强化学习的连续型机械臂自适应跟踪控制

时间：2024-05-11 17:13:32

文章目录

摘要关键词0 引言1 空间连续型机器人动力学模型1.1 场景假设(1) 环境假设(2) 模型假设1.2 公式分析2 空间连续型机器人滑模控制器3 基于强化学习的滑模控制器4 仿真校验5 结论

摘要

【针对问题】空间主动碎片清除操作中连续型三臂节机器人系统跟踪

【提出方法】一种基于强化学习的自适应滑模控制算法（强化学习 + 滑模控制）

【具体内容】（1）基于数据驱动的建模方法，采用BP 神经网络对三臂节连续型机械臂进行建

模；（2）神经网络作为预测模型指导强化学习实时调节所提出滑模控制器的控制参数，从而实现连续型机器人运动的实时跟踪控制。

【得出效果】高精度、更低的超调量和更短的调节时间

关键词

空间连续型机器人；强化学习；预测控制；滑模控制；轨迹跟踪；

0 引言

【问题背景】

（1）逐渐增多的空间碎片对在轨航天器构成了重大的威胁 →\rightarrow→ 空间主动碎片清除技术的重要性；

（2）连续型机械臂具有占用空间小，柔软灵活等特点→\rightarrow→ 通过主动变形在有限的工作空间内完成复杂的动作 →\rightarrow→ 呈现出高度非线性的动力学特征 →\rightarrow→传统建模方法在参数摄动、外部干扰等不确定因素下性能表现差

【前人研究】

（1）基于神经网络的建模及控制方法：

不足之处：由于拟合模型的精度依赖于监督数据的完备性，导致模型仍不可避免的会受到过拟合问题的影响 + 开环控制策略进一步限制运动轨迹

（2）模型预测控制方法：

不足之处：容易局部最优；不具有外部探索的能力 →\rightarrow→ 无法对外部的反馈信息做进一步处理；不能拓展到大型机器人中

（3）将深度强化学习引入模型预测控制中滚动优化的奖励策略

【本文工作】

提出一种数据驱动的多层前馈神经网络模型；设计了变结构控制器；在双延迟深度确定性策略梯度算法的基础上，引入模型预测控制原理；

1 空间连续型机器人动力学模型

1.1 场景假设

(1) 环境假设

机器人已被送至碎片附近；位姿调整使得机械臂进入可以捕获碎片的范围内；末端装有用于实时监测的传感器 + 执行器；

(2) 模型假设

节盘与驱动线之间光滑无摩擦；柔性支撑处无外部碰撞各臂节变形服从等曲率假设

1.2 公式分析

广义坐标描述机器人运动：q=[α1,α2,α3]T\pmb{q}=[\alpha_{1},\alpha_{2},\alpha_{3}]^{T}qq=[α1,α2,α3]T

当前臂节 iii 对应的局部坐标系相对于全局坐标系的转角：βi\beta_{i}βi

当前臂节 iii 对应的局部坐标系相对于全局坐标系的坐标：(xi,yi)(x_{i},y_{i})(xi,yi)

当前臂节 iii 的弯曲形变角度：αi\alpha_{i}αi

机器人系统动能TTT：

T=Td+Ts=12q˙TMq˙(1)T=T^{d}+T^{s}=\frac{1}{2} \dot{q}^{T}M\dot{q} \tag{1} T=Td+Ts=21q˙TMq˙(1)

Td→T^{d} \rightarrowTd→ 节盘动能；

Ts→T^{s} \rightarrowTs→ 柔性支撑动能；

M→\pmb{M} \rightarrowMM→ 机器人系统的质量阵；连续型机器人系统弹性力Qe\pmb{Q_{e}}QeQe对应的虚功：

δWe=−∫0l∫AEϵδϵdAds=−QeTδq(2)\delta W_{e}=-\int_{0}^{l} \int_{A} E\epsilon \delta \epsilon dAds=-Q_{e}^{T}\delta q \tag{2}δWe=−∫0l∫AEϵδϵdAds=−QeTδq(2)

E→E \rightarrowE→ 柔性支撑的弹性模量；

A→A \rightarrowA→ 截面面积；

l→l \rightarrowl→ 长度；

ϵ→\epsilon \rightarrowϵ→ 中性层的弯曲应变；

s→s \rightarrows→ 局部坐标系下弹性力作用点到原点的弧长；机器人系统驱动力Qa\pmb{Q_{a}}QaQa对应的虚功：

δWa=QaTδq(3)\delta W_{a}=Q_{a}^{T}\delta q \tag{3}δWa=QaTδq(3)系统的动力学方程：

Mq¨=−Qe+Qa+Qv(4)M\ddot{q} = -Q_{e}+Q_{a}+Q_{v} \tag{4}Mq¨=−Qe+Qa+Qv(4)

其中：Qv=−M˙q˙+(∂T∂q)TQ_{v}=-\dot{M}\dot{q}+(\frac{\partial T}{\partial q})^{T}Qv=−M˙q˙+(∂q∂T)Tf(t)f(t)f(t)表征外部干扰和建模误差的列向量：

f(t)=d(t)+△M0q¨+△C0qf(t)=d(t)+\triangle M_{0}\ddot{q}+\triangle C_{0}q f(t)=d(t)+△M0q¨+△C0q

2 空间连续型机器人滑模控制器

（对滑模控制不了解呜呜呜。。。

3 基于强化学习的滑模控制器

TD3介绍：

两个由 θQk(k=1,2)\theta^{Q_{k}}(k=1,2)θQk(k=1,2) 参数化的Critic网络 Q(s,a∣θQk)Q(s,a|\theta^{Q_{k}})Q(s,a∣θQk)；及一个由 θμ\theta^{\mu}θμ 参数化的Actor网络μ(s∣θμ)\mu(s|\theta^{\mu})μ(s∣θμ)；惩罚系数 ρ\rhoρ 通过滑动平均法更新目标网络参数：θ′=ρθ+(1−ρ)θ′\theta^{\prime}=\rho\theta+(1-\rho)\theta^{\prime}θ′=ρθ+(1−ρ)θ′始终选取两个Critic网络中的最小值，进行延迟策略更新；

引入随机噪声来进一步增加智能体探索环境的能力

产生问题：

传统强化学习的动作策略无法在短期内表现出明显的奖励差异每个时间步，不适合频繁调用此类非线性系统动力学方程，容易造成计算负担

解决问题：引入了数据驱动的学习方法

计算量小；不需要精确的动力学模型信息；可针对不同的环境采用对应的数据进行训练；具有良好的环境实时交互和迁移能力；适用于仿真计算及地面实验；

本文选用δ\deltaδ和kkk作为强化学习的自适应优化参数。