以下是b站视频 朱政讲解的内容笔记:/video/av33603018
相关滤波分支
mosse
kcf
c-cot
ECO
深度学习分支
DLT SODLT
MDnet
SIAM FC
CFnet
DCFnet
FOLWTRACK
SIAMRPN
DASIAMRPN
数据集
DAVIS 视频分割的数据集
VID 视频目标检测的数据集
YOUTUBE BOUNDINGBOX 稀疏标注的检测跟踪数据集
用于训练基于深度学习的数据集
OTB-
VOT-
ECC 提出 常识跟踪数据集 TRACKINGNET OSUV
遇到的挑战
红色:无人机拍摄 数据集
黄色:高帧率数据集
蓝色:全景 数据集
绿色:常识跟踪的数据集
FlowTrack cvpr
不像大部分只用RGB
本文用到帧与帧丰富的运动信息
之前有用的光流信息,但是不充分,没有端到端训练
缺点:
端到端光流相关算法with提高特征表示和跟踪精度
时间空间注意力机制
本文提出:
本文也属于siam网络
1 总图:
将t-T帧到t-2帧通过flownet 得到光流信息
t-T帧 到t-2帧 映射到t-1帧
t-1帧得到自己的feature
自己的 t-1 frame的特征feature& 映射到的特征feature
通过 时间-空间注意力机制模块融合 得到φ(x)
t frame自己通过网络得到自己的特征φ(z)
φ(x)φ(z)送入相关滤波层cf层进行跟踪
高斯label监督
2 相关滤波跟踪
DCF目的就是通过正负样本得到系数f
f求解 可以转换为岭回归问题,频域求解,逆傅里叶变化频域变换倒时阈,降低计算复杂度
跟踪 φ(z)和f卷积得到最后的相应图R(z)
相应图最大点就是要跟踪的目标
为了将上述操作置于网络中,定义了loss函数,他是φ(z)φ(x)的函数
反向传播形式 :就是对 φ(z)φ(x)分别求偏导
将反向传播形式 作为网络中的一个
3 光流信息的映射和融合
光流信息编码了2个输出图之间的信息。
因此我们用光流信息把i帧的信息映射到t-1帧。
某个channel的映射操作定义下式:
求解它的反向传播形式作为网络中的一个层
这样有了当前帧自己的feature也有了之前帧映射到当前帧的feaeture
有了同一物体不同的表征形式,不同的视角,不同的形变,光照。
然后通过融合的形式增强特征表示和跟踪精度,具体来说本文采用了加权融合的形式。
接下来要求解融合系数
4 通过 空间-时间注意力机制来求解融合系数
首先是空间
空间注意力模块,解释了空间不同位置的权重,
余弦矩衡量特征之间相似度,然后通过SoftMax操作,得到空间attention的输出。
直观上来说如果我们认为映射特征和当前特征比较相似,就分配一个比较大的空间权重,否则分配一个比较小的权重。
存在问题:t-1帧自己跟自己余弦矩为1 ,最相似,权重最大。但是如果t-1自己这一帧质量不好,就会出现问题。
解决方法:添加一个时间注意力机制
再是时间注意力机制
上述空间,后面串联时间,时间帧上的特征进行重标定
采用了SEnet的网络
GLOBEL pooling , 几个FC ,得到T维向量,再与原来的输出相乘得到一个重标定的权重
下图发现,无遮挡权重高
部分遮挡权重小,验证时间注意力机制生效!
消融分析
no flow 无光流,baseline
fix flow 固定光流,不参与端到端训练
decay 时间空间注意力机制,衰减机制对特征融合
no_ta 只有空间注意力机制
FlowTr 完整
1fix flow表现不好还不如没有,原因的光流质量不够好,可能造成信号的波动
2 decay,no_ta, FlowTr 均有提升
3 融合帧数比较,发现6帧效果是最好的
将历史5帧映射到当前帧得到映射特征,当前帧自己特征,一共6帧
光流
上面是没有经过训练的光流,下面假如端到端训练
实验
右边是20像素precision
端到端 光流相关滤波跟踪框架
首个 光流+跟踪训练 放在一起