200字范文 > 计算机视觉（CV）中HOG算法的主要步骤

计算机视觉（CV）中HOG算法的主要步骤

时间：2019-05-29 16:18:39

1 致谢

感谢网友zouxy09的介绍，

原文链接如下：

/20584.html

2 HOG算法介绍

方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。需要提醒的是，HOG+SVM进行行人检测的方法是法国研究人员Dalal在的CVPR上提出的，而如今虽然有很多行人检测算法不断提出，但基本都是以HOG+SVM的思路为主。

3 主要步骤

3.1 标准化gamma空间和颜色空间

为了减少光照因素的影响，首先需要将整个图像进行归一化。在图像的纹理强度中，局部的表层曝光贡献的比重较大，所以，这种压缩处理能够有效地降低图像局部的阴影和光照变化。因为颜色信息作用不大，通常先转化为灰度图。

3.2计算像素点的梯度

计算图像横坐标和纵坐标方向的梯度，并据此计算每个像素位置的梯度方向值；计算梯度不仅能够捕获轮廓，人影和一些纹理信息，还能进一步弱化光照的影响。

最常用的方法是：首先用[-1,0,1]梯度算子对原图像做卷积运算，得到X方向（水平方向，以向右为正方向）的梯度分量gradscal_x，然后用[1,0,-1]T梯度算子对原图像做卷积运算，得到Y方向（竖直方向，以向上为正方向）的梯度分量gradscal_y。然后再用以上公式计算该像素点的梯度大小和方向。

3.3 为每个细胞单元构建梯度方向直方图

第三步的目的是为局部图像区域提供一个编码，同时能够保持对图像中人体对象的姿势和外观的弱敏感性。

我们将图像分成若干个“单元格”，即文章中的cell，例如每个cell为6*6个像素。假设我们采用9个bin的直方图来统计这6*6个像素的梯度信息。也就是将cell的梯度方向360度分成9个方向块，如图所示：例如：如果这个像素的梯度方向是20-40度，直方图第2个bin的计数就加一，这样，对cell内每个像素用梯度方向在直方图中进行加权投影（映射到固定的角度范围），就可以得到这个cell的梯度方向直方图了，就是该cell对应的9维特征向量（因为有9个bin）。

像素梯度方向用到了，那么梯度大小呢？梯度大小就是作为投影的权值的。例如说：这个像素的梯度方向是20-40度，然后它的梯度大小是2，那么直方图第2个bin的计数就不是加一了，而是加二，即梯度大小就是投票（voting）的权值。

3.4把细胞单元组合成大的块（block），块内归一化梯度直方图

由于局部光照的变化以及前景-背景对比度的变化，使得梯度强度的变化范围非常大。这就需要对梯度强度做归一化。归一化能够进一步地对光照、阴影和边缘进行压缩，即把值的范围归一化到较为理想的范围内（这一点跟机器学习中参数的归一化十分类似）。

作者采取的办法是：把各个细胞单元组合成大的、空间上连通的区间（blocks）。这样，一个block内所有cell的特征向量串联起来便得到该block的HOG特征。这些区间是互有重叠的，这就意味着：每一个单元格的特征会以不同的结果多次出现在最后的特征向量中。我们将归一化之后的块描述符（向量）就称之为HOG描述符。

区间有两个主要的几何形状——矩形区间（R-HOG）和环形区间（C-HOG）。R-HOG区间大体上是一些方形的格子，它可以有三个参数来表征：每个区间中细胞单元的数目、每个细胞单元中像素点的数目、每个细胞的直方图通道数目。

例如：行人检测的最佳参数设置是：3×3细胞/区间、6×6像素/细胞、9个直方图通道。则一块特征区的特征数为：3*3*9。

3.5 收集HOG特征

最后一步就是将检测窗口中所有重叠的块进行HOG特征的收集，并将它们结合成最终的特征向量供分类使用。

3.6 检测器窗口及其上下文的设置

Dalal他们使用的检测窗口大小为64X128像素点；窗口周围包括了一个行人周围16像素点的间隔。

3.7 分类器

默认情况下，使用的是软化线性向量机；也可以使用高斯核向量机。

3.6 总结：那么一个图像的HOG特征维数是多少呢？

根据Dalal他们提出的HOG特征提取的过程：把样本图像分割为若干个像素的单元（cell），把梯度方向平均划分为9个区间（bin），在每个单元里面对所有像素的梯度方向在各个方向区间进行直方图统计，得到一个9维的特征向量，每相邻的4个单元构成一个块（block），把一个块内的特征向量联起来得到36维的特征向量，用块对样本图像进行扫描，扫描步长为一个单元。最后将所有块的特征串联起来，就得到了人体的特征。例如，对于64*128的图像而言，每16*16的像素组成一个cell，每2*2个cell组成一个块，因为每个cell有9个特征，所以每个块内有4*9=36个特征，以8个像素为步长，那么，水平方向将有7个扫描窗口，垂直方向将有15个扫描窗口。也就是说，64*128的图片，总共有36*7*15=3780个特征。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。