机器学习中用样本之间的距离/相似度来表示样本差异,下面介绍几种常用的距离/相似度,顺便介绍一下L—P范数。
1.闽可夫斯基距离
L—P范数与闽可夫斯基距离的定义一样:
Lp=(∑1nxip)1p,x=(x1,x2,⋯,xn)Lp=({\sum\limits_{1}^n x_i^p})^{\frac{1}{p}},x=(x_1,x_2,\cdots,x_n)Lp=(1∑nxip)p1,x=(x1,x2,⋯,xn)
当p=1p=1p=1时,称为曼哈顿距离当p=2p=2p=2时,称为欧氏距离当p=∞p =\inftyp=∞时,称为切比雪夫距离,取各个坐标数值差的绝对值的最大值dij=maxk∣xki−xkj∣d_{ij}= max_k \ |x_{ki}\ - \ x_{kj}|dij=maxk∣xki−xkj∣
当ppp变化时,范数也有着不同的变化,三维空间中到原点距离小于一的点构成一个球体,即欧氏距离。
1.1L-0范数
对于L—0范数来说,他用来度量向量中非0元素的个数,表现形式为∣∣w∣∣0||w||_0∣∣w∣∣0,对于其优化问题min∣∣x∣∣0min||x||_0min∣∣x∣∣0
由于L0范数本身不容易有一个好的数学表示形式,给出上面问题的形式化表示是一个很难的问题,故被人认为是一个NP难问题。所以在实际情况中,L0的最优问题会被放宽到L1或L2下的最优化。而且p的范围是[1, inf)。p在(0,1)范围内定义的并不是范数,因为违反了三角不等式(||x+y|| <= ||x|| + ||y||)
1.2L-1范数
对于L—1范数来说,他用来度量向量中非0元素的绝对值之和,表现形式为∣∣w∣∣0||w||_0∣∣w∣∣0,对于其优化问题min∣∣x∣∣1min||x||_1min∣∣x∣∣1
L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。
由于L1范数的特殊性质,对L1范数的优化问题是一个稀疏解,利用L1范数可以实现特征的稀疏。
1.3L-2范数
L—2范数是最常见常用的范数,对于其优化问题min∣∣x∣∣1min||x||_1min∣∣x∣∣1
L2范数通常会被用来做优化目标函数的正则化项,防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。
1.4L-∞\infty∞范数
当P=∞P=\inftyP=∞时,也就是L−∞L-\inftyL−∞范数,它主要被用来度量向量元素的最大值。用上面的L-P定义可以得到的L−∞L-\inftyL−∞的定义为: Lp=(∑1nxi∞)1∞,x=(x1,x2,⋯,xn)Lp=({\sum\limits_{1}^n x_i^\infty})^{\frac{1}{\infty}},x=(x_1,x_2,\cdots,x_n)Lp=(1∑nxi∞)∞1,x=(x1,x2,⋯,xn)
通常情况下对于其优化问题:
∣∣x∣∣∞=max(∣xi∣)||x||_\infty=max(|x_i|)∣∣x∣∣∞=max(∣xi∣)
2.马哈拉诺比斯距离
马哈拉诺比斯距离简称马氏距离,其距离考虑到各个分量(特征)之间的相关性并与各个分量的尺度无关。
马氏距离定义如下:
dij=[(xi−xj)TS−1(xi−xj)]12d_{ij} = [(x_i\ - \ x_j)^TS^{-1}(x_i \ - \ x_j)]^\frac{1}{2}dij=[(xi−xj)TS−1(xi−xj)]21
当S为单位矩阵时,此时样本数据的各个分量互相独立且各个分量的方差为1时,马氏距离转变为欧氏距离。
3.相关系数
样本之间的相似度也可以用相关系数度量,相关系数越接近1,表示样本越相似,越接近0,表示样本差异性越大。
相关系数的定义为:
rij=∑k=1m(xki−x‾i)(xkj−x‾j)[∑k=1m(xki−x‾i)2∑k=1m(xkj−x‾j)2]12r_{ij}=\frac{\displaystyle \sum^{m}_{k=1}(x_{ki}-\overline{x}_i)(x_{kj}-\overline{x}_j)}{[\displaystyle \sum^{m}_{k=1}(x_{ki}-\overline{x}_i)^2 \displaystyle \sum^{m}_{k=1}(x_{kj}-\overline{x}_j)^2 ]^\frac {1}{2}}rij=[k=1∑m(xki−xi)2k=1∑m(xkj−xj)2]21k=1∑m(xki−xi)(xkj−xj)
其中:
x‾i=1m∑xki\overline{x}_i=\frac{1}{m}\displaystyle \sum x_{ki}xi=m1∑xki
x‾j=1m∑xkj\overline{x}_j=\frac{1}{m}\displaystyle \sum x_{kj}xj=m1∑xkj
4.夹角余弦
样本之间相似度也可以用夹角余弦来表示,夹角余弦越接近1,样本越相似。
sij=∑k=1mxkixkj[∑k=1mxki2∑k=1mxkj2]12s_{ij}=\frac {\displaystyle \sum^m _{k=1}x_{ki}x_{kj}}{[\displaystyle \sum^m _{k=1}x^2 _{ki}\displaystyle \sum^m _{k=1}x^2 _{kj}]^\frac{1}{2}}sij=[k=1∑mxki2k=1∑mxkj2]21k=1∑mxkixkj