200字范文 > 为什么L1正则化会有稀疏性？为什么L1正则化能进行内置特征选择？

为什么L1正则化会有稀疏性？为什么L1正则化能进行内置特征选择？

时间：2021-12-27 05:15:41

# 个人认为，这两个应该是同一个问题。

首先给大家推荐一个比较直观地搞懂L1和L2正则化的思考，有视频有图像，手动赞！

/p/25707761

当然也推荐看看/jclian91/p/9824310.html

回到问题，为什么L1正则化会有稀疏性？先盗个图。

看右边那个图，可以发现L1正则化的黄色部分，其第一象限的斜率是固定的。要使得J(θ)在坐标轴之外的地方和L1正则化的框框相交，只有在J(θ)的长轴的斜率是-1的时候(为了方便说明，把J(θ)图像看做一个椭圆，可能只有两个参数的时候就是一个椭圆)。

不难发现，J(θ)的长轴的斜率是-1的情况是很少的，所以极大概率情况下他们的交点会存在于坐标轴上。对应有图也就是只有θ1发生做了作用。

说明：图中的情况虽然是为了说明，但并非特殊情况，其实黄色线条和蓝色线条相对位置绝大多是时候都是类似的。1、排除初始化为0的情况外，θ1和θ2不可能都为0；2、上面的那一段，长轴斜率是-1的概率很小。

在高维特征时，总之就是会出现很多正交来正交去的情况。可能出现上述链接中的例子：假设模型有100个系数，但是仅仅只有其中的10个是非零的，这实际上是说“其余的90个系数在预测目标值时都是无用的”。这10个特征就是我们所需要选择的特征。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。