200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 为什么L1正则化会有稀疏性?为什么L1正则化能进行内置特征选择?

为什么L1正则化会有稀疏性?为什么L1正则化能进行内置特征选择?

时间:2021-12-27 05:15:41

相关推荐

为什么L1正则化会有稀疏性?为什么L1正则化能进行内置特征选择?

# 个人认为,这两个应该是同一个问题。

首先给大家推荐一个比较直观地搞懂L1和L2正则化的思考,有视频有图像,手动赞!

/p/25707761

当然也推荐看看/jclian91/p/9824310.html

回到问题,为什么L1正则化会有稀疏性?先盗个图。

看右边那个图,可以发现L1正则化的黄色部分,其第一象限的斜率是固定的。要使得J(θ)在坐标轴之外的地方和L1正则化的框框相交,只有在J(θ)的长轴的斜率是-1的时候(为了方便说明,把J(θ)图像看做一个椭圆,可能只有两个参数的时候就是一个椭圆)。

不难发现,J(θ)的长轴的斜率是-1的情况是很少的,所以极大概率情况下他们的交点会存在于坐标轴上。对应有图也就是只有θ1发生做了作用。

说明:图中的情况虽然是为了说明,但并非特殊情况,其实黄色线条和蓝色线条相对位置绝大多是时候都是类似的。1、排除初始化为0的情况外,θ1和θ2不可能都为0;2、上面的那一段,长轴斜率是-1的概率很小。

在高维特征时,总之就是会出现很多正交来正交去的情况。可能出现上述链接中的例子:假设模型有100个系数,但是仅仅只有其中的10个是非零的,这实际上是说“其余的90个系数在预测目标值时都是无用的”。这10个特征就是我们所需要选择的特征。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。