200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > How to do Regularization?(如何正则化)(1)----吴恩达机器学习

How to do Regularization?(如何正则化)(1)----吴恩达机器学习

时间:2023-09-10 11:24:28

相关推荐

How to do Regularization?(如何正则化)(1)----吴恩达机器学习

How to do Regularization

1.引入1.1问题1.2结论2.进一步思考3.后继-如何选择合适的λ

上篇文章我们讨论了过拟合的问题,并提出了两种解决办法:1:减少参数个数;2:使用正则化的方法。这篇文章我们将简略的叙述如何实现正则化。

1.引入

1.1问题

假设房屋尺寸对房屋价格可以产生影响,我们选择拟合函数h(θ)=θ0+θ1x+θ2x2+θ3x3+θ4x4h(\theta)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4h(θ)=θ0​+θ1​x+θ2​x2+θ3​x3+θ4​x4拟合完后,画出图形,发现呈下面这个样子:

如蓝色的线所示。

显然,根据上一篇文章的定义,我们对其过度拟合了。直观地看,是因为加入了三次方项和四次方项使得发生了过拟合这个现象,根据正则化的思想,我们会保留所有的θ\thetaθ,为了减小过拟合带来的影响,想办法减小θ3\theta_3θ3​和θ4\theta_4θ4​的影响就很必须了。

很直观的想法,减小θ3\theta_3θ3​和θ4\theta_4θ4​的值,那么θ3\theta_3θ3​和θ4\theta_4θ4​对整体的影响自然会变小,曲线也会变得光滑起来。

我们可以这样做,将原代价函数min12m∑i=1m(hθ(xi)−yi)2min \frac{1}{2m}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2min2m1​i=1∑m​(hθ​(xi)−yi)2改为min12m∑i=1m(hθ(xi)−yi)2+1000θ32+1000θ42min \frac{1}{2m}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2+1000\theta_3^2+1000\theta_4^2min2m1​i=1∑m​(hθ​(xi)−yi)2+1000θ32​+1000θ42​这样操作之后,θ3\theta_3θ3​和θ4\theta_4θ4​的值变小了,我们达到了目的。

1.2结论

由上面的讨论,我们可以得到结论

减小θ0.θ1,...θn\theta_0.\theta_1,...\theta_nθ0​.θ1​,...θn​的值,我们会有

更简单的假设函数更不会趋于过拟合

2.进一步思考

如果参数过多,我们拟合时,发现需要的θ\thetaθ值过多,我们不能像上面的例子一样,看出哪一个θwhich\theta_{which}θwhich​减小后可以抑制过拟合的现象,我们采取的方法是把所有的θ\thetaθ全都减小。即把代价函数由原来的J(θ)=12m∑i=1m(hθ(xi)−yi)2J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2J(θ)=2m1​i=1∑m​(hθ​(xi)−yi)2改为J(θ)=12m∑i=1m(hθ(xi)−yi)2+λ∑i=1nθj2J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2+\lambda \sum_{i=1}^n\theta_j^2J(θ)=2m1​i=1∑m​(hθ​(xi)−yi)2+λi=1∑n​θj2​这样操作之后,显然,我们的曲线会变得光滑起来。

仔细观察上面的式子,参数λ\lambdaλ引起了我们的注意,显然设置一个合适的λ\lambdaλ值是很有必要的。

如果λ\lambdaλ值设置的过大,那么可能会有以下几种情况发生

算法工作的很好算法消除过拟合失败 成了欠拟合梯度下降无法收敛

直观地思考一下,如果λ\lambdaλ过大,算法成了欠拟合,会产生什么情况?显然,我们的θ1,θ2...θn\theta_1,\theta_2...\theta_nθ1​,θ2​...θn​值过小,起到最主要作用的,反而成了θ0\theta_0θ0​,也就是说,我们的拟合曲线趋近于一条直线。

3.后继-如何选择合适的λ

下一篇文章,我们将讨论这个问题。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。