200字范文 > 机器学习过拟合通过正则化解决过拟合问题

机器学习过拟合通过正则化解决过拟合问题

时间：2019-12-10 10:29:15

相关推荐

机器学习过拟合通过正则化解决过拟合问题

机器学习过拟合？从图像中看出显然不能，这种现象是就是过拟合（overfitting），而只用一次线性回归拟合的情况则是欠拟合。机器学习主要解决的问题是过拟合，虽然过拟合的模型能使样本误差总体很小，但是在新的样本上表现却很差，那么，机器学习过拟合？一起来了解一下吧。

机器学习中用来防止过拟合的方法有哪些?

在模型的评估与调整的过程中，经常会遇到过拟合与欠拟合芦漏的情况，如何有效的识别过拟合和欠拟合现象渣罩，并了解其中原因，有效的对模型进行调整。

知乎上看到一个机灵的回答，"你太天真了"：underfitting "；你想太多了"：overfitting，人的学习和机器学习是如此相似。过拟合就是模型对训练数据拟合呈现过当的情况，反映到评估指标上，就是训练集上表现好，但在测试集和新数据上表现差，总结来说就是模型泛化能力差，欠拟合是指模型在训练和预测时表现都不好，过拟合与欠拟合也可以用 Bias 与 Variance 的角度来解释，欠拟合会导致高 Bias ，过拟合会导致高 Variance，所以模型需要在 Bias 与 Variance 之间做出一个权衡。下图表示了模型过拟合和欠拟合情况。

如上图所示，我们理想的模型应该是低方差，低偏差的，但实际上方差和偏差是两个矛盾体，不可兼得，如下图所示，模型复杂度和方差偏差联系。

本文是作为个人学习总结，参考了很多大神的博客及文章资料，非喜勿喷，如有错误，恳请指正。

欠拟合和过拟合相比哪个好

防止过拟合的方法：

1，从模型&数据角度。

获取更多数据，你的模型可以存储很多很多的信息，这意味着你输入模型的训练数据越多，模型就越不可能发生过拟合。原因是随着你添加更多数据，模型会无法过拟合所有的数信拍旅据样本，被迫产生泛化以取得进步。

收集更多的数据样本应该是所有数据科学任务的第一步，数据越多滑凳会让模型的准确率更高，这样也就能降低发生过拟合的概率。

2，数据增强&噪声数据。

收集更多的数据会比较耗时耗力。如果没有时间和精力做这个，应该尝试让你的数据看起来更多元化一些。利用数据增强的方法可以做到这一点，这样模型每次处理样本的时候，都会以不同于前一次的角度看待样本。这就提高了模型从每个样本中学习参数的难度。

3，简化模型

即时你现在手中获贺者取了所有需要的数据，如果你的模型仍然过拟合训练数据集，可能是因为模型过于强大。那么你可以试着降低模型的复杂程度。

4，从训练过程角度。

大部分情况下，模型会首先学习数据的正确分布，然后在某个时间点上开始对数据过拟合。通过识别模型是从哪些地方开始发生转变的，那么就可以在过拟合出现之前停止模型的学习过程。和前面一样，通过查看随着时间推移的训练错误，就可以做到这一点。

机器学习中「正则化来防止过拟合」到底是一个什么原理？

过拟合是机器学习中的常见问题，它是指模型在训练数据集上表现良好，但是用于未知数据时性能不佳

如果一个模型出现了过拟合问题，我们也说此模型有高方差，这有可能是因为使用了相关数据中过多的参数，从而使得模型变得国于复杂。同样，模型也可能面临欠拟合（高偏差）问题。

如果我们多次重复训练一个模型，如使用训练数据集中不同的子集，方差可以用来衡量模型对特定样本实例预测的一致性。可以说模型对训练数据中的随机性是敏感的

相反，当我们在不同的训练数据集上多次重建模型时，偏差可以从总体上衡量预测值与实际值之间的差异;偏差并不是由样本的随机性导致的，它衡量的是系统误差

偏差-方差权衡就是通过正则化调整模型的复杂度。正则化是解决共线性（特征间高度相关）的一个很有用的方法，它可以过滤掉数据中的噪音，并最终防止过拟合

**由于过拟合本质是过多的特征被启用导致的，导致模型泛化性变差，所以防止过拟合要降低特征的数量，可以通过使w个数减少，问题就变成让W向量中项的个数最小化，方法就是让w变成或趋近于0，因为神芦向量中0元素对应的x是没有任何权重的。

L2范数是指向量各元素的平游改带方和然后求平方根。我们让L2范数的正则项最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别的哦

正则化背后的概念是引入额外的信息（偏差）来对极端参数权重做出惩罚。

机器学习系列（二十三）——过拟合和欠拟合问题

在模型评估与调整的过程中，往往会遇到“过拟合”和欠拟合现象，如何有效地识别“过拟合”和“欠拟合”现象，并有针对性地调数耐渗整模型，是不断改进机器学习模型的关键。

给定一个假设空间F，一个假设f 属于F，如果存在其他的假设f′ 也属于F, 使得在训练集上f 的损失比f′ 小，但在整个样本空间上f′ 比f 的损失小，那么就说假设f 过度拟合训练数据[Mitchell, 1997]。

根据大数定理可知，当训练集大小|D| 趋向于无穷大时，经验风险就趋向于期望风险。然而通常情况下，我们无法获取无限的训练样本，薯脊并且训练样本往往是真实数据的一个很小的子集或者包含一定的噪声数据，不能很好地反映全部数据的真实分布。经验风险最小化原则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高。这就是所谓的过拟合（Overfitting）。

过拟合问题往往是由于训练数据少和噪声以及模型能力强等原因造成的。

为了解决过拟合问题，一般在经验风险最小化的基础上再引入参数的正则化

（Regularization），来限制模型能力，使其不要过度地最小化经验风险。

通过正则化解决过拟合问题

过度拟合的问题通常发生在变量（特征）过多的时候。这种情况下训练出的方程总是能很好的拟合训练数据，也就是说，我们的代价函数可能非常接近于 0 或者就为 0。但是，这样的曲线千方百计的去拟合训练数据，这样会导致它无法泛化到新的数据样本中，以至于无法预测新样本价格。在这里，术语"泛化"指的是一个假设模型能够应用到新样本的能力野厅。新样本数据是指没有出现在训练集中的数据。

具体而言，我们可以人工检查每一项变量，并以此来确定哪些变量更为重要，然后，保留那些更为重要的特征变量。至于，哪些变量应该舍弃，我们以后在讨论，这会涉及到模型选择算法，这种算法是可以自动选择采用哪些特征变量，自动舍弃不需要的变量。这类做法非颂皮隐常有效，但是其缺点是当你舍弃一部分特征变量时，你也舍弃了问题中的一些信息。例如，也许所有的特征握绝变量对于预测房价都是有用的，我们实际上并不想舍弃一些信息或者说舍弃这些特征变量。正则化中我们将保留所有的特征变量，但是会减小特征变量的数量级（参数数值的大小θ(j)）。这个方法非常有效，当我们有很多特征变量时，其中每一个变量都能对预测产生一点影响。正如我们在房价预测的例子中看到的那样，我们可以有很多特征变量，其中每一个变量都是有用的，因此我们不希望把它们删掉，这就导致了正则化概念的发生。

以上就是机器学习过拟合的全部内容，4，从训练过程角度。大部分情况下，模型会首先学习数据的正确分布，然后在某个时间点上开始对数据过拟合。通过识别模型是从哪些地方开始发生转变的，那么就可以在过拟合出现之前停止模型的学习过程。和前面一样，

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。