200字范文 > 多项式回归过拟合模型泛化模型误差

多项式回归过拟合模型泛化模型误差

时间：2024-01-11 04:27:59

相关推荐

多项式回归过拟合模型泛化模型误差

很过数据是没有线性关系的==》非线性 =》多项式模拟非线性曲线
添加的特征是原来特征的线性组合==》解决非线性问题=》数据集升维 (PCA降维) 有时升维有时降维
=》x^2 x 虽然是同一特征但我们把它x^2当做是另一个特征

Pipeline 创建多项式回归：通过增加特征依然使用使用线性回归

多项式回归拟合非线性：
一个二次曲线 ==》过拟合 100次太复杂了训练集上好在验证集和测试集不好欠拟合 1次不够
学习狗的图片：
有眼睛的是狗：只学习一部分特征欠拟合
四爪眼睛 ... 斑点 :所有符合的基础上又加上了斑点斑点只是一部分狗才有可过拟合学出了斑点特征太细节的特征

泛化能力：由此及彼能力根据训练得到的曲线面对新的数据的能力
最终的模型最终能力不是拟合训练集而是更好的拟合测试集新数据 =》

train valitation test
欠拟合：训练测试上dou不好过拟合：训练上低测试上高
为了防止验证集中有极端数据防止关于验证集的过拟合 ==》交叉验证
评价模型准确度更加靠谱：
==》每次都要训练k个模型才确定一组参数比正常多耗时K倍

M个样本分为 m分用其中一份作为验证集其他用于训练
高偏差：模型太偏离原问题 ==》一些数据可能原本就不是线性的如果非要用线性拟合的话就容易高偏差》特征取得不好
我们假设数据是符合某个模型的一旦不符合极易出现高偏差 degree越小越简单 degree越大形状越奇怪引入的方差越大
高方差：泛化能力差 KNN 多依赖于数据==》非参数学习 k越小模型越复杂方差可能越大

偏差和方差是可以避免的不可避免的误差如数据中有噪音
偏差：
1.用名字预测成绩选取特征离目标是高度不相关的
2.欠拟合
方差：过拟合学习的过度分的太细
1.降低模型复杂度
2.过拟合可能学到的太多的噪音数据
3.增加样本量深度学习的条件是数据规模要足够的大不然不如简单地模型
4.使用验证集防止模型针对测试数据集过拟合

假设数据来源可靠特征明显 ==》机器学习算法主要考虑方差

模型正则化：系数越大曲线越陡峭==》让theta平方和小 theta0不在其中 theta0是截距

阿尔法是一个新的超参数=》决定theta平方和（尽可能小）占整的损失函数的多少

阿尔法=0相当于没有加入正则化==》阿尔法无穷大 MS额E比重就比较小此时的优化任务变为让每一个theta变小

我们要做的是要在预测准确度和让每个theta尽量小两件事之间做一个平衡

方法：

岭回归

LASSO回归

岭回归过分 =》阿尔法取值过大就变成是theta平方和最小 =》小到一定程度为零就成为了线性函数甚至平行于X轴
lasso回归：选择怎么表达theta最小上不一样有降维作用
因为不想像回归逐渐的走每个theta都是有数值的
lasso |x|导数 = x/|x| 非0即+-1沿着某一个方向一直走直到一个theta为零换方向继续直到直到最小值点
最后theta有可能很多维度上达到零（下面图有走的过程）