200字范文 > 【人工智能】机器学习西瓜书11——经验误差与过拟合模型评估的方法均方误差错误

【人工智能】机器学习西瓜书11——经验误差与过拟合模型评估的方法均方误差错误

时间：2019-09-24 05:13:11

机器学习——西瓜书从头读到尾11

一种训练集一种算法经验误差与过拟合模型评估的方法训练集测试集保留方法验证集性能测量均方误差错误率与精度查准率查全率最优阈值一个二分类(一张PR)n个二分类实现的多分类

我们按训练集预算法的关系进行划分。

一种训练集一种算法

经验误差与过拟合

误差: 学习器的实际预测输出与样本的真实输出之间的差异；比如一组数据 1,2,4,5.使用阈值3，将其分为两类。假设学习器的分类结果为 1和 2，4, 5 。但是实际的结果为1,2,和4,5，分错的2就是误差。经验误差：训练集的误差，也叫训练误差。相对于经验误差的，还有大家经常遇到的泛化误差，泛化误差是在新样本（测试集）的误差。过拟合：当学习器把训练样本学的“太好”了的时候，很可能已经把训练样本特点当作了潜在样本都会具有的一般性质，这会导致泛化性能下降。与过拟合相对的是“欠拟合”，这是指对训练样本的一般性质尚未学好。

模型评估的方法

训练集

测试集保留方法

留出法：三七或二八，但注意训练集测试集同分布，或多次随机划分训练多个模型取平均值k折交叉验证法：将训练集随机等分为k份，取其中一份为验证集评估模型，其余k-1份为训练集训练模型，重复该步骤k次，每次都取一份不同的子集为验证集，最终得到k个不同的模型（不是对一个模型迭代k次）和k个评分，综合这k个模型的表现（平均得分或其他）评估模型在当前问题中的优劣。

自助法：原数据集DDD是一个包含m个样本的数据集，通过自助法有放回的重复抽样m次，每次抽取1个数据，放到D′D'D′中，D′D'D′中也有mmm个样本，同时，原来的数据集D中不被D’包含的数据作为验证集。到底会有多少数据作为验证集呢？周老师给出了原数据集DDD一次也未被抽中的数据的概率为：

lim⁡m→∞(1−1m)m→1e≈0.368\lim\limits_{m \to \infty}(1-\frac{1}{m})^m \to \frac{1}{e}\approx0.368m→∞lim(1−m1)m→e1≈0.368理论状态下，验证集为0.368∗m0.368*m0.368∗m条数据

适用：数据集较小难以划分时。缺点：改变初始分布，引入估计误差。

验证集

调参用，调参难度大，很多参数人为规定，为了调参，常加一个数据集进行验证，训练及训练，验证集看结果，调参，再训练…

性能测量

均方误差

在预测任务中，给定样例集D=(x1,y1),(x2,y2),...,(xm,ym)D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}D=(x1,y1),(x2,y2),...,(xm,ym)中是示例xix_ixi的真实标记，要评估学习器fff的性能，就要把学习器预测结果f(x)f(x)f(x)与真实标记yyy进行比较

{均方误差：E(f:D)=1m∑i=1m(f(xi)−yi)2对于数据分布D和概率密度函数p(⋅):E(f:D)=∫x∼D(f(xi)−yi)2p(x)dx\left\{ \begin{aligned} & 均方误差：E(f:D)=\frac{1}{m}\sum\limits_{i=1}^m(f(x_i)-y_i)^2\\ &对于数据分布D和概率密度函数p(\cdot ):E(f:D)=\int_{x\sim D}(f(x_i)-y_i)^2p(x)dx \end{aligned} \right. ⎩⎪⎪⎪⎨⎪⎪⎪⎧均方误差：E(f:D)=m1i=1∑m(f(xi)−yi)2对于数据分布D和概率密度函数p(⋅):E(f:D)=∫x∼D(f(xi)−yi)2p(x)dx

错误率与精度

查准率查全率

查准率：P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP

你认为的好瓜里面真的是好瓜的比例。

查全率：R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP

我预测的里面好瓜占真正好瓜的比例

以查准率为纵轴、查全率为横轴作图，就得到

了查准率-查全率曲线，简称 “P-R曲线”

若一个学习器的 P-R 曲线被另一个学习器的曲线完全"包住 "，则可断言后者的性能优于前者。但往往学习器的 P-R 曲线发生了交叉难以断言两者孰优孰劣?在很多情形下，人们往往仍希望把学习器 A 与 B 比出个高低 . 这时一个比较合理的判据是比较 P-R 曲线节面积的大小，它在一定程度上表征了学习器在查准率和查全率上取得相对"双高"的比例.但这个值不太容易估算，因此人们设计了一些综合考虑查准率、查全率的性能度量。