200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 机器学习笔记(通俗易懂)---监督学习介绍:分类与回归 泛化~过拟合与欠拟合(2)

机器学习笔记(通俗易懂)---监督学习介绍:分类与回归 泛化~过拟合与欠拟合(2)

时间:2019-02-16 17:52:12

相关推荐

机器学习笔记(通俗易懂)---监督学习介绍:分类与回归 泛化~过拟合与欠拟合(2)

机器学习笔记—监督学习介绍:分类与回归,泛化~过拟合与欠拟合(2)

明天开始就打数模美赛了,今天简单地介绍一下监督学习

以下都是本人在学习机器学习过程中的一些心得和笔记,仅供参考

文章目录

机器学习笔记---监督学习介绍:分类与回归,泛化~过拟合与欠拟合(2)明天开始就打数模美赛了,今天简单地介绍一下监督学习1.监督学习的介绍2.分类与回归2.1分类2.1.1分类问题的目标2.1.2分类问题的种类二分类多分类2.2回归2.2.1回归问题的目标2.2.2回归问题的举例2.3区分分类问题和回归问题3.泛化~过拟合与欠拟合3.1泛化3.2过拟合与欠拟合3.3小结

1.监督学习的介绍

监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。

想要根据给定输入预测某个结果,并且还有输入/输出对的示例时,即为监督学习这些输入/输出对构成了训练集,利用它来构建机器学习模型目标:对从未见过新数据做出准确的预测

2.分类与回归

监督学习主要有两类:分别是分类回归

接下来逐一介绍

2.1分类

2.1.1分类问题的目标

分类问题的目标是预测类别标签(class label),这些标签来自预定义的可选列表

举例来说:以鸢尾花数据集分类问题为例子,将新的鸢尾花分到三个可能的品种之一

2.1.2分类问题的种类

分类主要可以分为二分类问题多分类问题

**二分类(binary classification)😗*在两个类别之间进行区分的一种特殊情况**多分类(multiclass classification)😗*在两个以上的类别之间进行区分

二分类

你可以将二分类问题看作是尝试回答一道是/否问题

例如,将电子邮件分为垃圾邮件和非垃圾邮件就是二分类问题的实例,而在这个二分类任务中,要问的是/否问题为:这封电子邮件是垃圾邮件吗?

在二分类问题中,我们通常将其中一个类别称为正类(positive class),另一个类别成为反类(negative class)

这里的并不代表好的方面或正数,而是代表研究对象。

因此在寻找垃圾邮件时,可能指的是垃圾邮件这一个类别。

而将两个类别中的哪一个作为,往往是主观判断,与具体的领域有关。

例如图中的例子,根据已有标签的训练集数据,模型可以预测出哪些是鸭子,哪些不是鸭子,这就是一个简单的二分类问题!

再如知名机器学习平台Kaggle上面的入门级比赛——Titanic-ML,泰坦尼克号沉船事件,预测船上乘客是否遇难,也是一个二分类问题,当学习完基础监督学习模型后建议大家去尝试!

多分类

另一方面,鸢尾花的例子则属于多分类问题。

另一个多分类的例子是根据网站上的文本预测网站所用的语言。这里的类别就是预定义的语言列表。

2.2回归

2.2.1回归问题的目标

回归任务的目标是预测一个连续值,编程术语叫做浮点数,数学术语叫做实数

2.2.2回归问题的举例

根据教育水平,年龄和居住地来预测一个人的年收入,这就是回归的一个例子。

​ 在预测收入时,预测值是一个金额,可以在给定范围内任意取值。

回归任务的另一个例子是,根据上一年的产量,天气和农场员工数等属性来预测玉米农场的产量。同样,产量也可以任意取值。

2.3区分分类问题和回归问题

区分分类问题和回归问题有一个简单的方法,就是问一个问题:输出是否具有某种连续性

如果在可能的结果之间具有连续性,那么它就是一个回归问题。

想想预测年收入的例子,输出具有非常明显的连续性。

一年赚40000美元还是40001美元并没有实质差别,即使两者金额不同。如果我们的算法在本应预测40000美元时的预测结果是39999美元或40001美元,不必过分在意。

与此相反,对于识别网站语言的任务来说,并不存在成都问题。网站使用的要么是这种语言,要么是那种语言。在语言之间不存在连续性,在英语和发育之间不存在其他语言。

3.泛化~过拟合与欠拟合

3.1泛化

首先是泛化,在监督学习中,我们想要在训练数据上构建模型,然后能够对没见过的**新数据(这些新数据与训练数据具有相同特性)**作出准确预测。

如果一个模型能够对没见过的数据作出准确预测,我们就说它能够从训练集泛化测试集

通常来说,我们构建模型,使其在训练集上能够作出准确预测。如果训练集和测试集足够相似,我们预计模型在测试集上也能作出准确预测。不过在某些情况下这一点并不成立。例如,如果我们可以构建非常复杂的模型,那么在训练集上的精度可以想多高就多高。

总而言之

3.2过拟合与欠拟合

过拟合:构建一个对现有信息量来说过于复杂的模型,即在拟合模型过程中过分关注训练集的细节,得到一个在训练集上表现很好,但不能泛化到新数据的模型,就存在过拟合。欠拟合:构建一个过于简单的模型,无法抓住数据的全部内容以及数据中的变化,导致模型在训练集上的表现就很差。

希望上面两个图片能够帮助大家理解过拟合和欠拟合

下面举个例子

过拟合,对数据特征抓取十分突出,简单说就是过头了欠拟合,对数据特征抓取太少,简单说就是放弃太多的特征,导致无法拟合较好的模型

3.3小结

我们的模型越复杂,在训练数据上的预测结果就越好。但是,如果我们的模型过于复杂,我们开始过多关注训练集中每个单独的样本,模型就不能很好地泛化到新数据上!

二者之间存在一个最佳位置,可以得到最好的泛化性能,而这就是我们想要的模型。

有不懂得地方和问题请留言

大家可以收藏一下以后学习可能用得到

码字不易,希望大家能够点赞收藏关注

祝明天打数模美赛的hxd们比赛顺利,冲M,争F,O奖

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。