200字范文 > 机器学习笔记（通俗易懂）---监督学习介绍：分类与回归泛化~过拟合与欠拟合(2)

机器学习笔记（通俗易懂）---监督学习介绍：分类与回归泛化~过拟合与欠拟合(2)

时间：2019-02-16 17:52:12

机器学习笔记—监督学习介绍：分类与回归，泛化~过拟合与欠拟合(2)

明天开始就打数模美赛了，今天简单地介绍一下监督学习

以下都是本人在学习机器学习过程中的一些心得和笔记，仅供参考

文章目录

机器学习笔记---监督学习介绍：分类与回归，泛化~过拟合与欠拟合(2)明天开始就打数模美赛了，今天简单地介绍一下监督学习1.监督学习的介绍2.分类与回归2.1分类2.1.1分类问题的目标2.1.2分类问题的种类二分类多分类2.2回归2.2.1回归问题的目标2.2.2回归问题的举例2.3区分分类问题和回归问题3.泛化~过拟合与欠拟合3.1泛化3.2过拟合与欠拟合3.3小结

1.监督学习的介绍

监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。

想要根据给定输入预测某个结果，并且还有输入/输出对的示例时，即为监督学习这些输入/输出对构成了训练集，利用它来构建机器学习模型目标：对从未见过的新数据做出准确的预测

2.分类与回归

监督学习主要有两类：分别是分类与回归

接下来逐一介绍

2.1分类

2.1.1分类问题的目标

分类问题的目标是预测类别标签（class label），这些标签来自预定义的可选列表

举例来说：以鸢尾花数据集分类问题为例子，将新的鸢尾花分到三个可能的品种之一。

2.1.2分类问题的种类

分类主要可以分为二分类问题和多分类问题

**二分类（binary classification）😗*在两个类别之间进行区分的一种特殊情况**多分类（multiclass classification）😗*在两个以上的类别之间进行区分

二分类

你可以将二分类问题看作是尝试回答一道是/否问题

例如，将电子邮件分为垃圾邮件和非垃圾邮件就是二分类问题的实例，而在这个二分类任务中，要问的是/否问题为：这封电子邮件是垃圾邮件吗？

在二分类问题中，我们通常将其中一个类别称为正类（positive class），另一个类别成为反类（negative class）。

这里的正并不代表好的方面或正数，而是代表研究对象。

因此在寻找垃圾邮件时，正可能指的是垃圾邮件这一个类别。

而将两个类别中的哪一个作为正，往往是主观判断，与具体的领域有关。

例如图中的例子，根据已有标签的训练集数据，模型可以预测出哪些是鸭子，哪些不是鸭子，这就是一个简单的二分类问题！

再如知名机器学习平台Kaggle上面的入门级比赛——Titanic-ML,泰坦尼克号沉船事件，预测船上乘客是否遇难，也是一个二分类问题，当学习完基础监督学习模型后建议大家去尝试！

多分类

另一方面，鸢尾花的例子则属于多分类问题。

另一个多分类的例子是根据网站上的文本预测网站所用的语言。这里的类别就是预定义的语言列表。

2.2回归

2.2.1回归问题的目标

回归任务的目标是预测一个连续值，编程术语叫做浮点数，数学术语叫做实数。

2.2.2回归问题的举例

根据教育水平，年龄和居住地来预测一个人的年收入，这就是回归的一个例子。

在预测收入时，预测值是一个金额，可以在给定范围内任意取值。

回归任务的另一个例子是，根据上一年的产量，天气和农场员工数等属性来预测玉米农场的产量。同样，产量也可以任意取值。

2.3区分分类问题和回归问题

区分分类问题和回归问题有一个简单的方法，就是问一个问题：输出是否具有某种连续性。

如果在可能的结果之间具有连续性，那么它就是一个回归问题。

想想预测年收入的例子，输出具有非常明显的连续性。

一年赚40000美元还是40001美元并没有实质差别，即使两者金额不同。如果我们的算法在本应预测40000美元时的预测结果是39999美元或40001美元，不必过分在意。

与此相反，对于识别网站语言的任务来说，并不存在成都问题。网站使用的要么是这种语言，要么是那种语言。在语言之间不存在连续性，在英语和发育之间不存在其他语言。

3.泛化~过拟合与欠拟合

3.1泛化

首先是泛化，在监督学习中，我们想要在训练数据上构建模型，然后能够对没见过的**新数据（这些新数据与训练数据具有相同特性）**作出准确预测。

如果一个模型能够对没见过的数据作出准确预测，我们就说它能够从训练集泛化到测试集。

通常来说，我们构建模型，使其在训练集上能够作出准确预测。如果训练集和测试集足够相似，我们预计模型在测试集上也能作出准确预测。不过在某些情况下这一点并不成立。例如，如果我们可以构建非常复杂的模型，那么在训练集上的精度可以想多高就多高。

总而言之：

3.2过拟合与欠拟合

过拟合：构建一个对现有信息量来说过于复杂的模型，即在拟合模型过程中过分关注训练集的细节，得到一个在训练集上表现很好，但不能泛化到新数据的模型，就存在过拟合。欠拟合：构建一个过于简单的模型，无法抓住数据的全部内容以及数据中的变化，导致模型在训练集上的表现就很差。

希望上面两个图片能够帮助大家理解过拟合和欠拟合！

下面举个例子

过拟合，对数据特征抓取十分突出，简单说就是过头了欠拟合，对数据特征抓取太少，简单说就是放弃太多的特征，导致无法拟合较好的模型

3.3小结

我们的模型越复杂，在训练数据上的预测结果就越好。但是，如果我们的模型过于复杂，我们开始过多关注训练集中每个单独的样本，模型就不能很好地泛化到新数据上！

二者之间存在一个最佳位置，可以得到最好的泛化性能，而这就是我们想要的模型。

有不懂得地方和问题请留言

大家可以收藏一下以后学习可能用得到

码字不易，希望大家能够点赞收藏关注

祝明天打数模美赛的hxd们比赛顺利，冲M，争F,O奖

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

机器学习笔记（通俗易懂）---监督学习介绍：分类与回归 泛化~过拟合与欠拟合(2)

机器学习笔记—监督学习介绍：分类与回归，泛化~过拟合与欠拟合(2)

明天开始就打数模美赛了，今天简单地介绍一下监督学习

文章目录

1.监督学习的介绍

2.分类与回归

2.1分类

2.1.1分类问题的目标

2.1.2分类问题的种类

二分类

多分类

2.2回归

2.2.1回归问题的目标

2.2.2回归问题的举例

2.3区分分类问题和回归问题

3.泛化~过拟合与欠拟合

3.1泛化

3.2过拟合与欠拟合

3.3小结

机器学习笔记（通俗易懂）---监督学习介绍：分类与回归泛化~过拟合与欠拟合(2)