200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 数据分析之统计学(贾俊平)学习笔记一

数据分析之统计学(贾俊平)学习笔记一

时间:2020-11-10 11:38:42

相关推荐

数据分析之统计学(贾俊平)学习笔记一

第1章 导论

1.1 统计及其应用领域1.1.1 什么是统计1.1.2 统计的应用领域1.2 统计的数据类型1.2.1 分类数据、顺序数据、数值型数据1.2.2 观测数据和实验数据1.2.3 截面数据和时间序列数据1.3 统计中的几个基本概念1.3.1 总体和样本1.3.2 参数和统计量1.3.2 参数和统计量

1.1 统计及其应用领域

1.1.1 什么是统计

统计在许多领域都有应用。在日常生活中,我们也经常会接触到各种统计数据,比如,媒体报道中使用的一些统计数据、图表等。统计是处理数据的一门科学。综合的说,统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

数据收集也就是取得数据;数据处理是将数据以图表的形式展示出来;数据分析则是以适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。

数据分析所用的方法可分为描述统计方法推断统计方法描述统计研究的是数据收集、处理、汇总、图表描述、概括和分析等统计方法。推断统计是研究如何利用样本数据来推断总体特征的统计方法。

1.1.2 统计的应用领域

统计方法是适用于所有学科领域的通用数据分析方法,只要有数据的地方就会用到统计方法。

有人认为统计的全部目的就是让人看懂数据,其实这仅仅是统计的一方面,统计跟重要的功能是对数据进行分析,它提供了一套分析数据的方法和工具。数据分析的真正目的是从数据中找出规律,从数据中寻找启发,真正的数据分析事先是没有结论的,通过对数据的分析才能得出结论。

1.2 统计的数据类型

1.2.1 分类数据、顺序数据、数值型数据

按照所用的计量尺度不同,可以将统计数据分为分类数据、顺序数据、数值型数据。

分类数据是只能归于某一类的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。例如,人口的性别分为男,女两类。为了方便统计处理,对于分类数据可以用数字代码来表示各个类别,比如用1表示“男性”,0表示“女性”。

顺序数据是只能归于某一类有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。比如产品分为一等品、二等品、三等品,次等品。顺序数据也可以用数字代码表示,比如,一等品—1、二等品—2、三等品—3,次等品—4。

数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。现实中处理的大多数都是数值型数据。

分类数据和顺序数据说明的数据的品质特征,通常用文字来表述的,其结果均表现为类别,因而也可统称为定性数据品质数据;数值型数据说明的现象的数量特征,通常用数值来表现的,因此也可称为定量数据数量数据

1.2.2 观测数据和实验数据

按统计数据的收集方法,可将其分为观测数据和实验数据。

观测数据是通过调查和观测而收集到的数据,这类数据是在没有对事物人为控制下得到的,有关社会经济现象的统计数据几乎都观测数据。

实验数据则是在实验中控制实验对象而收集到的数据。比如对一种新药疗效的实验数据,自然科学领域的大多数数据都是实验数据。

1.2.3 截面数据和时间序列数据

按照描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。

截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况,比如我国各地区的国内生产总值数据就是截面数据。

时间序列数据是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况,比如—我国的国内生产总值数据就是时间序列数据。

1.3 统计中的几个基本概念

1.3.1 总体和样本

1.总体

总体是包含所有研究的全部个体(数据)的集合,它通常由所研究的一些个体组成。组成总体的每个元素称为个体,如在由多个企业构成的总体中,每个企业就是一个个体。

总体根据其包含的单位数目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的。比如,由若干个企业构成的总体就是有限总体。无限总体是指总体所包括的元素是无限的、不可数的。例如,在科学实验中,每个实验都可以看作总体的一个元素,而实验室可以无限进行下去的,由此实验数据构成的总体是无限总体。

总体分为有限总体和无限总体主要是为了判别在抽样中每次抽取是否独立。对于无限总体,每次抽取一个单位并不影响下一次的抽样结果,因此每次抽取可以看成是独立的。对于有限总体,抽取一个单位后,总体元素就会减少一个,前一次的抽样结果往往会影响第二次的抽样结果,因此每次抽取是不独立的。这些因素会影响到抽样推断的结果。

2.样本

样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称样本量。抽样的目的是根据样本提供的信息推断总体的特征。

1.3.2 参数和统计量

1.参数

参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。研究者所关心的参数通常有总体平均数μ\muμ(mu)、总体标准差σ\sigmaσ(sigma)、总体比例π\piπ(pi),等等。总体参数通常用希腊字母表示。

由于总体数据通常是不知道的,所以参数是一个未知的常数,因此才进行抽样,根据样本计算出的某些值去估计总体参数。

2.统计量

统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,所以统计量是样本的函数。研究者所关心的统计量主要有样本平均数x‾\overline {x}x(x-bar)、样本标准差s、样本比例p等。样本统计量通常用英文字母表示。

由于样本是已经抽出来的,所以统计量总是知道的。抽样的目的就是根据样本统计量去估计样本参数。比如用样本平均数(x‾\overline {x}x)去估计总体平均数(μ\muμ),等等。

1.3.2 参数和统计量

变量是说明现象某种特征的的概念,其特点是从一次观察到下一次观察结果会呈现出差异或变化。统计数据就是统计变量的某些取值。变量可以分为以下几个类型。

1.分类变量

分类变量是说明事务类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”。

2.顺序变量

顺序变量是说明事务有序类别的一个名称,其取值是顺序数据。如“产品等级”就是一个顺序变量,其变量值可以为“一等品”、“二等品”、“三等品”、“次等品”。

3.数值型变量

数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。如“产品产量”、“年龄”等都是数值型变量。数值型变量根据其取值不同,又可分为离散型变量和连续型变量。离散型变量只能取可数值的变量,它只能取有限个值,而且其取值都以整数位断开,可以一一列举,如“企业数”就是离散型变量。连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“年龄”、“温度”等都是连续型变量。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。