200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 统计学基础1- 描述性统计

统计学基础1- 描述性统计

时间:2023-10-03 12:17:52

相关推荐

统计学基础1- 描述性统计

文章目录

一. 统计学概述二. 集中趋势2.1 均值2.2 中位数2.3 众数2.4 均值、中位数、众数比较 三. 离散程度与方差及标准差3.1 离散程度的描述3.2 方差3.3 标准差 四. 图形化表示4.1 直方图4.2 箱线图4.3 茎叶图4.4 线图4.5 柱形图4.6 饼图 参考:

一. 统计学概述

统计学可以分为:

描述统计学

使用特定的数字或图表来体现数据的集中程度和离散程度。例: 每次考试的平均分,最高分,各个分段的人数等,也是属于描述性统计学的范围。

推断统计学

根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体合格率的一个估计。

统计学应用:

统计学的应用十分广泛,可以说,只要有数据,就有统计学的用武之地。目前比较热门的应用:经济学,医学,心理学等。

二. 集中趋势

例: 对于 1 2 3 4 5 ,你会使用哪个数字作为代表 ?

对于一组数据,如果只允许一个数字去代表这组数据,那么这个数字应该如何选择? - 选择数据的中心,即反应数据集中趋势的统计量。

均值:

算数平均值,描述平均水平

中位数:

将数据按照大小排列后位于正中间的数描述,描述中等水平

众数:

数据中出现最多的数,描述一般水平

2.1 均值

计算公式:

例: 某次数学考试中,小组A与小组B的成员的成绩分别如下:

A: 70,85,62,98,92

B: 82,87,95,80,83

分别求出两组的平均分,并比较两组成绩。

组A: (70+85+62+98+92)/5 = 81.4

组B: (82+87+95+80+83)/5 = 85.4

组B的平均分比组A高,就是组B的总体成绩比组A高。

2.2 中位数

顾名思义,中位数就是将数据按大小顺序(从大到小或从小到大都可以)排列后处于中间位置的数。

例1: 58,32,46,92,73,88,23

先排序 23,32,46,58,73,88,92找到处于中间位置数 58,有3个数比58大,有3个数比58小

例2:在例1的基础上, 多加一个数63,情况有何变化?

先排序 23,32,46,58,63,73,88,92找到处于中间位置数 58 和 63 两个若处于中间位置的数据有两个(也就是数据的总数是偶数的时候),中位数为中间两个数的算术平均值: (58+63)/2 = 60.5

原始数据中,有4个数比60.5 大,有4个数比60.5小

2.3 众数

众数是数据中出现次数最多的数(所占比例最大的数)

一组数据中,可能会存在多个众数,也可能不存在众数。

例:

1 2 2 3 3 中的众数是 2 和 3

1 2 3 4 5 中没有众数

众数不仅适用于数值型数据,对于非数值型数据也同样适用

{苹果,苹果,香蕉,橙,橙,橙,桃}这一组数据,没什么均值中位数可言,但是存在一个众数-橙。

2.4 均值、中位数、众数比较

例:

两个公司的员工及薪资构成如下:

A: 经理1名,月薪100000;高级员工,15名,月薪10000;普通员工20名,月薪7500;

B: 经理1名,月薪20000;高级员工,15名,月薪11000;普通员工20名,月薪9000;

请比较两家公司的薪资水平。若只考虑薪资,你会选择哪一家公司?

均值:

A (1000000 + 1510000 + 207500)/36 = 11111.1

B (20000 + 000 + 159000)/36 = 10416.67

中位数:

A 7500

B 11000

众数:

A 7500

B 11000

若从均值去考虑,明显地A公司的平均月薪比B公司搞,但是A公司存在一个极端值,大大拉高了A公司的均值,这时只从均值考虑明显不太科学。

从中位数和众数来看,B公司的薪资水平比较高,若是一般的员工,选择B公司显得更加合理。

三. 离散程度与方差及标准差

3.1 离散程度的描述

比较下面两组数据:

A ---- 1 2 5 8 9

B ---- 3 4 5 6 7

两组数据的均值都是5,但是可以看出B组的数据与5更加接近。但是描述集中趋势的统计量不够,需要有描述数据的离散程度的统计量

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HRlSwhhq-1650854072437)(https://upload-images.jianshu.io/upload_images/2638478-ec827cc12ce3ca93.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

极差: 最大值 - 最小值,简单地描述数据的范围大小

A: 9 - 1 = 8;

B: 7 - 4 = 3

同样的5个数,A的极差比B的极差要大,所以也比B的要分散

但是只用极差这个衡量离散程度也存在不足

如: A ---- 1 2 5 8 9 B ---- 1 4 5 6 9

3.2 方差

在统计学上,更常使用方差来描述数据的离散程度----数据离中心越远越离散

其中 X i X_i Xi​表示数据集中第i个数据的值,μ表示数据集的均值

A---- 1 2 5 8 9

B---- 3 4 5 6 7

再对比数据A ---- 1 2 5 8 9 B----1 4 5 6 9的方差

样本方差和总体方差:

3.3 标准差

对于数据 1 2 5 8 9,前面求得这一组数据的方差是10。将10与原数据做比较,可以看出10比原数据都大,是否说明这一组数据十分离散呢??

但是方差与原数据的单位是不一样的,这样比较是无意义的。如果原数据的单位是m的话,那么方差的单位是 m 2 m^2 m2.

为了保持单位的一致性,我们引入一个新的统计量----标准差

标注差: σ = √ σ 2 σ = √σ^2 σ=√σ2,有效地避免了因单位平方而引起的度量问题

A---- 1 2 5 8 9

B---- 3 4 5 6 7

σ A = √ 10 σ_A= √10 σA​=√10

σ B = √ 2 σ_B= √2 σB​=√2

与方差一样,标准差的值越大,表示数据越分散

四. 图形化表示

某班40个学生某次数学测试成绩如下:

63,84,91,53,69,81,61,69,91,78,75,81,80,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77

对于这一组数字,你能看出什么呢?

或许先算一算,均值是77.05,标准差是10.8414。

在对了这两个数字后,你对这组数字又有了怎样的认识,对于该班这次的数学检测成绩如何评价呢??

原始数据太杂乱无章,难以看出规律性;只依赖数字来描述集中趋势和离散程度,让人难以对数据产生直观地影响,这时需要用到图表!

4.1 直方图

4.2 箱线图

4.3 茎叶图

4.4 线图

4.5 柱形图

柱形图和直方图的对比:

4.6 饼图

参考:

/article-4362-1.html

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。