200字范文 > 【统计学】推断统计分析——根据样本统计量推断总体参数

【统计学】推断统计分析——根据样本统计量推断总体参数

时间：2019-03-18 00:42:06

本文总结了数据分析中用到的推断统计分析知识点，是自己学习参数估计和假设检验的学习笔记。

一、参数估计1. 点估计2. 区间估计2.1 中心极限定理2.2 程序模拟中心极限定理2.3 正态分布的特性2.4 程序检验正态分布的特性2.5 行业应用二、假设检验1. 相关概念2.假设检验的步骤3. Z检验3.1 适用场景3.2 Z统计量计算方式3.3 Z检验Python实现4. t 检验4.1 适用场景4.2 t 统计量计算方式4.3 t 检验Python实现

推断统计研究的是如何根据样本数据去推测总体特征的方法。进行推断的原因是在实际生产中，获取总体数据通常比较困难，甚至不可能完成，因此需要对总体进行抽样，通过样本统计量去估计总体参数。

一、参数估计

1. 点估计

就是用样本的统计量去代替总体参数。

优点：可以给出具体的估计值；

缺点：估计结果容易受到随机抽样的影响，无法保证结论的准确性。

2. 区间估计

根据样本统计量计算出一个可能的区间与概率。

优点：可给出合理的范围（置信区间）及信心指数（置信度）；

缺点：不能给出具体的估计值。

2.1 中心极限定理

如果总体（分布不重要）均值为 μ方差为σ2σ^2σ2，进行足够多次随机抽样，样本容量为n，当n增大时，样本均值近似服从正太分布X~N(μ，σ2σ^2σ2/n)。

结论：

1、多次抽样，每次抽样会得到一个均值，均值会围绕在总体均值左右，呈正太分布。

2、当样本容量n足够大（一般n>=30），样本均值服从正太分布。

1）样本均值构成的正态分布，其均值等于总体均值μ；

2）样本均值构成的正态分布，其标准差等于σ/n\sqrt nn；

注意：

1、样本均值的标准差，称为标准误差，简称标准误。

2、区分总体标准差σ，样本标准差（一次抽样获得的标准差），标准误差（样本均值构成的正太分布的标准差）。

2.2 程序模拟中心极限定理

import numpy as npimport pandas as pdimport seaborn as sns#定义总体数据#loc：均值；scale：标准差；size：数组大小，即数组中含有的元素个数all_ = np.random.normal(loc=30,scale=80,size=10000)#创建均值数组，用来存放每次抽样（每个样本）的均值mean_arr = np.zeros(1000)for i in range(len(mean_arr)):#随机抽样，size：样本容量；replace：是否为放回抽样，默认为Truemean_arr[i] = np.random.choice(all_,size=64,replace=False).mean()#样本均值构成正态分布，该正态分布的均值等于总体均值#标准差等于总体标准差/根号nprint('样本均值构成的正太分布的均值：',mean_arr.mean())print('样本均值构成的正太分布的标准差（标准误）：',mean_arr.std())print('偏度：',pd.Series(mean_arr).skew())sns.distplot(mean_arr)

样本均值构成的正太分布的均值： 30.653383960104826

样本均值构成的正太分布的标准差（标准误）： 9.918944517394578

偏度： 0.05852723907161612

2.3 正态分布的特性

1、以均值为中心，在1倍标准差内（ μ-σ，μ+σ），包含约68%的样本数据。

2、以均值为中心，在2倍标准差内（μ-2σ，μ+2σ），包含约95%的样本数据。

3、以均值为中心，在3倍标准差内（μ-3σ，μ+3σ），包含约99.7%的样本数据。

其中，σ为样本均值的标准差，即标准误差。

2.4 程序检验正态分布的特性

#标准差scale = 50x = np.random.normal(0,scale,size=100000)#定义标准差的倍数，倍数从1到3for times in range(1,4):y = x[(x > -times * scale) & (x < times * scale)]print(times,'倍标准差：',f'{len(y) * 100 / len(x)}%')

1 倍标准差： 68.392%

2 倍标准差： 95.499%

3 倍标准差： 99.734%

2.5 行业应用

参数估计在行业的应用，具体操作要根据实际场景来：

1、工业生产量的判断。

2、服务业投诉量是否改进判断。

3、电商业用户访问量、用户流失等评估。

4、金融、保险业风险评估。

二、假设检验

区间估计是通过正面方式，来计算总体参数的可能取值（区间）；而假设检验是从反正角度来判断，是接受原假设还是拒绝原假设。

1. 相关概念

1、小概率事件

小概率事件在一次试验中不会发生，一旦发生则拒绝原假设。

接受原假设，并不代表原假设一定是正确的，只是没有充分的证据去证明原假设是错误的，因此只能接受原假设。

2、P-Value与显著性水平

P-Value是支持原假设的概率，设定的阈值（α表示）为显著性水平，α通常选定为0.1、0.05、0.01，具体根据样本量选择，常选0.05。

3、原假设与备择假设

1）若是等值估计，等值选为原假设，不等选为备择假设；

2）在单边检验中，原假设为维持现状，改变现状为备择假设。

2.假设检验的步骤

1、设置原假设和备择假设；

2、设置显著性水平α（通常选择0.05）；

3、根据问题选择检验方式；

4、计算统计量，并通过统计量获取P值；

5、根据P值与α值，决定接受原假设还是备择假设。

3. Z检验

Z检验用来判断样本均值与总体均值是否有显著性差异。Z检验是通过正太分布理论来推断差异发生的概率，从而比较两个均值的差异是否显著。

3.1 适用场景

1、总体呈正态分布；

2、总体方差已知；

3、样本容量较大（一般>=30）

1和3满足其一即可，因为在样本容量很大时，样本均值近似呈正态分布。

3.2 Z统计量计算方式

x一把：样本均值；

μ0：待检测的总体均值；

σ：总体的标准差

n：样本容量

Z统计量含义：样本均值与总体均值的距离是几倍标准误差，如果大于1.96倍或小于-1.96倍，表示样本均值落在了拒绝域。

3.3 Z检验Python实现

from scipy import stats已知：样本 a = np.array([])，总体均值mean，总体标准差std样本均值：sample_mean = a.mean()标准误差：se = std / np.sqrt(len(a))Z统计量：Z = (sample_mean = mean) / seP值：P = 2 * stats.morm.sf(abs(Z))

4. t 检验

t检验用来判断样本均值是否与总体均值具有显著性差异，t检验是基于t分布的。

4.1 适用场景

1、总体呈正态分布；

2、总体方差未知；

3、样本数量较少（<30）

当样本容量>30，t分布接近正太分布

4.2 t 统计量计算方式

x一把：样本均值；

μ0：待检测的总体均值；

S：样本的标准差

n：样本容量

4.3 t 检验Python实现

已知：样本 a = np.array([])，总体均值mean样本均值：sample_mean = a.mean()样本标准差：sample_std = a.std()t统计量：(sample_mean - mean) / (sample_std / np.sqrt(len(a)))P值：2 * stats.t.sf(abs(t),df=len(a)-1)，df为自由度，

简单理解，自由度就是变量能够自由取值的个数，t分布的自由度为n-1

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。