统计推断:
抽样误差与标准误t分布参数估计假设检验
(递进关系)
总体推断
大数定律和中心极限定理
大数定律(Law of Large Numbers)
样本n越大,样本均值几乎必然等于总体均值
中心极限定理(Central limit Theorem)
当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布。
抽样误差与标准误
抽样误差
由个体变异产生的、抽样造成的样本统计量与总体参数的差别。原因:
抽样个体差异标准误(Standard Error,SE)
表示样本统计量抽样误差大小的统计量。计算公式:
标准差和标准误的区别:
t分布:
Z值转换公式:
用来将t分布转换为(0,1)z分布,又称为标准化,或者叫Z值标准化。
Z=(xi-x)/s,Z值用来判断哪些数值为异常值(Z值绝对值大于3为异常值,大于5为极端值)
t分布只有一个参数,即自由度v。当自由度不同时,曲线的形状不同;当自由度趋向无穷大时,t分布趋近标准正态分布。
t分布特征:
单峰分布,以0为中心,左右对称。
自由度v越小,则t值越分散,峰值越矮而尾部越翘。当v越大,越接近正态分布。
参数估计
定义:用样本统计量推断总体参数。
点估计(Point Estimation):用相应样本统计量直接作为总体参数的估计值。
区间估计(Interval Estimation):按预先给定的概率所确定的包含未知总体参数的一个范围。
注意:1)总体标准差是否已知,2)样本量n的大小。
总体标准差位置且样本量较小,按t分布估计。
样本量较大,按z分布估计。
置信度
T=1.65 对应90%的置信度
T=1.98 对应95%的置信度
T=2.58 对应99%的置信度
假设检验
假设检验思想和步骤:
基本思想:小概率反证法
利用小概率反证法思想,从问题对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后得到P值来判断。当P值小于预先设定的显著性水平a时,就属于小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果发生了,则有理由怀疑原假设H0,认为其对立面H1是成立的。
步骤
建立检验假设(H0、H1),确定显著性水平根据变量类型、统计推断的目的、是否满足特定条件等选择相应的检验统计量(t值、F值、Z值、卡方值)计算P值,与显著性水平对比
第一类错误:原假设H0正确,而检验结果把它否定了,叫做弃真错误。
第二类错误:原假设H0不正确,而检验结果把它肯定下来了,叫做取伪错误。
显著性水平 α:犯第一类错误的最大概率
假设检验是针对总体而言,而不是针对样本
H0和H1是相互联系,对立存在,二者缺一不可
H1直接反映了检验的单双侧,需要考虑有无差异还是差异的方向
双侧检验较为保守,是否定为单侧检验需结合专业知识来判断
例:
大规模调查表明,健康成年男子血红蛋白的均值为136.0g/L,现随机抽样调查某单位食堂成年男性炊事员25名,测得其血红蛋白均数121.0g/L,标准差48.8g/L。
问题:根据资料推论食堂炊事员血红蛋白均数是否与健康成年男子血红蛋白均数有显著差异?
问题:根据资料推论食堂炊事员血红蛋白均数是否与健康成年男子血红蛋白均数有显著差异?
总体均值与样本均值不同的原因:1)抽样误差导致的,2)本质差异产生的。
假设检验的目的:判断总体与样本量的差异是哪一种原因导致的。
步骤:
定义H0和H1:H0通常是定义两个变量直接按不存在相关性或者没有显著差异。选择合适的检验方法,计算统计量。根据统计量计算概率P值P值与显著性水平0.05对比,p<0.05,拒绝原假设H0,则接受研究假设H1;反之,p>0.05,则接受原假设H0,拒绝研究假设H1。