推断性统计部分(一)—样本与分布的关系及其检验统计量
标签(空格分隔): 概率论与数理统计
统计除了可以描述随机变量特征之外,还有一个重要作用,推断!这也是为什么把统计分为描述性统计和推断性统计的原因,以我目前的理解,推断性统计的作用在于以小推大,以微观推宏观,不排除后续继续深入学习之后得出新的结论。
在我另一篇文章描述性统计(一)—-统计量中,写到过关于样本的一些统计量,在此基础上,增加样本与分布的关系。
样本平均值、样本方差、样本标准差、样本k阶矩、样本k阶中心距
样本平均值:X¯¯¯=1n∑ni=1Xi
样本方差:S2=1n−1∑ni=1(Xi−X¯)2
样本标准差:S=S2−−√=∑ni=1(Xi−X¯)2n−1−−−−−−−−−√
样本k阶(原点)矩:Ak=1n∑ni=1Xki,k=1,2,3,……
样本k阶中心矩:Bk=1n∑ni=1(Xi−X¯)k,k=1,2,3,……
首先知道两个定律:
大数定律:定理(服从具有期望值E(x)的同一个分布且相互独立的n个随机变量,在n足够大的时候,它们的算术平均值收敛于这一分布的期望E(x)),简单来说,就是当样本容量足够大的时候,样本均值就约等于总体均值。
中心极限定理:定理(有几个定理,不一一列出了),简单来说,就是当样本足够大的时候,从一个总体中抽出来的样本均值近似的服从N(μ,σ2n)的正态分布,其标准化变量X¯−μσ/n√~N(0,1)的标准正态分布。从几个总体中抽出来的各个样本均值之和服从N(∑μk,B2n)的正态分布,其标准化变量为Zn=∑nXk−∑nμkBn,其中B2n=∑nσ2k,一般来说,用到的都是从同一分布中抽取的数据,即同一分布的前提。
另外,有个工具可以帮助理解,在看可汗学院的统计学课程看到的,蛮有意思的一个中心极限定理检验工具【点击进入】,进去后点击左上角Begin开始就行,不会的看Instruction,注意启用JAVA
知道了这两个定理之后,再看样本及三大正态总体导出分布N、
介绍一下样本,它是我们从总体中抽样出来的一组观察值,各个观察值都是已知的具体量化数字,样本具有的统计量由上面给出,由大数定律可知道,样本的均值就是总体均值的无偏估计,但要注意,样本的方差是除以(n-1)而不是n,这样得出来的方差才是总体方差的无偏估计,我们经常以此来估计总体的方差,因为总体的均值及方差总是难以知道的。
从中心极限定理可以知道,无论原来的总体是什么鬼分布,通通不管,反正抓出来的样本就可以看作是正态分布,注意,样本数量需要足够,抓一个两个就没意思了是不。
正态分布及导出分布
统计量Z=X¯−μσ/n√,他可以用作区间估计的枢轴量,也可以用作假设检验中的检验统计量。Z检验就是检验这个统计量的值。
χ2分布,分布情况请见分布汇总1一文,它是由标准正态总体中,各随机变量的平方和组成(χ2(n)~x21+x22+…+x2n),它和样本的关系主要靠统计量(n−1)Sσ2∼χ2(n−1)来维持,主要用它来判断总体方差的置信区间,另外卡方分布还用于分布拟合(优度拟合)和独立性检验,这些以后再说。
χ2(n)是非对称关系的,在使用其表格时,需要注意,对于n比较大的,如>40,则可以通过χ2α(n)≈12(Zα+2n−1−−−−−√)2
t分布,也叫学生氏分布,它是标准正态分布除以卡方分布除以自由度n的商的平方根
F分布,它是两个卡方分布与自由度的商的比值,
F分布的分位点相对其它来说比较另类,它们互为倒数且自由度互换,即
以上是正态分布及其导出分布,主要记住各分布是怎么来的(即定义),是由什么分布和什么分布组成的,以后在各处地方都要用到它们的定义来组合分布。
*四大定理(非常重要)*
正态总体的样本均值与样本方差的分布
有来自正态总体N(μ1,σ21)的样本X1,X2…Xn,其均值为X¯,样本方差S2
下一节,参数估计
描述性统计部分(二)—-常用概率分布及用处简述 ↩