200字范文 > 连续分布——正态分布卡方分布 t分布 F分布

连续分布——正态分布卡方分布 t分布 F分布

时间：2024-01-27 15:10:34

正态分布

某一地区的人群生长环境相似，我们随机选20个男性，量出他们的身高，近似地服从正态分布。

正态分布，即高斯分布，是自然界最常见的数据分布了。

用均值、标准差来确定一个正态分布概率密度图。比如N(-2,0.5)，就是均值为-2，标准差为0.5的正态分布。而N(0,1)称为标准正态分布。

这里给出R应用

//假设当在居民的身高正态分布均值为170cm，标准差为10，身高低于160的概率为pnorm(160,170,10)//0.1586553//身高在170~180之间的概率为pnorm(180,170,10)-pnorm(170,170,10)//0.8413447-0.5=0.3413447

中心极限定理

通常，由于总体过大，我们以样本为研究对象，并用样本的统计量估算总体的统计量。

比如，我们根据样本均值，估算出总体均值。

我们从总体中100取出多个样本，每个样本10条数据，取每个样本的均值，得到100个样本均值。当样本均值够多时，就会发现这些样本均值服务正态分布。取这个样本均值的正态分布的均值，理论上最接近总体均值了。这就是大数定理，即，中心极限定理。

抽样分布

上面提到的样本均值，算是一种样本统计量。

就是说，当我们在一个数据集中抽出多个样本时，这些样本的样本统计量会服从固定的抽样分布。

这样，我们只要看抽样分布与假定的总体分布差距大小，就知道总体分布的情况了。

常见的三大抽样分布：卡方分布、t分布、F分布，都是基于正态分布导出的，用来检验正态总体。

抽样检验

还是上面的人群身高的例子。假如那个地区的人们说自己当地男性的平均身高是170cm，但我们观察到的情况是低于170的人比较多，于是我们假设居民平均身高低于170cm，并来检验一下这个假设。

我们测量20男性的身高当作样本。已知总体身高服从正态分布，总体均值为170cm，我们只要用t分布来检验样本均值和总体均值差距是否大，就可以知道当在居民是否说谎了。

//样本数据h<-c(1.69,1.68,1.70,1.71,1.67,1.69,1.68,1.70,1.70,1.68,1.65,1.73,1.66,1.70,1.68,1.69,1.69,1.68,1.69,1.68);//做t检验。假设居民平均身高低于170cm，并来检验一下这个假设t.test(h,m=1.70,alternative = "less")

以下是t检验的输出结果

One Sample t-test
data: h
t = -3.2065, df = 19, p-value = 0.002323
alternative hypothesis: true mean is less than 1.7
95 percent confidence interval:
-Inf 1.694241
sample estimates:
mean of x
1.6875

从t检验结果可以看出：

样本均值为1.6875。

在t分布图上，t值-3.2065对应的概率p值为0.002323。使用0.005的显著性水平的话，由于p值小于显著性水平，表明假设错误的概率很低。可以说，平均身高应该是低于170cm的，且估计错误的概率低于0.005。

检验模式

上面的例子我们使用了单尾检验模式中的less，即假设总体均值小于170cm。还有两种模式：greater、two-side，分别表示样本均值大于总体均值，不等于总体均值。

这里看下R代码

//假设居民平均身高高于170cm，并来检验一下这个假设t.test(h,m=1.70,alternative = "greater")

One Sample t-test
data: h
t = -3.2065, df = 19, p-value = 0.9977
alternative hypothesis: true mean is greater than 1.7
95 percent confidence interval:
1.680759 Inf
sample estimates:
mean of x
1.6875

可以得出结果，由于t = -3.2065对应的p值没有小于显著水平0.005，假设不成立。

对比检验

上面例子是样本与总体预估均值的对比检验，接下看下两个样本之间的对比检验。

还是拿身高的例子来说，这里我们要研究饮用水源对身高的影响，选了相同地区两村子的居民做样本来研究。一个村子喝地下水，一个村子喝河水，分别测量20名男性身高，做对比。因为有人声称喝河水的民民普遍长的高，我们就来检验一下假设。

//喝地下水的居民身高h1<-c(1.69,1.68,1.70,1.71,1.67,1.69,1.68,1.70,1.70,1.68,1.65,1.73,1.66,1.70,1.68,1.69,1.69,1.68,1.69,1.68);//喝河水的居民身高h2<-c(1.69,1.69,1.70,1.71,1.67,1.68,1.68,1.70,1.70,1.68,1.64,1.73,1.66,1.71,1.68,1.69,1.69,1.68,1.67,1.69);//假设喝河水的居民比喝地下水的居民高t.test(h1,h2,alternative = "less")

Welch Two Sample t-test
data: h1 and h2
t = 0.085501, df = 37.536, p-value = 0.5338
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf 0.01036226
sample estimates:
mean of x mean of y
1.6875 1.6870

从检验结果来看，t = 0.085501在t分布图上对应的概率p为0.5338，没有低于显著水平0.05，假设不成立。