200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 连续分布——正态分布 卡方分布 t分布 F分布

连续分布——正态分布 卡方分布 t分布 F分布

时间:2024-01-27 15:10:34

相关推荐

连续分布——正态分布 卡方分布 t分布 F分布

正态分布

某一地区的人群生长环境相似,我们随机选20个男性,量出他们的身高,近似地服从正态分布。

正态分布,即高斯分布,是自然界最常见的数据分布了。

用均值、标准差来确定一个正态分布概率密度图。比如N(-2,0.5),就是均值为-2,标准差为0.5的正态分布。而N(0,1)称为标准正态分布。

这里给出R应用

//假设当在居民的身高正态分布均值为170cm,标准差为10,身高低于160的概率为pnorm(160,170,10)//0.1586553//身高在170~180之间的概率为pnorm(180,170,10)-pnorm(170,170,10)//0.8413447-0.5=0.3413447

中心极限定理

通常,由于总体过大,我们以样本为研究对象,并用样本的统计量估算总体的统计量。

比如,我们根据样本均值,估算出总体均值。

我们从总体中100取出多个样本,每个样本10条数据,取每个样本的均值,得到100个样本均值。当样本均值够多时,就会发现这些样本均值服务正态分布。取这个样本均值的正态分布的均值,理论上最接近总体均值了。这就是大数定理,即,中心极限定理。

抽样分布

上面提到的样本均值,算是一种样本统计量。

就是说,当我们在一个数据集中抽出多个样本时,这些样本的样本统计量会服从固定的抽样分布。

这样,我们只要看抽样分布与假定的总体分布差距大小,就知道总体分布的情况了。

常见的三大抽样分布:卡方分布、t分布、F分布,都是基于正态分布导出的,用来检验正态总体。

抽样检验

还是上面的人群身高的例子。假如那个地区的人们说自己当地男性的平均身高是170cm,但我们观察到的情况是低于170的人比较多,于是我们假设居民平均身高低于170cm,并来检验一下这个假设。

我们测量20男性的身高当作样本。已知总体身高服从正态分布,总体均值为170cm,我们只要用t分布来检验样本均值和总体均值差距是否大,就可以知道当在居民是否说谎了。

//样本数据h<-c(1.69,1.68,1.70,1.71,1.67,1.69,1.68,1.70,1.70,1.68,1.65,1.73,1.66,1.70,1.68,1.69,1.69,1.68,1.69,1.68);//做t检验。假设居民平均身高低于170cm,并来检验一下这个假设t.test(h,m=1.70,alternative = "less")

以下是t检验的输出结果

One Sample t-test

data: h

t = -3.2065, df = 19, p-value = 0.002323

alternative hypothesis: true mean is less than 1.7

95 percent confidence interval:

-Inf 1.694241

sample estimates:

mean of x

1.6875

从t检验结果可以看出:

样本均值为1.6875。

在t分布图上,t值-3.2065对应的概率p值为0.002323。使用0.005的显著性水平的话,由于p值小于显著性水平,表明假设错误的概率很低。可以说,平均身高应该是低于170cm的,且估计错误的概率低于0.005。

检验模式

上面的例子我们使用了单尾检验模式中的less,即假设总体均值小于170cm。还有两种模式:greater、two-side,分别表示样本均值大于总体均值,不等于总体均值。

这里看下R代码

//假设居民平均身高高于170cm,并来检验一下这个假设t.test(h,m=1.70,alternative = "greater")

One Sample t-test

data: h

t = -3.2065, df = 19, p-value = 0.9977

alternative hypothesis: true mean is greater than 1.7

95 percent confidence interval:

1.680759 Inf

sample estimates:

mean of x

1.6875

可以得出结果,由于t = -3.2065对应的p值没有小于显著水平0.005,假设不成立。

对比检验

上面例子是样本与总体预估均值的对比检验,接下看下两个样本之间的对比检验。

还是拿身高的例子来说,这里我们要研究饮用水源对身高的影响,选了相同地区两村子的居民做样本来研究。一个村子喝地下水,一个村子喝河水,分别测量20名男性身高,做对比。因为有人声称喝河水的民民普遍长的高,我们就来检验一下假设。

//喝地下水的居民身高h1<-c(1.69,1.68,1.70,1.71,1.67,1.69,1.68,1.70,1.70,1.68,1.65,1.73,1.66,1.70,1.68,1.69,1.69,1.68,1.69,1.68);//喝河水的居民身高h2<-c(1.69,1.69,1.70,1.71,1.67,1.68,1.68,1.70,1.70,1.68,1.64,1.73,1.66,1.71,1.68,1.69,1.69,1.68,1.67,1.69);//假设喝河水的居民比喝地下水的居民高t.test(h1,h2,alternative = "less")

Welch Two Sample t-test

data: h1 and h2

t = 0.085501, df = 37.536, p-value = 0.5338

alternative hypothesis: true difference in means is less than 0

95 percent confidence interval:

-Inf 0.01036226

sample estimates:

mean of x mean of y

1.6875 1.6870

从检验结果来看,t = 0.085501在t分布图上对应的概率p为0.5338,没有低于显著水平0.05,假设不成立。

正态检验

上面的几个例子可以使用t检验我们的各种假设,是因为我们确定身高数据服从正态分布,否则所有的检验就无效了。

实际应用过程中,可以这样检验数据是否服从正态分布:

shapiro.test(h)

Shapiro-Wilk normality test

data: h

W = 0.94791, p-value = 0.3365

从输出结果来看,由于p值大于显著性水平0.05,所以可以判定数据集h服从正态分布。

所有检验都不是100%正确。比如下面这段R代码:

shapiro.test(1:30)//输出为:0.2662shapiro.test(1:50)//输出为:0.05809

零假设、备选假设

前面有关身高的例子中,以p小于显著性水平0.05来判断假设是否成立,而关于正态分布检验的例子中,以p大于显著性水平0.05来判断是否满足正态分布。真正的标准是什么?

p<0.05是拒绝是零假设,承认备选假设;p>0.05是无法拒绝零假设。重点在于选择的零假设和备选假设是什么。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。