200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 统计推断与假设检验

统计推断与假设检验

时间:2022-11-08 22:51:23

相关推荐

统计推断与假设检验

统计推断

我们了解统计学是无法确凿的证明任何东西。统计推断的力量在于可以:先发现一些规律和结果,然后再利用概率来证明这些结果的背后最有可能的原因。

所以通过推断我们可以知道哪些方面是可能的,哪些方面是不太可能的。

统计推断的示例

一个学生在期中成绩比较差,但在期末的成绩非常高。因为我们知道期中和期末的成绩具有极为显著的相关性,这种事情发生的概率比较低,所以我们可以发现作弊现象。

假设检验

统计推断过程中最常使用的工具就是 ‘假设检验’,假设检验都是由或含蓄或直接的零假设开始的,先假设一个结论,然后通过统计分析对其进行支持或反驳。如果我们证明零假设不成立,那么相当于承认了其反面结论与真实情况接近。

假设检验过程

零假设:某种新药在预防疟疾方面并没有安慰剂更加有效。

对立假设:某种新药在预防疟疾方面能够帮助预防疟疾

数据:随机抽取一个小组服用新药,另一个小组作为对照组服用安慰剂。一段时间过后,服用新药的小组发病率远低于对照组。如果该新药不具备任何疗效,那么出现这一结果的概率非常低。因此,我们推翻新药没有疗效的零假设。承认对立假设。

tips:

先设置对立假设,因为零假设我们并不希望推翻它。

双尾假设

零假设:男性篮球运动员与普通男性运动员身高相同

对立假设:男性篮球运动员与普通男性身高不同,他们可能比普通人高(或低)

单尾假设

零假设:男性篮球运动员与普通男性运动员身高相同

对立假设:男性篮球运动员比普通男性身高高

假定值

在零假设成立的前提下,出现所观察样本的结果以及更极端情况的概率。

出现的问题:

如果零假设成立,那么完全出于巧合的概率是多大?

零假设到底有多不合情理才能让我们将其推翻,并承认其反面假设为真。

推翻零假设最常用的门槛是0.05,也就是说**显著性水平**定在0.05,如果某个零假设成立的概率小于或等于5%的话,我们就可以将其推翻。其它还有0.01或0.1

例子:双尾检定

一个抽样样本,其平均值为162,标准差为36,样本数量为60。这也是全体研究对象的平均值和标准差。样本平均值的标准误差为:36/60^1/2=4.6###### 预测 :在样本容量为60人的全部随机抽样中,将有约95%的样本的平均体重为153 ~ 171,只有约5%的样本的平均值大于171或小于153。**假设检验思路**对立假设:该样本不属于总体研究对象零假设:该样本属于总体研究对象如果60名乘客的平均体重超过171或不足153,将推翻零假设。承认对立假设。经过测定,样本的平均体重为136,低于样本平均值2个标准误差。在**显著性水平**为0.05的前提下,推翻’该样本属于总体研究对象‘的零假设,意味着、

如果零假设成立,既该样本属于研究总体,那么其平均值所在区间的概率只占到5%你可以以零假设成立的概率只有0.05为由,推翻零假设。平均来说,在推翻零假设的问题上,你有95%的概率是正确的,有5%的概率是错误的。

I型错误

错误的推翻零假设

II型错误

错误的推翻对立假设

问题:那种错误更严重?这要依靠情况而定。

垃圾邮件过滤

零假设:任何一封电子邮件都不是垃圾邮件

I型误差:表示不是垃圾邮件的电子邮件被屏蔽掉了

II型误差:表示让垃圾邮件通过筛选进入你的邮箱

绝大多人数可能倾向站在II错误这边

癌症筛选

零假设:没有患上癌症

I型误差:没有患上癌症的被错误认为有癌症

从历史看,医生和病人总是容忍一定程度的I型错误

打击恐怖分子

零假设:某人不是恐怖分子

I型错误和II型错误都不可容忍

补充知识点

计算平均值差异的标准误差

零假设:两个样本的平均值相等(既取值同一个总体)

预测:平均值之差小于一个标准误差的概率为68%,小于两个标准误差的概率为95%。

95%的置信区间的含义

假如从同一个群体中重复进行100次不同的抽样,我们可以预测其中有95次测试结果位于群体真实数据正负个标准差范围内。

关心百分比,而不是平均数

百分比标准误差

随机抽取的样本而言:SE = (p(1-p)/N)1/2

样本量越大,标准误差越小当p与1-p的比例差距越来越大,标准误差也会变得越来越小

例子

假设在一次投票测验中,500位选民里有53%投给了共和党候选人,45%投给了民主党,2%投给了第三方的候选人。

如果以共和党的支持率为 参照,那么这次投票的标准误差为

(0.53*(1-0.53)/500)^1/2 = 0.02

问题:

如果我们想提前知道最终结果,那么能否以这次的投票的结果作为宣布共和党获胜的依据?

这要看置信区间有多少了?也就是说你愿意为内容承担多大的风险。

我们知道,标准误差为样本比例是否接近总体比例提供了理性的概率参考,已知的是,样本比例约有68%概率落在最终结果一个标准误差的范围内。

有68%的把握认为共和党有53% 正负2% 的支持率。

有68%的把握认为民主党有45% 正负2% 的支持率(为什么民主党有相同的标准误差)

结论共和党获胜

** 剩下的32%是什么情况 **

情况1:共和党支持率比投票测试更高,我们预测依旧有效情况2:民主党的支持率比投票测试高的多,我们预测错了获胜方

** 我们怎么能保整预测是一个正确的结果**

扩大置性区间为95%。出错的概率降低到了5%。

扩大样本数量,减小标准误差。

tips: 选取标准误差较大值,然后用这个标准计算整个样本的标准误差。

正确的反应总体,需要一个正确反映目标群体的样本,合理的问题设置。

当p与1-p接近50%时,相对小的抽样误差在结果中就会被放大为严重的抽样误差。而 p或者1-p接近零时,就会出现相反的现象。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。