200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 概率论总结(四): 大数定律及中心极限定理

概率论总结(四): 大数定律及中心极限定理

时间:2023-12-22 23:48:15

相关推荐

概率论总结(四): 大数定律及中心极限定理

一、大数定律

1.弱大数定理(辛钦大数定理)

我们先用通俗的语言来介绍大数定理是干什么的?然后再给出它严格的数学定义。

通俗地说,辛钦大数定理是说,对于独立同分布且具有均值μ\muμ得随机变量X1X_1X1​,…,XnX_nXn​,当n很大时它们得算术平均1n∑k=1nXK\frac{1}{n}\sum _{k=1}^n X_Kn1​∑k=1n​XK​很可能接近于μ\muμ。

也就是说大数定律讲的是样本均值收敛到总体均值(就是期望),没错,就是这么简单

下面是严格的数学定义:

注:什么是随机变量序列?

随机变量序列就是一列按某种规则排列的随机变量。 这种规则可随意,但强调的是一个次序。

例如:

若Xi表示第i次抛硬币的结果,那么{Xi}这个序列就是若干次抛硬币的结果序列,X1指第一次抛的结果,Xn指第n次抛的结果。

若Yi表示前i次抛硬币正面向上的次数,(记第i次正面朝上为Xi=1,反面朝上为Xi=0)那么可以有Yi=X1+X2+…+Xi。这样{Yi}这个序列就是前i次抛硬币正面朝上的汇总序列,Y1指的是抛一次硬币正面朝上的次数,Yn指的是抛n次硬币中正面朝上的次数。

可见{Xi}中的随机变量相互独立,而{Yi}中的随机变量则有相互关系,其中前者的结果会影响后者。因此,随机变量序列就是一列按某种规则排列的随机变量。

2.伯努利大数定理

伯努利大数定理是辛钦大数定理的一个重要推论

二、中心极限定理

我们先用通俗的语言来介绍中心极限定理是干什么的?然后再给出它严格的数学定义。

那么,什么是中心极限定理呢?

中心极限定理是说:

样本的平均值约等于总体的平均值。

不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

所以我们看到中心极限定理其实是包含了大数定理的,也就是样本的平均值约定于或者说依概率收敛于总体的平均值。

那第二句话是什么意思呢?

比如我们进行取样,每一次取样取一百条数据,这是一个样本,样本中每条数据它的值都是服从相同分布的,我们把这一次的取样结果的平均值即为Xˉ\bar XXˉ,称为样本平均值。很明显Xˉ\bar XXˉ也是一个变量,意思是每一次的取样这个样本平均值都有可能不同。但是中心极限定理指出Xˉ\bar XXˉ围绕着总体的整体平均值周围,并且成正态分布。

这里总体的整体平均值又是什么呢?其实其实并不是指简单的所有数据的平均值。假设我们把V当作随机取到一个数据的值,那么随机变量V的数学期望就是整体平均值。所以它应该是数学期望。这里总体均值上面大数定律中提到的是一样的,都是数学期望。

下面再以一个具体的例子进行说明。

假设有一个群体,如清华毕业的人,我们对这类人群的收入感兴趣。怎么知道这群人的收入呢?我会做这样4步:

第1步.随机抽取1个样本,求该样本的平均值。例如我们抽取了100名毕业于清华的人,然后对这些人的收入求平均值。该样本里的100名清华的人,这里的100就是该样本的大小。有一个经验是,样本大小必须达到30,中心极限定理才能保证成立。

第2步.我将第1步样本抽取的工作重复再三,不断地从毕业的人中随机抽取100个人,例如我抽取了5个样本,并计算出每个样本的平均值,那么5个样本,就会有5个平均值。这里的5个样本,就是指样本数量是5。

第3步.根据中心极限定理,这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点,有一些会稍低一点,只有极少数的样本平均值大大高于或低于群体平均值。

第4步.中心极限定理告诉我们,不论所研究的群体是怎样分布的,这些样本平均值会在总体平均值周围呈现一个正态分布。

下面是数学定义。

为了跟上面的举例做一个衔接(因为举例是用贴近生活的数理统计,如抽样来举例,而定理是概率论的内容,数理统计是以概率论为基础的)。我们可以把X1,X2,...XnX_1,X_2,...X_nX1​,X2​,...Xn​看作是一个样本,或者说一次大试验,而每一个X都是描述一个数据,或者说一次小实验。那么这个样本的均值Xˉ\bar XXˉ,也就是1n∑k=1nXk\frac{1}{n}\sum _{k=1}^{n} X_kn1​∑k=1n​Xk​ 它始终围绕在μ\muμ周围,而且它的标准差是1nσ\frac{1}{\sqrt n}\sigman​1​σ,而且它服从正态分布。 这个可以从上面的定理推出来。

上面的随机变量Y其实就是把变量Y′=XˉY' = \bar XY′=Xˉ标准化了,变成了均值为0,方差为1的正态分布。

同时上面的极限符号也说明了样本大小或随机变量个数n越大,Xˉ\bar XXˉ分布就越接近正态分布。当n趋于无穷时,这是Xˉ\bar XXˉ分布的标准差就趋于零,也就是这时候的样本平均值几乎等于总体平均值(数学期望)。

下面是一道例题:

第二小问跟第一问解法相似,略。

四、参考资料

《概率论与数理统计》浙大第四版

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。