200字范文 > 概率论总结(四): 大数定律及中心极限定理

概率论总结(四): 大数定律及中心极限定理

时间：2023-12-22 23:48:15

一、大数定律

1.弱大数定理（辛钦大数定理）

我们先用通俗的语言来介绍大数定理是干什么的？然后再给出它严格的数学定义。

通俗地说，辛钦大数定理是说，对于独立同分布且具有均值μ\muμ得随机变量X1X_1X1,…,XnX_nXn，当n很大时它们得算术平均1n∑k=1nXK\frac{1}{n}\sum _{k=1}^n X_Kn1∑k=1nXK很可能接近于μ\muμ。

也就是说大数定律讲的是样本均值收敛到总体均值（就是期望），没错，就是这么简单。

下面是严格的数学定义：

注：什么是随机变量序列？

随机变量序列就是一列按某种规则排列的随机变量。这种规则可随意，但强调的是一个次序。
例如：
若Xi表示第i次抛硬币的结果，那么{Xi}这个序列就是若干次抛硬币的结果序列，X1指第一次抛的结果，Xn指第n次抛的结果。
若Yi表示前i次抛硬币正面向上的次数，（记第i次正面朝上为Xi=1，反面朝上为Xi=0）那么可以有Yi=X1+X2+…+Xi。这样{Yi}这个序列就是前i次抛硬币正面朝上的汇总序列，Y1指的是抛一次硬币正面朝上的次数，Yn指的是抛n次硬币中正面朝上的次数。
可见{Xi}中的随机变量相互独立，而{Yi}中的随机变量则有相互关系，其中前者的结果会影响后者。因此，随机变量序列就是一列按某种规则排列的随机变量。

2.伯努利大数定理

伯努利大数定理是辛钦大数定理的一个重要推论。

二、中心极限定理

我们先用通俗的语言来介绍中心极限定理是干什么的？然后再给出它严格的数学定义。

那么，什么是中心极限定理呢？

中心极限定理是说：
样本的平均值约等于总体的平均值。
不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且呈正态分布。

所以我们看到中心极限定理其实是包含了大数定理的，也就是样本的平均值约定于或者说依概率收敛于总体的平均值。

那第二句话是什么意思呢？

比如我们进行取样，每一次取样取一百条数据，这是一个样本，样本中每条数据它的值都是服从相同分布的，我们把这一次的取样结果的平均值即为Xˉ\bar XXˉ，称为样本平均值。很明显Xˉ\bar XXˉ也是一个变量，意思是每一次的取样这个样本平均值都有可能不同。但是中心极限定理指出Xˉ\bar XXˉ围绕着总体的整体平均值周围，并且成正态分布。

这里总体的整体平均值又是什么呢？其实其实并不是指简单的所有数据的平均值。假设我们把V当作随机取到一个数据的值，那么随机变量V的数学期望就是整体平均值。所以它应该是数学期望。这里总体均值上面大数定律中提到的是一样的，都是数学期望。

下面再以一个具体的例子进行说明。

假设有一个群体，如清华毕业的人，我们对这类人群的收入感兴趣。怎么知道这群人的收入呢？我会做这样4步：

第1步.随机抽取1个样本，求该样本的平均值。例如我们抽取了100名毕业于清华的人，然后对这些人的收入求平均值。该样本里的100名清华的人，这里的100就是该样本的大小。有一个经验是，样本大小必须达到30，中心极限定理才能保证成立。

第2步.我将第1步样本抽取的工作重复再三，不断地从毕业的人中随机抽取100个人，例如我抽取了5个样本，并计算出每个样本的平均值，那么5个样本，就会有5个平均值。这里的5个样本，就是指样本数量是5。

第3步.根据中心极限定理，这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点，有一些会稍低一点，只有极少数的样本平均值大大高于或低于群体平均值。

第4步.中心极限定理告诉我们，不论所研究的群体是怎样分布的，这些样本平均值会在总体平均值周围呈现一个正态分布。

下面是数学定义。

为了跟上面的举例做一个衔接（因为举例是用贴近生活的数理统计，如抽样来举例，而定理是概率论的内容，数理统计是以概率论为基础的）。我们可以把X1,X2,...XnX_1,X_2,...X_nX1,X2,...Xn看作是一个样本，或者说一次大试验，而每一个X都是描述一个数据，或者说一次小实验。那么这个样本的均值Xˉ\bar XXˉ，也就是1n∑k=1nXk\frac{1}{n}\sum _{k=1}^{n} X_kn1∑k=1nXk 它始终围绕在μ\muμ周围，而且它的标准差是1nσ\frac{1}{\sqrt n}\sigman1σ，而且它服从正态分布。这个可以从上面的定理推出来。

上面的随机变量Y其实就是把变量Y′=XˉY' = \bar XY′=Xˉ标准化了，变成了均值为0，方差为1的正态分布。

同时上面的极限符号也说明了样本大小或随机变量个数n越大，Xˉ\bar XXˉ分布就越接近正态分布。当n趋于无穷时，这是Xˉ\bar XXˉ分布的标准差就趋于零，也就是这时候的样本平均值几乎等于总体平均值(数学期望)。

下面是一道例题：

第二小问跟第一问解法相似，略。