正态分布,也称常态分布,又名高斯分布。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
由于一般的正态总体其图像不一定关于y轴对称,对于任一正态总体,其取值小于x的概率。只要会用它求正态总体在某个特定区间的概率即可。
为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。
若
服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。
正态分布的概率密度函数图形如下图:
Q1:
正态分布的基本特性是什么?
A:
从上图所示的整体分布的概率密度图形可以看出,正态分布是一种非偏态的分布,概率密度函数图形以期望为中心左右对称,期望与中位数大小相等。另外,在正态分布中,概率密度值出现“中间高,两边低”的情绪,使得大部分样本都会落在期望值周围,也因此引出了3
相关问题。
Q2:3
方法与正态分布之间存在怎么样的关联?
A:
68.27%,95.45%,99.73%的概率会使样本分别落在
[
- , + ],[ -2 , +2 ],[ -3 , +3 ]区间。
3
就是基于此而产生的,在有些面试中也会对这个概念进行考查。
样本落在3
之外的概率只有0.27%,这部分误差不再是随机误差,而是粗大误差,应该将这部分数据予以剔除。
Q3:简述大数定律的核心思想,及常见的大数定律有哪些及他们的区别。
A:
大数定律的核心在于将随机变量X所对应的随机试验重复多次,随着试验次数的增加,X的均值
会愈发趋近于E(X)。(不同的大数定律会从不同的角度来阐述。)
Q4;简述中心极限定理。
A:
可以按照下面的公式,用通俗的语言对中心极限定理进行阐述。
设X1,X2,...,Xn,...是一组独立同分布的随机变量,E(Xi)=
,D(Xi)= (i=1,2,3...)
当n足够大时,均值
= ( Xi)/n的分布接近于正态分布N( , /n),将 进行标准化处理,就可以得到 =( - )/( )接近于N(0,1)的标准正态分布。
也可以按照下面的方式来阐述:
假设有来自同一个随机试验的一组样本x1,x2,x3,...,随机变量X表示样本的均值,
X=
= .随着样本数量的增加,X的分布愈发趋近于正态分布。
中心极限定理表明:随着试验次数的增加,一组独立同分布的变量的均值可以近似看作服从正态分布,且方差也会随着试验次数的增加而减小。
这就使得对于一组量足够大的样本,无论其原本服从什么分布,最终都能转化成正态分布。
在互联网公司中,针对某一随机试验通常会产生大量的样本,以此为基础,再结合假设检验,就构成了AB测试所需的理论依据。
Q5:大数定律和中心极限定理的区别?
A:
中心极限定理是说无论抽样分布如何 均值服从正态分布
而大数定律根本和正态分布无关,是说样本大了抽样分布近似总体分布