之前看概率论的书,谈到正态分布的第一个反应就是那个看起来很随便的突起的曲线,以及现实生活中好像有很多东西都符合正态分布,除此之外就再没有别的理解了,直到最近看书才慢慢体会到了概率中藏着的很多秘密。
封面:电影《盗梦侦探Paprika》
某天小王同学突然被告知他是某个远方的亲戚的唯一继承人,这个亲戚给了他两个选择,要么完成某个挑战获得300亿的遗产,要么轻松拿着1000万回家,但是挑战很难,完成挑战的概率是1/2000,那么如果你是小王会怎么选择呢?
如果你是个很聪明的人,你一定会拿出计算器来算算数学期望:
1/2000 * 300000000000 = 1500W > 1000W
你发现还是完成挑战的期望高,所以义无反顾的选择了接受挑战,但事实上是你想多了。可是明明期望更高,为什么你会一分钱都得不到呢?不是因为你并不是男主角,而是你真的不懂概率。
1. 方差与标准差
很多时候在我们做出决策时,只考虑期望是不够的,在这个世界上既有不喜欢冒险追求稳定的人,也有倾向于通过冒险一次性获得巨大收益的人,因此我们在这里引入了描述分布性质的第二个指标,方差。
当我们在考虑一个随机变量的取值时,即使它的期望值是
,但是它的取值并不一定就等于 ,为此我们需要计算它与E(X)的差距,因此我们定义了方差:
为什么方差是个期望?
方差跟期望一样是个固定的用来描述分布的值,是分布的属性,是固定不变的。
为什么要用平方?而不是用绝对值或者别的?
平方的话对应的曲线是平滑的,可以求导或者微分。
方差描述的就是分布的离散程度,方差越大分布越散乱,越小分布就越集中(稳定),当方差等于0时就意味着
与 始终相同,即分布不含有任何随机的成分。
根据描述小王的第一种抉择是符合伯努利分布的,我们可以计算一下其方差。
E(X-E(X)^2)= (X1-E(X)^2)P(X1) + (X2-E(X)^2)P(X2)= (30000000-15000000)^2 * 1/2000 + (0-15000000)^2 * 1999/2000= ....自己算吧
可是,我们拿到了这么大一个数,怎么去衡量到底数据的离散程度呢?如果一个分布A的方差是100,另一个分布B的方差是1,那么A比B的分散程度要扩大了100倍吗?其实只有十倍。
因为我们计算的时候是用的平方距离来衡量,所以我们必须引入方差的平方根——标准差,来衡量数据的离散程度(这也许就是在提取特征时大家更喜欢使用标准差而不是方差的原因)。
方差和标准差还有一些性质,例如加常量后方差不变,乘以n后方差变成原来的n^2倍,标准差变成n倍。
根据这个性质,我们可以把不同分布的数据做做一个标准化,让它们的方差变为1,期望变为0,这样做的好处一个是可以均衡各个特征对模型的影响,另一个好处是可以加快迭代的速度。具体的方法是令
。
说些题外话,上面的标准化方法叫做Zscore,但是这个方法会消除数据的分布信息,体现的是数据中各个样本的差异,需要确保特征提供的信息不包括于方差和期望。
2. 大数定律
大数定律的定义想知道的自己去wiki看,我自己的理解就是当事情发生的多了这些事情的平均值就会趋于稳定,例如你抛一次硬币无法预知它的结果,但是你抛20次就会发现正反的次数近似相同,苏联科学家弗谢沃洛德·叶瓦诺维奇·罗曼诺夫斯基曾经抛硬币80640次,正面的结果是39699次,概率在0.492。
虽然是个大家都明白的道理,但是证明起来却很麻烦。
对于随机变量
,他们的平均值
均值的期望为
假设各个变量遵循独立同分布,那么
那么
那么
假设各个变量遵循独立同分布,那么
当n趋近于无穷大时,
,此时不存在随机性,平均值收敛于期望。
证毕。
如果看过我之前写的那片平行宇宙的玄学文的话,这里就是我们这些处于同一个平行宇宙的凡人唯一的机会去了解掌握所有平行宇宙真理的唯一机会了吧。
3. 正态分布
正态分布是我们最熟悉不过的分布了,它也被称为高斯分布,在大多数人眼里它是这样的:
我们在高中就学了正态分布的概率密度函数:
但是大部分人估计第一次见都很蒙蔽,然后一直把它背下来,直到现在也不知道是啥意义,也不知道为什么要这么写。
首先我们先拿出标准正态分布的概率密度函数,这个要顺眼一些:
前面就是个系数,我们看后面的
这一部分是一个平方的指数的结构,那么就意味着首先它是左右对称的(平方特征),然后里面x越大整体就越小,x为0时
为1且是最大值,如果给它求个导数会发现导数在0附近时接近于0,所以看起来就是这么个熟悉的形状。
那么前面的系数的怎么回事呢?我猜是为了凑概率密度的积分为1吧。(此处可以用高斯积分推导)
可是里面e的指数为啥要除以2呢?据说这里是为了让方差恰好为1,也就是是我们看到的最大最小的值差距是1。
而标准正态分布就是对普通正态分布做了上面的标准化而已,我们可以反标准化推出正态分布
令
这时相当于对标准正态函数进行了缩放和平移的操作,就可以还原上面的正态函数了。
4. 中心极限定理
而正态分布之所以是这样的分布,并不是因为我们像需要sigmod函数一样而创造了sigmod函数,而是自然法则创造了正态分布,这条法则就是中心极限定理。
中心极限定理指的是【任何分布的】一系列独立同分布的变量,他们的均值呈正态分布。
这句话有点难以理解,举个例子,当你掷色子6次时,发现均值是3.5,然后你又掷色子6次,发现是4,然后你又……最后发现这些均值满足正态分布。
而且不光是普通色子,就算是四面的色子,或者是各种奇形怪状的色子,都满足这个定理。
对于任意的独立同分布的变量
,其中 ,那么他们的求和就是 ,那么他们的方差等于 ,均值等于 ,这样看不出什么来,对X做一个标准化 ,此时方差变为 , 又因为 ,所以把上面方差约成了1,而期望 在n趋近于无穷时,趋近于0。
而n趋近于无穷时X时分布
将收敛为正态分布,而且它符合的是标准正态分布。
而与大数定律不同的是:
中心极限定理描述的是,样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。在无数次独立同分布的随机事件中,事件的频率趋于一个稳定的概率值,这是大数定律。两者在不同的维度上。
至于它为什么收敛为正态分布,中心极限定理和大数定律的关系,我实在是很困了,这个坑还是留着下一次再填好了ヾ( ̄▽ ̄)
如有帮助,请在下面打赏。