7.1参数分布估计
分布估计问题:从观察变量出发,估计一个随机变量的概率密度。
参数分布估计:从一族概率密度(x的似然函数,每个概率分布对应一个参数向量x)中,选择一个概率密度。
最大似然估计
参数估计:根据观测到的服从分布的一个样本y,估计参数x的值。而最大似然估计,则是选择是的似然函数在y的观测值处最大的那个参数作为x,直白地说,已知y的观测值,找到使y得观测值出现的概率最大的参数x。
即,其中y是观测值。
而事实上,考虑似然函数的对数更加方便,记,称为对数似然函数,故
于是最大似然估计问题等价于:
可以显示的增加约束,,表示参数向量x的先验信息或其他约束,也可以隐式地增加约束,定义
附加了IID(独立同分布)的噪声
考虑线性测量模型:
其中是未知参数向量,是独立同分布的,在R上具有概率密度p(z)的随机变量。是观测值且、
于是似然函数:
于是对数似然函数:
榆树极大似然估计问题等价于:
再考虑噪声服从其分布的情况:
(1)Guass噪声:当是高斯噪声,且均值为0,方差为时,概率密度为:
则对数似然函数:
记为A,于是:
于是最大似然估计问题:
等价于:
等价于:
等价于:
即最小二乘逼近问题。
(2)Laplace噪声:当服从Laplace分布时,即具有概率密度:
则对数似然函数:
记为A,于是:
于是最大似然估计问题:
等价于:
等价于:
等价于:
即范数逼近问题。
(3)均匀分布:当服从上的均匀分布时,若,具有概率密度:
当,即,
记为A,于是:
此时,对数似然函数:
则极大似然问题:
即最优解为满足约束的任意x。
Logistic 回归
考虑随机变量,其概率密度函数:
其中是参数,u是解释变量。
估计问题:从m个数据,估计a,b的参数值。
假设,前q个观测值y=1,q+1到m个观测值y=0,则似然函数具有形式:
其中有logistic模型和解释变量决定。
对数似然函数具有如下形式:
如上图,圆圈表示50个对,曲线是最大似然估计曲线。数据表明,u<5时,输出值很可能是y=0,u>5时,输出值很可能是y=1。
最大后验概率估计
最大后验概率估计问题可以看成是最大似然估计的Bayes形式。假定x(待估计向量)和y(观测向量)都是随机变量,其联合概率密度为p(x,y)。
则x的先验概率密度:
给定x,y的条件概率密度可以表述为:
于是在最大后验概率估计方法中,给定观测值y,x的估计量为:
取对数,得到
第一项与对数似然函数本质上一样,第二项是根据先验概率密度对不太可能发生的x的惩罚项。
相比于最大似然估计,最大后验概率估计问题多了一个惩罚项。