先验概率与后验概率

先验概率是指事件尚未发生,对该事件发生的概率的估计,是在缺乏某个事情的情况下描述一个变量。后验概率是指在 事件已经发生的条件下,求该事件发生原因是由某个因素引起的可能性的大小,是考虑一个事件之后的条件概率。

先验概率可以通过已知的关于事件本身的先验知识得到,蒙特卡洛方法也可以用于计算先验概率。后验概率可以基于 贝叶斯定理,通过先验概率乘以似然度,再归一化得到。具体来说,贝叶斯公式:

P(h|D)=P(Dh)P(h)P(D)

其中P(h)h的先验概率,P(h|D)h的后验概率。

最大似然估计与最大后验估计

似然函数(likelihood function)是关于参数的函数,表示在参数给定的条件下,随机变量的值的条件概率。对于随机变量X, 给定模型中X的概率分布函数为fθ为参数,则参数的似然函数为:

L(θx)=P(xθ)

假设x1,x2,,xn为该模型独立同分布的采样,那么

f(x1,x2,,xnθ)=f(x1θ)×f(x2θ)××f(xnθ)

因此,似然函数以及对数似然函数为

L(θx1,x2,,xn)=i=1nf(xiθ)lnL(θx1,x2,,xn)=i=1nlnf(xiθ)

并且取

l=1nlnL

最大似然估计

最大似然估计是指求当似然函数取得最大时参数θ的值,

θMLE=argmaxθΘf(xθ)=argmaxθΘL(θ|x)

想要求解参数θ的值,只需要对L取导数,令导数等于0,得到似然方程,求解似然方程即可。

可见,似然函数的值表达式是某个模型能够产生某个给定观察序列的概率,最大似然即能产生该给定观察序列的最大概率。 最大似然估计是在参数θ的整个取值空间Θ上求解使得似然最大的参数值,并没有考虑该模型本身的概率。

最大后验估计

最大后验估计引入了参数的先验分布g,求解对于已有的观测序列,能使得后验概率最大的参数的值。根据贝叶斯公式,后验概率

f(θ|x)=f(x|θ)f(θ)θiΘf(x|θi)f(θi)=f(x|θ)f(θ)f(x)

同时f(x)的具体值与参数θ无关,不影响求解参数θ的最大估计,最大后验估计可以表示为

θMAP=argmaxθΘf(θ|x)=argmaxθΘf(x|θ)f(θ)

而由贝叶斯定理,后验概率可以表示为

f(x|θ)g(θ)=12

对比

最大似然估计与最大后验估计最大的区别在于最大后验估计引入了模型参数本身的概率分布,或者说最大似然估计认为参数本身满足均匀分布。 当数据量足够大时,最大似然估计和最大后验估计趋于一致,当数据量为0时,后验概率仅有先验概率决定,二者一致。

统计推断理论体系中,频率学派把需要推断的参数θ视作固定且未知的常数,而样本X是随机的,其着眼点在样本空间,有关的 概率计算都是针对X的分布。贝叶斯学派把参数θ视作随机变量,而样本X是固定的,其着眼点在参数空间,重视参数θ的 分布。最大似然估计体现是的频率学派的观点,而最大后验估计体现的是贝叶斯学派的观点。