网 logo

贝叶斯估计

贝叶斯估计(Bayesian estimation)是基于总体信息、样本信息和先验信息对总体分布中包含的未知参数进行估计的统计学方法。贝叶斯估计是贝叶斯定理的应用,它的核心思想是将未知参数看作具有先验分布的随机变量

贝叶斯估计量是通过最小化后验期望风险(贝叶斯风险)得到的估计量。后验分布结合了先验分布的信息和抽样后对总体的认识,包含了对未知参数所有可供利用的信息,因而贝叶斯估计能获得精确的估计值。

贝叶斯估计是统计学中最常用的参数估计方法之一。贝叶斯统计缘起于托马斯·贝叶斯。随后,皮埃尔-西蒙·拉普拉斯将贝叶斯定理作为概率论的基础,开发了贝叶斯统计学理论。随着马尔可夫链蒙特卡洛方法解决了贝叶斯统计学长期存在的计算困难的问题,推动了贝叶斯统计在理论和应用领域的长足发展。贝叶斯估计方法在许多领域都有应用,例如信号处理、图像处理、自然语言处理等。

历史发展

贝叶斯估计是统计学中最常用的参数估计方法之一。贝叶斯统计缘起于托马斯·贝叶斯(1702–1761),在他去世后,在1763年发表的论文《关于变量的问题》中提出了一种用于计算概率的公式,这公式被称为“贝叶斯定理”(现在知道是贝叶斯定理的特例)。贝叶斯定理的现代形式归因于法国统计学家皮埃尔-西蒙·拉普拉斯(1749–1827)。1812年,拉普拉斯推导了贝叶斯定理的一般版本,并把它用来解决天体力学、医学甚至法学的问题。拉普拉斯将贝叶斯定理作为概率论的基础,开发了贝叶斯统计学理论。

贝叶斯学派和频率学派的争论

贝叶斯学派和频率学派的争论的焦点在于先验分布的问题。频率学派坚持概率的频率学解释,而贝叶斯学派认为先验分布是主观的,不需要有频率解释。频率学派认为只有先验分布有不依赖主观的意义,才允许在统计推断中使用先验分布,否则就会丧失客观性。贝叶斯学派则认为,频率学派表面上不使用先验分布,但所得到的解还是某一先验分布下的贝叶斯解,而这一潜在的先验分布可能比经过慎重选择的主观贝叶斯分布更不合理。这两个学派的争论是战后统计学发展中的一个特色,对今后统计学的发展还将产生影响。

定义

设总体的分布函数为,为随机变量,为的先验分布。若在决策空间中存在一个决策函数,使得对决策空间中任一决策函数均有 ,则称为参数的托马斯·贝叶斯估计量。其中为贝叶斯风险,是一种用于衡量决策效果的指标,指对于一个给定的问题,基于先验概率和代价损失函数计算出来的在整个样本空间上的后验期望损失。

由定义可见,贝叶斯估计量就是使贝叶斯风险达到最小的决策函数。贝叶斯估计量依赖于先验分布,对于不同的,的贝叶斯估计量是不同的。

核心思想

贝叶斯参数估计是基于总体信息、样本信息和先验信息进行的参数估计。参数估计是数理统计学研究的主要问题之一。在实际问题中,已知所研究的总体分布类型,但是分布中包含一个或多个未知参数,那么就需要根据样本来估计未知参数,这就是参数估计。

基本观点

贝叶斯学派的最基本观点是:任一未知量都可看作一个随机变量,应该用一个概率分布去描述。这个概率分布是在抽样前就有的关于的先验信息的概率陈述,被称为先验分布。

假设有待观测的随机变量,取值来自样本空间。假设的分布取决于参数,取值来自参数空间。根据抽样前对参数的认识,假定确定但未知的参数具有参数空间中关于随机变量的一个特定分布。取决于参数空间的特性,这一分布可能是连续的或离散的。

在观测样本后,通过贝叶斯定理,可以计算出在给定的条件下,的条件分布,这个分布被称为的后验分布,是在获取样本的信息后被更新的分布。

贝叶斯风险是关于整个样本空间上的后验期望损失。因此,在计算出后验分布后,可根据托马斯·贝叶斯风险最小化原则计算出贝叶斯估计量。

后验分布的公式表示

在经典统计学中,依赖参数的概率密度函数记为或,它表示在参数空间中不同的表示不同的分布。在贝叶斯统计学中,记为,表示对确定的,总体的条件分布,常称为似然函数。从贝叶斯的观点看,一个样本的产生分为两步。第一步,从先验分布中产生样本参数;第二步,从总体分布中产生一个样本,这个样本是具体的,是可以通过抽样观测到的。

假设参数空间上的随机变量的先验分布有概率密度函数。对于给定的,上的随机变量的条件概率密度函数为。那么对于给定的,的后验分布的条件概率密度函数为

其中,函数在离散和连续的情况下分别定义为:

.

对于,是一个归一化常数。因此,后验分布主要取决于先验分布和随机变量的条件概率密度函数(即似然函数)。

参数估计步骤

构造托马斯·贝叶斯估计量主要取决于两点:

这两者确定后,就可以计算出贝叶斯风险,进而得出贝叶斯估计量。

贝叶斯风险

假设未知参数有先验分布,是未知参数的估计量。那么,损失函数记为。损失函数是根据实际情况自定义的函数,例如平方损失函数。估计量的贝叶斯风险则被定义为,是损失函数的后验期望,且期望值与先验分布有关,贝叶斯风险可以被写作

其中,为样本空间,为参数空间,为 的边缘概率密度(假设是连续型随机变量),为后验概率密度。

贝叶斯估计量 

损失函数的选择决定着贝叶斯风险的表达式,进一步的带来估计量的不同。平方损失函数是最常用的损失函数,主要是因为它的简单性。若将损失函数定义为平方损失函数,那么估计量的贝叶斯风险为

.

根据托马斯·贝叶斯风险最小化原则,的贝叶斯估计量为

.

损失函数的选择取决于该如何测量估计量和未知参数的距离。除了平方损失函数,其他的损失函数也会被使用。例如线性损失函数,其中是大于0的常数。当损失函数为线性损失函数时,贝叶斯估计量为后验中位数。

拓展

共轭先验

托马斯·贝叶斯统计中,如果后验分布与先验分布属于同一类型,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。

共轭先验提供了计算上的便利,给出了后验的封闭形式表达式;否则,可能需要数值积分。在时序预测中,当前测量的后验被用作下一次测量的先验。如果在时序预测时不使用共轭先验,后验分布通常会随着每次添加的测量而变得更加复杂,并且无法在不借助数值方法的情况下计算贝叶斯估计量。因此共轭先验为时序预测提供了极大的便利。

广义贝叶斯估计

先验分布作为一个真实的概率分布,需要满足。然而这一条件有时会过于严苛。例如对于非信息先验,未知参数的取值没有任何特定偏好,这时先验分布可以看作对整个实数集的等可能分布,然而这一分布是不存在的(只能为)。对此种情况,我们可以假设先验分布为一个常数,这不是一个概率分布,因为。像这样不满足概率分布条件的先验被称作非正常的(improper)。实际应用中,如果对应的后验分布是正常的(proper),即它可以正确地标准化,那么可以使用这个非正常的先验。例如,如果假设高斯分布的均值的先验为均匀分布,一旦我们观测到至少一个数据点,均值的后验就会是正常的。

使用非正确的先验分布意味着托马斯·贝叶斯风险是不明确的,因为先验不是概率分布的,无法计算期望。在这种情况下,后验期望损失为

其中,后验分布定义为

.

在这个定义下,后验期望损失是有限的,因此可以通过最小化后验期望损失来得到估计量。当先验分布是非正常的,那么通过最小化后验期望损失得到的估计量被称作广义托马斯·贝叶斯估计量。

应用

贝叶斯方法的实际应用一直受限,原因是贝叶斯后验分布在高维计算上的困难,执行完整的贝叶斯步骤的困难性较大,尤其是需要在整个参数空间求和或者求积分。直到1990年代以后,随着马尔可夫链蒙特卡洛方法在贝叶斯统计领域的广泛应用,解决了贝叶斯统计学长期存在的计算困难的问题,从而推动了贝叶斯统计在理论和应用领域的长足发展。贝叶斯估计方法在许多领域都有应用,例如信号处理、图像处理、自然语言处理等。

信号处理

信号检测与估计是研究在噪声、干扰和信号共存的环境中如何正确发现、辨别和测量信号的学问,广泛应用于雷达、声纳和无线通信等领域。而贝叶斯估计作为一种参数估计方法应用在对信号的检测和估计中。

图像处理

图像处理是计算机视觉的一个重要分支,其主要目标是从图像中提取有意义的信息,以解决实际问题。托马斯·贝叶斯方法在图像处理领域具有广泛的应用,因为它可以有效地处理不确定性和模糊性问题。例如,小波域贝叶斯方法能有效地去除图像中的高斯白噪声。

自然语言处理

自然语言处理(NLP)是人工智能领域的一个重要分支。贝叶斯方法在自然语言处理中的应用包括词嵌入学习、语义角色标注、命名实体识别、情感分析等。

参考资料

Bayesian Estimation.Statistics Library.2024-01-10