泊松分布(英语:Poisson 广义函数),是一种概率论与统计学中常见到的离散型随机变量的分布。
1711年,法国数学家亚伯拉罕·德·莫弗尔(Abraham de Moivre)在论文中提到过离散型变量分布。1837年,法国数学家西莫恩·德尼·泊松(Siméon Denis Poisson)在他的《概率在刑事与民事诉讼方面应用的研究》中首次提出泊松分布的概念。后续,一些统计学家也对其进行了更深入的研究。
泊松分布具有几个基本性质,如平稳性、独立增量性、普通性,参数既是期望也是方差。与泊松分布相关的概念为二项分布。若二项分布的试验次数n很大,二项分布的概率p很小,且乘积 λ=np比较适中,则事件出现的次数的概率可以用泊松分布来逼近,从而简化计算量。泊松分布在生物、医学、航空等领域具有广泛的应用价值,如在生物学中,可以利用泊松分布原理来描述减数分裂过程中染色体上某区段交换的分布,帮助解决遗传问题。
定义
泊松分布(Poisson 广义函数)是一种重要的离散型分布,若离散型随机变量可取一切自然数值,且有,则称服从参数的泊松分布,其中,是自然对数的底,此分布的平均值,标准差。
简史
1711年,法国数学家亚伯拉罕·德·莫弗尔(Abraham de Moivre)在论文中提到过离散型变量概率事件。之后,1837年,法国数学家泊松(Siméon Denis 西莫恩·泊松)在著作《概率在刑事与民事诉讼方面应用的研究》(Recherches sur la probabilité des jugements en matièrecriminelle et en matière Civile)中首次提出了泊松分布的概念,描述了离散型变量的分布情况。在泊松提出这个概念后,有一些作者认为1711年德·莫弗尔早一步提到过,应该用他的名字命名。
1860年,西蒙·纽康(Simon Newcomb)将泊松分布拟合为单位空间中发现的恒星数量。1898年,德国统计学家鲍特凯维茨(Ladislaus Bortkiewicz)对这种分布进行了进一步的实际应用,他利用泊松分布调查普鲁士军队中被马踢意外死亡的士兵人数。
举例
生活以及试验研究中很多现象服从泊松分布,下面举两个经典的实例。
例1:对上海市某公共汽车站的客流进行调查,统计了某天上午10:30至11:47左右每隔20秒钟来到的乘客批数(每批可能有数人同时来到),共得230个记录,分别计算了来到0批,1批,2批,3批,4批及4批以上乘客的时间区间的频数,结果如下图1所示,其相应的频率与的泊松分布符合。
例2:放射性物质放射出的质点数是服从泊松分布的有名例子。1910年,欧内斯特·卢瑟福(Rutherford)等人的实验揭露了这个事实。在这个实验中,观察了长为7.5秒的时间间隔里到达某指定区域的质点数,共观察了次,图2给出观察值与理论值的对照,表示在次观察中发生“在7.5秒内落到指定区域的质点数为”的观察次数,理论值是,理论值与实验值很近似。
性质
一般地,若用表示时间区间中某一事件发生的次数,且这一事件的发生满足一下性质,则服从泊松分布。
平稳性
只与和有关。
独立增量性
对任意不相交的区间,,,相互独立。
普通性
。
期望与方差
在泊松分布中,唯一的参数,既是数学期望也是方差。
推导如下,设随机变量,则
这表明泊松分布的数学期望就是参数。
又因为
由此得的方差为。
相关概念
二项分布
在重伯努利实验中,某一随机事件发生的次数是随机变量,若的所有可能取值为,其分布列为,其中为随机事件发生的概率,由于上述概率正好为二项式的展开式中的各项,故称上述的分布为二项分布。
与泊松分布的联系
泊松分布可以作为二项分布的一种近似,在二项分布中,当较大时,计算量较大,而在较大且较小时使用以下的泊松定理,可以减少二项分布中的计算量。
泊松定理:在独立试验中,以代表事件在试验中出现的概率,它与试验总数有关,如果,当时,
证明:记,则
由于固定的有,
及
因此;
,,为泊松分布,是它的参数。
统计推断
参数估计是统计学的重要概念之一,运用从总体抽取的随机样本对总体分布中的未知参数值做出估计,可以将均匀分布等统计模型应用于实践,是一种重要的统计推断方法。
最大似然估计
最大似然估计的定义:设的函数,具有单值反函数,,又设是的概率分布中参数的最大似然估计,则为的最大似然估计。
泊松分布参数的两个最大似然估计:根据以上事实,考虑到的单调性,的一个最大似然估计为。
该参数还有另一个最大似然估计量,为此对样本作如下交换,这样得到来自总体的样本,其中服从伯努利分布,其中,这正是待估计的参数,容易知道的最大似然估计为的样本均值,其中为示性函数。这样就得到同一个参数的两个最大似然估计量:,。
贝叶斯估计
贝叶斯定理:设为无穷或可列个互不相容的事件,满足,,,则对任一事件,有。
松分布参数的贝叶斯估计:
令,在损失函数,对于任何先验公布,参数的贝叶斯估计为。
若参数的先验分布为,,则的贝叶斯估计,并且是可容许的。
区间估计
区间估计的定义:设是总体的分布函数,是变元,是参数。给定了一个概率数值,再由样本确定两个参数值及,使得对于给定值,满足,则随机区间称为参数的置信区间或区间估计。
泊松分布参数的最大后验区间估计:在先验分布,下,对给定置信概率,参数的最大后验区间估计为。
应用
航空领域
航空领域一些设备的研究,可用到泊松分布。如为了确定发动机轮盘安全寿命,在航空发动机轮盘低循环疲劳寿命评估试验中,针对基于中位、最小和最大寿命的寿命分散系数存在预估可靠寿命偏低的问题。根据失效部位出现次数服从泊松分布的假设和次序统计量理论,推导了一种新轮盘寿命散度计算公式,并提出一种轮盘安全寿命的估计方法。根据方法确定发动机零部件寿命,从而降低使用成本。
生物学
泊松分布在遗传学、生物物理学、病毒学及分子生物学上有着广泛应用。在遗传学上,计算遗传图距的基本方法是建立在重组率基础上的,根据重组率的大小作出有关基因间的距离,绘出线性基因图:可是,如果所研究的两基因座相距甚远,其间可发生双交换、三交换、四交换或更高数目交换,而形成的配子总有一半是非重组型的。若简单地把重组率看作交换率,交换率自然就被减低了,图距也随之缩小。那么,这时就可以利用泊松分布原理来描述减数分裂过程中染色体上某区段交换的分布。
医学
泊松分布可作为传染病早期预警方法,还可以早期预警流行性腮腺炎疾病。病的流行受多种因素共同作用,在不同地区和时间会呈现出很强的复杂性和不确定性。利用泊松分布原理,用整体预警和分段预警分别对流行性腮腺炎疾病进行早期预警,可以减少损失。泊松分布适合于描述单位时间(或空间)内随机事件发生的次数,一般用来描述小概率事件发生的规律性,传染病的暴发或聚集性属于单位时问(空间)内稀有事件。观察对象在一段时间内的均值为次,代入泊松分布公式,设某种罕见疾病在某一周期内的平均发病水平(均值)为,则可以根据这一平均水平计算该种疾病发生例病例时的概率,若的概率大于给定的(通常取0.05)水准,且的概率小于给定的水准时,由于此时出现的概率为小概率事件,认为其在通常情况下不会发生,此时即为发生与不发生的临界值(或称预警值)。
参考资料
Siméon Denis Poisson.mathshistory.2024-01-06
The Mathematical monthly v. 2 (1860). - Full View | HathiTrust Digital Library.babel.hathitrust.org.2023-12-28