吴懿祺,肖 翔,古 晞
1.上海工程技术大学 数理与统计学院,上海 201620
2. 同济大学 数学科学学院,上海 200092
摘 要:在公共卫生、道路安全等应用领域,经常会同时出现零观测值、一观测值较多的情况。为更好地拟合这类数据,提出了0-1膨胀二项分布模型,在数据扩充的基础上,设计出隐变量的条件分布,运用传统的极大似然估计、EM算法下的极大似然估计及贝叶斯方法对模型参数进行估计。最后,对新型冠状病毒感染数据集进行了分析,研究表明,0-1膨胀二项分布的EM算法下的极大似然估计比传统的极大似然估计与贝叶斯方法要更加精确。
关键词: 0-1膨胀二项分布;数据扩充;极大似然估计;EM算法;贝叶斯估计
0 引言
计数数据一直是统计学研究的热点,在医疗卫生、金融证券、保险精算、工业生产等众多领域存在着大量的计数数据。泊松模型是用来处理计数数据常用的方法,然而在实际应用中,时常会遇到零和一过多(称之为“0-1膨胀”)的数据样本,例如,在COVID-19大流行中,个体在感染过一次新冠肺炎病毒后,自身就会产生抗体,使得其感染的次数可能最多为一次。又如,当前网络购物非常普遍,人们很少在实体服装店买衣服,即使在大型商场购物时,大家的心态只是看看款式,货比三家,因而,很多顾客选择不购买衣服或者只购买了一件衣服。这时如果仍然用传统的泊松模型进行拟合,会发现拟合效果很不理想。
国内外学者首先对零膨胀泊松分布(简称“ZIP”)进行了深入地研究,继而推广到0-1膨胀泊松分布(简称“ZOIP”),近年来取得了丰富的研究成果。Melkersson和Olsson (1999)在研究瑞典人看牙医的次数时,发现数据中出现了较多零和一,在此基础上提出了零一膨胀泊松模型。田震(2016)研究了零一膨胀回归模型及其参数估计,并基于数据删失模型和数据加权扰动模型对ZOIP模型进行统计诊断。Tang等(2017)通过引入隐变量,构造了ZOIP模型新的结构形式,采用极大似然估计与贝叶斯方法对模型进行参数估计,并对新加坡军团菌感染数据和美国底特律城市交通事故死亡数据进行研究,取得了较好的拟合效果。Liu等(2018)通过重参数化的方法,计算了ZOIP模型中参数的Jeffreys先验和reference先验,并进行了客观贝叶斯分析,拟合效果比使用naive flat先验要更好。夏丽丽和田茂再(2019)采用了局部多项式核回归法对ZOIP模型进行参数估计,结合EM算法和Newton-Raphson迭代法对参数进行近似求解,利用模拟结果论证了非参数方法的可行性,最后通过对糖尿病患者数据的实例分析,验证了该方法的有效性。
目前,国内外学者的研究主要集中在0-1膨胀泊松分布和0-1膨胀负二项分布,对0-1膨胀二项分布的研究几乎是一片空白。众所周知,泊松分布是二项分布的极限分布,但在实际应用中,观测数据值往往是有限的,如果采用0-1膨胀二项分布进行拟合,对于不同的观测数据集,可以选择不同的独立重复试验次数。这样就比选择0-1膨胀泊松分布进行拟合更加具有灵活性。鉴于以上特点,本文提出了0-1膨胀二项分布模型,即一个伯努利分布与一个二项分布形成的混合分布,分别运用极大似然估计、EM算法下的极大似然估计及贝叶斯方法对模型参数进行估计,解释了一些具有实际意义而传统模型无法回答的问题。
1 0-1膨胀二项分布模型
2 极大似然估计
3 EM算法下的极大似然估计
4 贝叶斯估计
在贝叶斯方法推断中,无信息先验和共轭先验是常用的先验分布。对于0-1膨胀二项分布而言,很难获得精确的共轭先验,本节使用navie flat先验,相应的联合后验分布为
最后,对贝叶斯推断实施Gibbs抽样,具体步骤如下:
5 实例分析
新型冠状病毒肺炎给中国及世界人民带来了不可估量的威胁。因此,掌握新型冠状病毒病例的分布及其相关影响因素,是传染病溯源追踪的重要环节,也是实施防控策略的有效手段。
本文对2020年2月至3月湖北省各地级市与县级市感染病例进行研究。我们发现2月至3月之间以4天为间隔,很多城市的新增感染人数为0人或者1人。因此,本节采用0-1膨胀二项分布模型进行数据拟合,这样可以根据不同数据集灵活地指定,这里我们指定。不同方法下参数的点估计与区间估计如表1所示。从表1可以看出三种方法对参数的点估计效果相当,对于置信水平为0.95的区间估计,EM算法下的极大似然估计比传统的极大似然估计与贝叶斯方法要更加精确。这是因为在进行贝叶斯估计时,采用的是主观先验,未能充分运用样本数据信息,导致估计效果欠佳(这也是今后有待解决的问题)。
6 结语
本文针对零和一过多的样本数据提出了0-1膨胀二项分布模型,采用了极大似然估计,EM算法下的极大似然估计和贝叶斯方法进行参数估计。引入隐变量,通过隐变量的条件分布,在数据扩充的基础上,对样本数据的膨胀部分进行解释,并将复杂的似然函数形式转化为简单的表达形式,便于进行理论分析与实验模拟。在进行贝叶斯估计时使用了navie flat先验,效果不太理想,今后的研究中将推导出reference先验进行客观贝叶斯分析,以期获得更好的拟合结果。
参考文献:
[1] Lambert D. Zero-inflated Poisson regression, with an application to defects in manufacturing[J]. Technometrics, 1992, 34(1) .
[2] Bohning D, Dietz E, Schlattmann P, et al. Corrigendum: The zero-inflated Poisson model and the decayed, missing and filled teeth index in dental epidemiology[J].Journal of the Royal Statistical Society Series A, 2000, 160(1).
[3] Fahrmeir L, Echavarria L O. Structured additive regression for overdispersed and zero-inflated count data[J]. Applied Stochastic Models in Business and Industry, 2006, 22(4) .
[4] He X M, Xue H Q, Shi N Z. Sieve maximum likelihood estimation for doubly semiparametric zero-inflated Poisson models[J]. Journal of Multivariate Analysis, 2010,101(9) .
作者简介:吴懿祺(1998—),男,汉族,上海,本科,上海工程技术大学,统计学。
基金项目:全国统计科学研究项目(编号:2020LY080),上海市大学生创新训练计划项目(编号:cs2021003)