一种新冠疫情趋势预测是方法

发表时间:2020/12/21   来源:《科学与技术》2020年8月22期   作者:齐云飞
[导读] 随着 COVID-19 (新型冠状病毒)疫情大流行,很多科学界在努力阻止疫情传播
        齐云飞  
        北京明略软件系统有限公司  北京   100083

        摘要

        随着 COVID-19 (新型冠状病毒)疫情大流行,很多科学界在努力阻止疫情传播,其中之一就是预测流行病的趋势,以便为公众的决策提供依据。本文介绍了一个基于事件检测的 COVID-19预测系统, 系统从舆情数据中构建事件图谱,并引入仿真传染病模型作特征。系统的预测精度相较于传统传染病模 型有很大提高。
介绍

        随着COVID-19疫情的流行,科学界尝试了多种方法预测疾病的流行趋势,在经典的流行病研究
中,通常有两种流行病动力学研究模型:随机性和确定性模型。大多数时候使用的是确定性模型,因为  它需要的数据量较少并且操作简单、易于实现。就拿SEIR模型来说,一共包括4种人群,分别是易感人  群、暴露人群、感染人群和恢复人群。SEIR 相对于SIR 主要区别是:SEIR考虑了病毒潜伏期特性。然而,传统的传染病模型在大数据背景下存在很多缺点,最明显的缺点就是对突发事情的反应滞后性。
        在NLP(自然语言处理)任务中,事件检测一直是一个比较活跃的研究课题,并且最近在各大企业  中已经落地和部署了社交媒体数据分析系统。Twitter 等社交媒体通过检测实时事件,提供了名
为"Trends For You"的产品[1]。这样的服务系统激发了我们通过追踪 10 个与 COVID-19相关热门话题信息,并把它们转化成预测流行病模型的特征,进而提高预测能力。
        如何将传统流行病模型和事件检测模型融合起来,进而实现一个先进的模型来预测COVID-19疫情   走势?  首先,我们从疫情数据观察到各个国家和地区的疫情统计数据存在一定差异,所以我们设计了两种策略分别来解决不同的问题。一方面,我们系统根据国家和地区将疫情数据拆分,每个国家或者地区  采用不同的参数对传染病模型进行拟合与仿真。考虑到全球有100多个国家和地区,手工拟合和设置参  数是不现实的,因此我们设计了一个搜索最优参数的程序。另一方面,通过把来自舆情的事件数据表示  成图谱,我们系统把图谱转化成统计性特征,再用回归模型修正流行病模型的误差。我们系统采用公开  数据集并成功验证了系统的有效性,疫情统计数据集可以从以下链接下载:https://github.com/CSSEG ISandData/COVID-19。
相关模型研究

        在研究[2]中,黄建平、张立等人联合发表对新冠肺炎疫情全球预测系统,论文中利用了统计-动力   气候预测技术,把流行病模型与实时的气象环境等数据结合,预测世界各个国家疫情发展趋势。在研究 [3]中,上海理工大学管理学院的吴志强和王波提出一种组合式神经网络的疫情传播预测模型,模型主要 以1月29日-3月15日武汉数据进行预测。在研究[4]中,作者基于K-means聚类将各国疫情归为6大类,  并结合实事研究了6大类抗疫状况,采用了ARIMA时序模型进行预测分析,得到了非常好的效果。同样   采用ARIMA时序模型的还有研究[5],在论文作者采用经典的史学分析方法建模预测未来走势,得到的未 来5日的预测结果与实际数据比较吻合。
系统设计

传染病模型
COVID-19 和 SARS 类似,感染者一旦康复在短期内不会再被感染,同样也不会感染其他人。所以我们同样也采用SEIR模型,SEIR模型一共有4种人群,  表示易感者人数,  表示暴露人数(或者称为潜伏期人数),   表示感染者人数, 表示康复者人数,在SEIR中有4个微分方程,用来计算每   个时刻每种人群的数量,以下公式中    都是通过仿真学习的参数。









事件图谱模型
        SEIR   模型预测时候必然存在一定误差,我们构建事件为中心图谱作为特征,来矫正传统SEIR预测造成的误差。具体做法为,首先,从Twitter官方API获取舆情数据,建立事件图谱。之后,将图谱中每  个簇以簇大小为标准,从大到小排序,选择前10个簇为当前舆情特征表示。最后,把舆情特征、SEIR特  征和原始数据特征连接一起输入到XgBoost模型中做回归预测。事件图谱模型主要由事件抽取、事件连  接两部分组成。
事件抽取
        事件抽取的主要流程可以总结为:首先,对每批数据中每个帖子首先进行实体识别。之后,对当前  批次实体构建文档级别的共现矩阵(系统假设每篇帖子会只涉及一个事件)。最后,经过DBScan算法   对实体进行聚类。在我们实验中,每批数据大概有100篇帖子,平均可以识别出230-260个实体,大约 形成60个簇。
        系统通过Twitter  官方API,随机抽取1500条帖子,并对获取的数据进行实体识别。系统规定实体应该满足一下两个特征:1. 实体是文中标记为Hash tag 的词;2. 通过Stanford CoreNLP 识别的人名、地名、组织机构。之后,对识别出的实体建立文档级别的共现矩阵。最后,以共现矩阵为特征利用DBSCAN算法将识别的实体进行聚类。
        是实体聚类工作完成之后,系统以簇为单位,对每个簇中实体构建边。系统把簇中每个两个实体配  对,计算实体对的杰卡德相似度,这样每个簇转化成为了带有权重边的实体关联图。
事件连接
        系统是按批处理舆情数据得到事件图,为了将不同时间跨度抽取的事件图进行合并系统采用二部图  算法把当前抽取的事件和历史事件合并,这样就可以模拟事件随时间的变化的动态特征,最终可形成事 件趋势流。
模型预测
        在我们的模型中,SEIR   模型认为是捕获了病毒传播机制,事件趋势检测的目的是弥补SEIR不能对紧急事件作出及时相应的缺点。我们采用XgBoost  作为我们预测模型,模型一共有三组特征:原始数据特征,SEIR预测特征、事件趋势特征。原始数据特征包括:地区、国家、日期。针对日期数据,我们提  取月和日,把它们当做数值特征使用。SEIR预测特征包括:当前预测易感人群数、预测确诊人数、预测  康复人数、预测死亡人数。对于事件特征我们把预测当前的筛选事件的簇大小作为特征,筛选规则为:  把事件当前事件图谱从大到小排序,选择前10个事件的簇大小作为特征。
实验


        文章采用 Johns Hopkins CSSE 发布的数据集,数据集收录了265个国家和地区从2020年1月22日开始到2020年8月25日全球报告的疫情数据。数据集大致由三部分组成:每个国家或地区每日确诊人  数,每个国家或地区每日死亡人数,每个国家或地区每日恢复人数。
        值得注意的是,给定的数据集中确诊人数是指每天累计病例数,不符合SEIR模型的假设。SEIR模型  中确诊人数表示到目前为止当前的确诊人数,因此需要对数据做进一步处理。从疫情来看,一旦确认病  人死亡,可以认为不会再对正常人具有传染性,因此,样本确诊病例处理如下: 当前确诊人数= 累计人数-恢复人数-死亡人数。
        易感人数   因地区而不同,比如: 我国采取了严格的出行限制并且强行佩戴口罩,这会大大降低易感人群的总数。分别为各个地区的单独估计    (  表示在模拟时间    时,易感总人数)。每个地区的易感总人数表示为该地区最大的感染人数乘以放大系数,放大系数从10到500   取值。    为每个地区最先发现疫情时感染者人数。    取值为0 。
        由于参数  会受到各种因素的影响(比如:地区防疫措施、人口密度、防疫设备等等),所以每个 地区  值会有很大差别,从传染病经验历史看,  取值一般在 0.1 到10 之间,所以,对  的取值范围限定在(0.1,10),步长为0.1。  表示潜伏者到确诊的概率,设置取值范围为 (0.1,1),步长为0.01。根据疫情发布数据和医学资料,病人恢复周期大概是14天,所以设置
        在模拟仿真中,把每天数据切分成100份,所以 192 天数据一共采样19200次,但是计算的总体损失依然是以天为单位即192天。各地区选择损失最小的模型作为该地区最终模型,通过确定后的模型预 测将来日期的确诊、恢复和死亡人数,再把这些数值作为下游回归模型的特征。
        在本实验中,利用XgBoost 算法对COVID-19 疫情数据集进行训练,主要是为了拟合预测结果的残差,并且以MAE(绝对平均误差)作为训练的目标和评价指标。我们需要预测两列:确诊人数和死亡人  数。因此,评价标准必须分别对两类人数进行评估,然后再计算两个评估指标的平均值。实验结果如下  所示:



        上表展示了五种模型的的评价指标,其中Base表示对于所有国家和地区均采用同样的SEIR模型结   果,M1表示对于每个国家和地区单独训练SEIR,并且融合日期特征和事件等特征建立模型的结果。M2 相较与M1 去除了舆情事件特征,M3和M4 分别以SEIR 和SEIR与舆情事件作为特征进行回归拟合。
        通过观察以上的实验结果说明,M1融合了事件特征以及国家和时间特征达到了最优效果,并且效  果非常明显;从M1与M2比较可以看到,舆情事件特征对提升准确率非常有帮助,特别是对确诊人数准  确率的提升特别明显,通过M3和M4 结果对比也可以证明这一点。
结论

        文章设计的预测系统主要有三方面成果:首先,设计和实现了COVID-19    事件趋势检测系统。第二,设计基于事件图谱统计特征与传统传染病特征融合的方法,并通过XgBoogt模型对死亡和确认人数 进行了预测。第三,通过实验结果数据可以证明,加入舆情数据对于预测确诊人数和死亡人数都会有非  常大的帮助。


引用文献
[1]Fedoryszak, Mateusz, et al. "Real-Time Event Detection on Social Data Streams." Proceedings of the 25th CM SIGKDD International Confer ence on Knowledge Discovery & Data Mining, 2019, pp. 2774–2782.
[2]黄建平,张立,刘晓岳,魏韵,刘楚薇,连鑫博,黄忠伟,丑纪范,刘兴荣,李汛,杨克虎,汪金国,梁洪彬,顾仟青,杜鹏岳,张廷瀚.新冠肺炎疫情全球预测系统(英文)[ J].Science Bulletin,2020,65(22):1884-1887.
[3]吴志强,王波.基于组合神经网络模型的新冠疫情传播预测分析[ J].软件导刊,2020,19(10):15-19.
[4]林德双,金秀玲,刘文鑫,黄正鹏,黄怡宣.新冠肺炎疫情预测分析[ J].黑龙江工业学院学报(综合版),2020,20(09):114-119.
[5]纪安之,杨雪梅.基于ARIMA模型的新冠肺炎序列分析预测[ J].价值工程,2020,39(18):107-109.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: