二分类预测准确度研究 ——基于判别分析和logistic回归的比较

发表时间:2020/11/24   来源:《教学与研究》2020年7月22期   作者: 龙潜1 令狐雨薇1 黄敏杰1 张娟1 陈永
[导读] 本文采用CGSS2015数据使用重抽样方法研究判别分析和回归在二分类预测准确度差异。
 
        龙潜1   令狐雨薇1   黄敏杰1   张娟1   陈永佳1   黄荣翠1
        (1.贵州师范学院 数学与大数据学院 贵州 贵阳 550018)
        摘要:本文采用CGSS2015数据使用重抽样方法研究判别分析和回归在二分类预测准确度差异。从样本中抽取不同样本量进行回归分析,结果显示:相同样本量下回归对两类别数据分类的正确率高于判别分析;判别分析对两类别预测的正确率较为接近且稳定,但回归对占比偏少的类别的分类正确率较低;随着样本量的增大,回归对占比较少类别的正确率有明显增加,从而提升总体正确率;判别分析对两类别预测的正确率无明显差异。
        关键词:判别分析;回归;预测准确度   





        作者简介:龙潜(1997~),男,贵州省毕节市,贵州师范学院统计学专业在读本科生
*通讯作者:令狐雨薇(1987~),女,贵州省遵义市,贵州师范学院讲师,研究方向:社会经济统计、人口统计
基金号:贵州师范学院大学生创新训练计划项目(201914223035《二分类预测准确度研究——基于判别分析和回归的比较》);“贵州师范学院大学生互联网+创新创业训练中心”(项目编号:黔教高发[2015]337号、黔教高发〔2017〕158号)
1.问题的提出
        中国知网数据表明,以为关键词的文章有4.86万篇,涵盖了40个学科,有宏观经济管理与发展(占比11.99%)、数学(占比6.74%)、农业经济(占比6.01%)、计算机软件及计算应用(占比5.26%)等;以判别分析为关键词的文章有4376篇,也涵盖了多个学科,其中有医学、生物学和经济管理等领域。由此可知分类问题在各学科的研究中都会经常遇见,常采用的分类方法有回归、判别分析、聚类分析等,其中回归是最为常用的方法,在多元分析中也较为常用判别分析的方法。
        鉴于二分类问题的广泛性与代表性,本文主要探讨二分类问题常采用的方法:回归和判别分析。回归是采用极大似然估计方法估计模型参数,根据回归的拟合值对观测数据进行分类;而判别分析是根据观测值与两个不同类别间距离差异进行分类,距离包括马氏距离和欧氏距离等。这两种分类方法简单实用,很多统计软件可以实现相关计算。它们有着广泛的应用,Biometrics、Biometrical Journal等学术刊物每年都会刊登很多关于判别分析和回归的论文。尹剑等[1]应用判别分析和回归研究组合分类。何宇强[2]等借助回归模型研究高速客运专线客流分担率。Zavg ren[3]利用判别分析和回归对保险公司破产原因进行分析,量化保险公司倒闭前5年的公司金融问题信号,作为金融风险概率显著性的评价方法。李萌[4]应用模型和判别分析研究商业银行信用风险评估。白玉峰[5]等在心血管功能进行定量的判别和预测中应用了判别分析。Lee、Hyun和Urrutia 利用回归模型预测非寿险公司偿付能力,并检测显著影响非寿险公司偿付能力的因素[6]。马鸿文[7]在 花岗岩成因类型的研究中运用了判别分析。
        判别分析和回归为解决实际分类问题提供了有价值的信息。但通过对知网文章的学习发现,现有的关于回归和判别分析的文章大多都是这两种方法的单独应用,极少数的文章会把两种方法比较使用得到分析结果。也就是说,大多数研究者都只是把研究的问题融入这两种方法进行解决,并没有过多的去关注这两种方法预测精准度的差异。针对这个问题,本文使用重抽样方法研究判别分析和回归在二分类预测准确度差异,为研究者提供相应问题最优方案以及初学者提供二分类问题常用分析模型的理论基础和指导方向,根据是否符合数据的分析要求、模型的预测精度是否达到最优等问题,选择建立较为合理的二分类问题分析模型,将其使用范围达到最佳,避免误用或缪用的情况,以便使高效和准确并存。
2二分类预测的原理
2.1 判别分析原理
        用数学语言表述就是,有个维类别,记为,…。对于一个未知样本,我们要判断它属于哪一个类别。解决这个问题的判别方法有很多种,常用的方法有距离判别分析、费歇尔()判别分析、贝叶斯()判别分析等。
2.1.1距离判别分析
        距离判别法根据距离的大小来判别类别。其基本思路是计算样本到各个类别之间的距离,样本离哪个类别近就属于哪一类。个维类别,…的均值(该类别所有样本的平均值)代表该类的中心,用,…表示,协方差矩阵分别为,…。则某未知样本到某类的距离就可以用与之间的距离表示,即。
        距离判别采用马氏距离的计算公式为:

        如果要判断样本是属于类还是类,可以计算:
        
        即为距离判别函数。当时,属于类;时,属于类。这就是距离判别分析的判别准则。
        距离判别分析具有简单、直观、易懂等优点,但是距离判别分析没有考虑到误判对判别结果的影响。
2.1.2费歇尔()判别分析
        判别分析的基本思想是方差小的样本倾向于成为一类,而方差大的样本倾向于不同的类。它的基本思想是投影,找到一个最大的投影方向,使得该方向上样本的组间方差和组内方差的比值达到最大。
        用数学语言表述为:对维空间中的点,找到一组线性函数

        一般的,也就是采用线性变换的方法将多维变量降低到低维。最佳投影方向即为最佳的判别方法。因此判别就是求一个线性变化,使所有多维样本降低到一维空间,并使它们组间方差和组内方差的比值达到最大。
        判别分析可以总结为如下步骤:
        (1)把样本分成两类,并计算各类的均值、和协方差矩阵分别为、。
(2)计算投影方向。
经数学推导,的计算公式如下:

        其中,即协方差矩阵之和。
        (3)对于未知样本,计算其投影方向。并分别计算其与两类的距离和。
        (4)计算判别函数,如果,属于第二类,反之,属于第一类。
        对于线性可分的样本,判别总能找到一个投影方向,使得降维后得到的样本仍然线性可分,且可分性要更好,即同一类别的样本之间的距离(组内协方差)尽可能的小,不同类别的样本之间的距离(组间协方差)尽可能的大。但是对线性不可分的样本判别无法确定最佳的分类函数。
2.1.3贝叶斯()判别分析
        假设,…是预先已知的个类别,为未知样本。引入概率的概念,样本属于类的先验概率用表示;后验概率用表示;类条件概率用表示。
        对于具有两个类别,的问题,在判断未知样本的归属时可能会出现两种误判情况:
        
        错判到贝叶斯判别公式充分考虑先验概率和后验概率,坚持最小错判率准则。贝叶斯公式为:
        
        对未知样本观察得分为,则属于第类的概率为:
        
        把观察样本并入后验概率最大的类别中。
2.2 归分析原理
        回归分析采用极大似然估计方法估计模型。设因变量为,当其取值为1时,代表事件发生:当其取值为0时,代表事件未发生。影响取值的个自变量为,…,假设观察事件在自变量作用下发生的条件概率为,则观察事件在自变量作用下不发生的条件概率为,
        
        
        由上述公式可知,事件发生的条件概率与事件不发生的条件概率都是由自变量构成的非线性函数。为了计算和应用方便我们引入一个定义:事件的发生比,即事件发生与不发生的概率之比,记为Odds,对Odds进行对数变换,便得到回归模型的线性模型:
        

        与判别分析等多元线性分析相比,回归分析具有许多独特的优点,例如对数据的正态性方差齐性不做要求、对自变量的类型不做要求、系数的可解释性等。
3 研究方法及分析
        本文为了研究判别分析和回归在二分类预测准确度差异,采用CGSS2015数据使用重抽样方法分别构建模型并计算各模型的准确度。原始的CGSS2015数据共有12368条,经过处理筛选后得到可用于分析的样本数据为8539条,为达到研究目的,本文将数据中的定性变量幸福感作为此次研究的因变量,将其划分为两类,幸福为一类,不幸福为另一类,其中幸福感为幸福的数据占有6694条,为不幸福的数据占有1845条。本文将8539条有效数据分为两个部分,训练集和测试集。训练集用于构建分类模型,测试集用于检验分类模型的正确率。通常情况下,在全部样本中抽取一定比例的样本作为训练集构建分类模型,在实际应用中,有时也将全部样本作为训练集进行模型的构建,计算模型对测试集的预判正确率,预判正确率最低的模型是最优的。本文在训练集样本的抽样时,采用重抽样方法,从全部样本量的5%开始随机抽样作为训练集进行模型的构建并计算各模型的预测正确率,然后逐渐增大随机抽样的比例,直至全部样本作为训练集。抽样比例确定后,对全部样本进行随机抽样,利用判别分析和回归进行分类,得到分类模型,将测试集用模型进行预测与测试集的原始结果相比较,计算预测正确率。每个抽样比例下抽样过程重复200次,研究同一抽样比例下模拟结果的波动以及两种分类方法的预测正确率。判别分析和回归的预测正确率平均值比较见表一。
表一 不同情况下预测测结果汇总表
 

         结果表明,在不同的抽样比例下,回归的正确率都优于判别分析,但在同一比例抽样中,回归对占比大的类别的分类正确率远高于对占比小的类别的分类正确率,而判别分析对不同类别的分类正确率无明显差异。在重复抽样过程中,抽样比例为5%时,回归的正确率最高为89%,最低为65%,200次实验的正确率平均值为82%,抽样比例为100%时,回归的正确率最高为90.3%,最低为83%,200次实验的正确率平均值为87.2%。判别分析也有此现象,即抽样比例较低时,正确率的波动范围较大,随着抽样比例的增大,正确率的波动范围随之减小。
4 结论
        针对二分类问题,本文利用重抽样方法研究判别分析和回归预测正确率。模拟结果显示:相同样本量下回归对两类别数据分类的正确率高于判别分析。判别分析对两类别预测的正确率较为接近且稳定,但回归对占比偏少的类别的分类正确率较低;随着样本量的增大,回归对占比较少类别的正确率有明显增加,从而提升总体正确率;判别分析对两类别预测的正确率无明显差异。判别分析和回归的预测正确率受训练集样本量的影响,训练集样本量占比越小,两种方法预测的正确率波动范围越大,且正确率相对较低;训练集样本量占比越大,两种方法预测的正确率波动范围就越小,且正确率相对较高。
        结论表明,在研究二分类问题时,若对两类别数据分类的预测正确率不做要求时,选择回归得到的总体正确率较为理想;若对两类别数据的分类正确率要求较高,应用判别分析得到的结果较为理想;为了提高整体的分类正确率,在选择样本容量时,建议选取最大样本量,并多次重复试验,便于得到稳定结果。

[参考文献]
[1]尹剑,陆程敏,杨贵军.判别分析与Logistic回归组合分类[J].数理统计与管理,2014,33(02):256-265.
[2]何宇强,毛保华,陈团生,杨静.高速客运专线客流分担率模型及其应用研究[J].铁道学报,2006(03):18-21.
[3]Christine V Zavg ren . Assessing the vulnerability to failure of American industrial firms :a logistic analysis[J].Journal of Business Finance and Accounting, 1985(3):19 -45.
[4]李萌.Logit模型在商业银行信用风险评估中的应用研究[J].管理科学,2005(02):33-38.
[5]白玉峰,耿美英,连江宏,罗志昌,张松,杨文鸣.逐步Bayes判别分析在心血管功能评定中的应用[J].北京工业大学学报,1994(01):54-60.
[6]Suk Hun Lee , Hyun Mo Sung, Jorge L Urrutia. The impact of the Persian gulf crisis on the prices of LDCs' loans[J].Journal of Financial Services Research, 1996(10):143 -162.
[7]马鸿文.花岗岩成因类型的判别分析[J].岩石学报,1992(04):341-350.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: