基于平衡随机森林对财务数据造假上市公司的判断

发表时间:2021/7/5   来源:《基层建设》2021年第10期   作者:刘洋 杜文杰 张若冰
[导读] 摘要:针对上市公司财务数据造假判断的难题,本文使用一种基于平衡随机森林(BalancedRandomForestClassifier)的分类方法,以取得较好的分类效果。
        华北理工大学  河北唐山  063210
        摘要:针对上市公司财务数据造假判断的难题,本文使用一种基于平衡随机森林(BalancedRandomForestClassifier)的分类方法,以取得较好的分类效果。该方法通过对原始数据进行预处理后,选择10个最相关的特征来训练模型。实验表明,预测上市公司财务造假取得了较好的分类结果,模型在验证集上取得了G-mean值、召回率、F1值分别为0.659、0.764、0.724的效果。该模型具有泛化能力较强、召回率高、训练速度快等特点,这为财务数据造假的上市公司识别研究提供了参考。
        关键词:造假公司预测;不平衡数据分析;平衡随机森林算法;SelectKBest
        1.引言
        随着我国经济的快速发展,证券市场不断扩容,不同行业、不同规模的上市公司不断增加,目前上市公司的数量已超过4000家。然而,近年来不时出现上市公司财务数据造假及暴雷的情况,2020年还出现了流动性危机及信用债违约等问题。这些问题提醒监管部门对上市公司进行有效监控。近年来,监管部门已加大了监管力度,对于出现严重财务数据造假、丧失持续经营能力的上市公司,强制退市是唯一的选项。作为专业投资者,研究一家上市公司的财务数据是否稳健,需要考虑相关的诸多因素。面对上市公司多年的财务数据报告,筛选数据指标进行跟踪分析和研究,识别真伪,避免投资踩雷。通过财务数据判断上市公司运转情况是一个重要的问题。
        2.数据与方法
        2.1 不平衡数据集
        在机器学习中我们经常会遇到数据不平衡问题。数据不平衡主要存在于有监督机器学习任务中。当遇到数据不平衡时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数样本的分类性能下降。因为财务造假的上市公司很少,所有本文数据集为不平衡数据集,本文的数据集来自于泰迪杯。对于不平衡数据集,绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。
        2.2 平衡随机森林
        随机森林算法是由许多决策树算法集成的,而决策树通过树的结构来构建分类模型,对所有属性进行信息增益或其他指标,将提供信息最大的属性作为根结点,然后划分数据集依次构建左右子树。其中,树的每个节点代表着一个属性,根据这个属性的划分,进入这个节点的儿子节点,直至叶子节点,每个叶子节点都表征着一定的类别,从而达到分类的目的。
        随机森林采用了集成学习的思想,集成学习是一种特殊的bagging方法,它将决策树用作bagging中的基分类器。首先,用bootstrap方法生成m个训练集。然后,对于每个训练集,构造一颗CART决策树,在节点找特征进行分裂的时候,不是对所有特征找到能使得指标(如信息增益)最大的,而是在特征中随机抽取一部分特征,在抽到的特征中间找到最优解,应用于节点,进行分裂。随机森林算法实际上相当于对于样本和特征都分别进行了欠采样,所以可以有效的避免算法的过拟合。虽然随机森林能够通过采样提高算法的性能。在一定程度上,减小采样数据的不平衡性,但是随机森林在不平衡数据集上效果也不理想。


        而平衡随机森林对传统的随机森林进行了进一步的改进,平衡随机森林与传统随机森林不同的是,平衡随机森林在采样生成数据子集的过程中使用采样了方法(例如SMOTE采样、随机欠采样、随机过采样等算法)平衡数据集,以减小了不平衡数据集对传统分类器的影响,提高了所有基学习器的性能,进而提高了算法整体的性能。
        3.实验过程
        3.1 实验步骤
        第一步,数据缺失值处理,先提取所有有标签的公司,然后删除5个取值只有一种的属性和1个全部为空的属性,规定一列缺失值大于65%的列为空缺值过多的属性,并进行删除。接下来,我们将使用均值填充的方法对缺失值进行填充。
        第二步,数据异常值检测,使用IQR对数据的每个属性进行检测,然后形成异常向量,将所有异常向量进行合并定义总异常向量,然后设置阈值通过总异常向量进行删除,本文阈值设置为40。
        第三步,数据分类标准化,由于各个行业属性的量纲不一样,直接将所有行业放在一起规范化可能会忽视不同行业量纲,所以我们将数据先按行业分组,然后对每个组进行标准化,再将所有子数据集合合并起来。
        第四步,特征选择,从所有特征中,选择出有意义、对模型有帮助的特征,以避免将无关特征都导入模型去训练,从而造成模型训练时间长,模型精度下降的情况。在本文中,使用SelectKBest方法进行选择,最终选取得分前10的特征做为模型的输入特征,做为最终的特征,然后采取平衡随机算法进行模型的训练及预测。
        3.2 实验结果
        在训练数据前,本文首先将数据集的70%数据划分为训练集,30%的数据划分为验证集,接下来使用训练集的数据来训练模型,使用验证集的数据对模型的性能进行评估。由于大部分公司都为正常公司,所以如果采样正确率来评价算法的性能是非常不合理的。算法对造假公司的判断则更加重要,所以本文采用G-mean、召回率、F1值等评价指标来评估模型。最终实验表明,该算法模型在验证集上的G-mean、召回率、F1值分别为0.659、0.764、0.724,取得了良好的结果。
        4.结语
        本文着重阐述如何利用对上市公司财务数据进行分析,进而选取与是否造假存在较大相关性的属性,使用平衡随机森林在数据集上进行训练,进而提高判断的准确率,从而快速而准确的判断公司财务数据是否造假,具有一定的现实意义。
        参考文献:
        [1]SHI Hongbo,CHEN Yuwen,CHEN Xin. Summary of research on SMOTE oversampling and its improved algorithms. CAAI Transactions on Intelligent Systems,2019,14(6):1073-1083. DOI:10.11992/tis.201906052.
        [2]Breiman,L. Random Forests. Machine Learning 45,5–32(2001). https://doi.org/10.10/ A23:10 -10933404324
        作者简介:
        刘洋(2000-)男,汉族,河北保定人,本科在读。研究方向:智能科学与技术。
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: