薛凯泽
北京国家会计学院
1.前言
一般地,机器学习算法在金融风控领域得到较广泛应用,但受缺少坏样本标注的限制,导致模型精确率难以达到业务要求。现有异常检测方法中机器学习模型在应用于财务数据稽核中存在问题:财务数据繁杂,不同主体(公司)、不同科目、不同报销事件的财务数据存在巨大的差异,且财务数据普遍存在会计冲销、科目间账目调整等实际情况,以致现有异常检测方法难以区分正常数据与异常(违规)报销数据。
2.财务数据异常检测方法
财务数据异常检测,包括:从数据库中获取预定时间段的财务数据,并根据预定数据类别字段财务数据划分为多类子数据集;将每类子数据集基于子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;通过特征构造分别生成正数据集及负数据集的特征宽表,并对正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;第一异常数据的主体字段与负数据集的特征宽表中的主体字段进行比对,以确定第一异常数据中的风险数据。
从数据库中获取预定时间段的财务数据,并根据预定数据类别字段财务数据划分为多类子数据集,包括:从数据库中获取预定时间段的财务数据,并根据不同财务科目代码字段财务数据划分为不同科目的子数据集。
业务主体字段包括贷方原币字段;将每类子数据集基于子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集,包括:将每类子数据集中贷方原币字段中报销单号相同、两报销单的贷方原币字段的金额字段正负值相反且绝对值相同的报销单号对应的数据删除后,得到每类子数据集中冲销后的数据集;将每类子数据集中冲销后的数据集,根据贷方原币金额字段的正负值拆分为正数据集及负数据集。
通过特征构造分别生成正数据集及负数据集的特征宽表,并对正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表,包括:根据预设特征表中财务数据的通用统计特征和业务特征,对正数据集及负数据集分别进行特征构造,生成正数据集及负数据集的特征宽表;对正数据集的特征宽表中的机构按照机构规模基线划分为不同层级的机构,并对不同层级的机构的数据进行零均值归一化处理得到群组基线变换后的正数据集特征宽表。
第一异常数据的主体字段与负数据集的特征宽表中的主体字段进行比对,以确定第一异常数据中的风险数据,包括:第一异常数据的主体字段与负数据集的特征宽表中的主体字段进行比对,以确定第一异常数据的主体字段中是否存在与负数据集的特征宽表中主体字段相同的字段;如果第一异常数据的主体字段中存在与负数据集的特征宽表中主体字段相同的字段,则确定相同的字段对应的主体为预测异常数据主体;基于预测异常数据主体确定第一异常数据中的风险数据;风险数据上传至区块链中。
基于预测异常数据主体确定第一异常数据中的风险数据,包括:如果预测异常数据主体在第一异常数据中对应的时间晚于预测异常数据主体在负数据集的特征宽表中的对应的时间,则确定预测异常数据主体在第一异常数据中对应数据为风险数据;如果预测异常数据主体在第一异常数据中对应的时间早于预测异常数据主体在负数据集的特征宽表中的对应的时间,则获取预测异常数据主体的数据为负值时的后续时间的财务数据,以在基于后续时间的财务数据确定预测异常数据主体在第一异常数据中对应数据在后续时间不能够成功冲销处理时,确定预测异常数据主体在第一异常数据中对应数据为风险数据。
本方法还包括:扩大孤立森林算法模型的异常样本比例阈值;群组基线变换后的正数据集特征宽表输入扩大异常样本比例阈值后的孤立森林算法模型,得到第二异常数据;对第二异常数据进行聚类,得到多个异常数据簇,以基于多个异常数据簇获取异常数据模式。
3.财务数据异常检测方法装置
装置包括:划分模块,用于从数据库中获取预定时间段的财务数据,并根据预定数据类别字段财务数据划分为多类子数据集;拆分模块,用于将每类子数据集基于子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;构造模块,用于通过特征构造分别生成正数据集及负数据集的特征宽表,并对正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;预测模块,用于群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;确定模块,用于第一异常数据的主体字段与负数据集的特征宽表中的主体字段进行比对,以确定第一异常数据中的风险数据。
提供一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述任一项的方法。
提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的计算机可读指令;其中,处理器配置为经由执行计算机可读指令来执行上述任一项的方法。
4.数据流过程
首先,从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将获取的财务数据划分为多类子数据集;可以将财务数据划分为多类子数据集,可以在后续步骤中分别进行每类数据集中数据的分析处理。然后,将每类子数据集基于每类子数据集中数据来源的业务主体进行数据冲销处理后,拆分为正数据集及负数据集;可以通过数据来源的业务主体进行数据冲销处理剔除可以进行冲销处理的正常数据,进而将每类子数据集中剩余的数据通过拆分为可以代表财务数据的不同发生方向的正数据集及负数据集,可以在后续步骤只进行单向数据分析后双向对照验证分析风险数据。然后,通过特征构造分别生成正数据集及负数据集的特征宽表,并对正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;对代表不同财务数据发生方向的数据集构造便于风险分析的特征宽表后,通过群组基线划分得到包括不同基线级别的、具有数据可比较性的群组的特征宽表,保证数据异常分析的准确性。然后,将群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;通过无监督的孤立森林算法模型群组基线变换后的正数据集特征宽表进行分析可以可靠地的分析出异常数据,同时包括不同基线级别的、具有数据可比较性的群组的特征宽表可以保证无监督的孤立森林算法模型进行财务数据分析的准确性。最后,通过将第一异常数据的主体字段与负数据集的特征宽表中的主体字段进行比对,以确定第一异常数据中的风险数据,可以对孤立森林算法模型分析得到的正数据集中的第一异常数据中的主体字段,通过与财务数据发生方向相反的负数据集中的主体字段比较,进行确定第一异常数据中包括的主体是否满足正常财务操作下在两个方向的数据集都存在,进而进一步验证确定第一异常数据中的风险数据,进一步有效保证风险数据分析的可靠性和准确性。
5. 财务数据异常检测方法步骤
步骤一,从数据库中获取预定时间段的财务数据,并根据预定数据类别字段财务数据划分为多类子数据集;
步骤二,将每类子数据集基于子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;
步骤三,通过特征构造分别生成正数据集及负数据集的特征宽表,并对正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;
步骤四,群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;
步骤五,第一异常数据的主体字段与负数据集的特征宽表中的主体字段进行比对,以确定第一异常数据中的风险数据。
6.结束语
本领域技术人员在考虑这里公开的项目后,将容易想到实施例。旨在涵盖本的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本的一般性原理并包括未公开的本技术领域中的公知常识或惯用技术手段。
参考文献:
[1]基于MATLAB的时间序列异常检测方法探讨[J]. 王翔宇,张引琼. 电脑知识与技术. 2012(04)
[2]加强财务综合监管构建党风廉政建设长效机制[J]. 李山泉. 现代商业. 2010(20)
[3]加强行政单位财务监督工作的思考[J]. 解晓勇. 消费导刊. 2008(24)
[4]时间序列异常检测[J]. 周大镯,刘月芬,马文秀. 计算机工程与应用. 2008(35)
[5]基于模糊模型支持向量机的混沌时间序列预测[J]. 崔万照,朱长纯,保文星,刘君华. 物理学报. 2005(07)
zhuolucheng2020@163.com