1.张震宇 2.赵琳 3.任腾云 4.陈刚 5.熊启桢
1.2.3.4.江苏电力信息技术有限公司 江苏南京 215000
5.南京外国语学校 江苏南京210000
摘要:预算自动化、智能化是现代企业管理的重要内容,为解决单位及专业部门年度预算与分配过程中缺乏科学性、急需技术支撑等问题。本文提出一种基于梯度提升回归(Gradient Boosting Decision Trees,GBDT)预测模型以提升资源配置的高效性与科学性。首先,从地市公司及业务域两个维度,分析历年预算分配数据及其影响因素,对数据集进行预处理并利用梯度提升回归算法进行模型构建;其次优化模型中的相关参数。最终通过输入相关影响因素,实现电网企业预算建议方案的自动生成。
关键词:梯度提升回归;电网企业预算;机器学习
一、引言
我国经济高速发展,人们的生活水平显著提高,用电需求也随之增加。为了满足人们的用电需求,电力公司需要长久健康的发展,因此电力公司需要不断完善自身管理。财务预算管理是电力公司管理的核心部分,但电力公司在财务预算管理中仍存在较多的问题。
现有电力公司对地市公司及业务域进行预算分配时,存在以经验为主的问题,缺少一套完整的科学体系结构和模型来保证预算分配的合理性和可行性,缺少相关技术支撑。
因此,本研究采用以机器学习算法为主的人工智能相关技术,结合历史预算、城市GDP等社会经济数据,建立预测模型以提高预算分配的科学性,解决现有电网企业预算分配中存在的不科学、不合理问题。从而为各专业资源统筹、培育财务管理新方法与新模式开辟新思路,并能够应用于不同的电力财务预测场景。
二、梯度提升回归算法
梯度提升回归算法GBDT(Gradient Boosting Decision Trees)由Friedman提出(Friedman J H,2001),基于集成学习中的Boosting思想,是对AdaBoost算法的一种改进。GBDT以CART回归树为基学习器,因此又可称作梯度提升回归算法。
(一)GBDT算法原理
GBDT算法是以CART回归树为基学习器的Boosting算法,利用加法模型与前向分步算法实现学习的优化过程。为解决一般损失函数的优化问题,GBDT利用损失函数的负梯度在当前模型的值作为前一轮基学习器的残差,拟合回归树。在负梯度方向上进行拟合,每轮训练都能让损失函数尽可能减小,加速收敛到局部或全局最优解(康传利,2019)。GBDT算法具体流程如下(李航,2012):
三、电网企业预算模型
(一)数据集分析
往年电网企业预算虽以经验为主,但与一些影响因素存在一定联系。其中,与电力公司内网数据,如:各地市公司(直属单位)员工人数、设备数量等18类数据有关。
同时,外网数据,如:城市GDP、人口及其他13类经济指标也从一定程度上影响电力系统预算。本模型数据集为2016-2019年某省13个地市公司年度预算、8个业务域年度预算及各参数数据。
(二)模型流程分析
1)获取样本数据参数(内网及外网数据)、地市公司年度预算、业务域年度预算。
2)对数据集进行预处理,并划分训练集及测试集。
3)将训练集输入到梯度提升回归算法中进行学习,并进行参数优化。
4)对预测结果及误差进行分析。
(三)对比模型及评价指标
为使本文使用的GBDT算法的预测结果具有可比性,选择AdaBoost算法及随机森林(RandomForest)算法作为对比模型。模型采用平均相对百分比误差(Average Relative Percentage Error,MAPE)进行衡量,其定义为:
其中,n表示样本数。
四、实验结果分析
以2016-2019年某省13个地市公司年度预算、8个业务域年度预算及各参数数据为数据集,按照1:4的比例划分测试集及训练集。
GBDT、AdaBoost、RandomForest在地市公司维度上的预测误差见表1;在业务域维度上的预测误差见表2。对表1及表2结果进行分析,可以得到以下结论:
1)相比于AdaBoost算法,GBDT算法的MAPE值更优。AdaBoost使用的是指数损失函数,该函数的缺点是对异常点非常敏感,因而在噪音过多的数据集上表现不佳。因此在本研究数据集上,GBDT算法的MAPE值更优。
2)相比于RandomForest算法,GBDT算法的MAPE值更优。RandomForest是Bagging的一个扩展变体,而GBDT基于Boosting。RandomForest在回归任务中的表现不如分类任务,因为其不能做出超越训练集数据范围的预测,在样本数据集噪声较大时容易过拟合。因此在本研究数据集上,GBDT算法的MAPE值更优。
五、总结
基于梯度提升回归算法的电网企业预算模型,利用历年地市公司年度预算、业务域年度预算及相关影响因素进行建模分析,预测未来年份地市公司及业务域的年度预算值。解决了现有电网企业预算分配中存在的不科学、不合理问题,为各专业资源统筹、培育财务管理新方法与新模式开辟新思路,并能够应用于不同的电力财务预测场景。
由于本研究所使用的数据集样本数量较少、所给历年预算值合理性有所欠缺及影响预算参数不全面等因素,难以训练精确的模型参数。随着数据集样本数量的增大、预算值合理性的提高,影响预算参数的完善,该电网企业预算模型将会取得更好的预测效果。
主要参考文献
[1]李航. 统计学习方法[M]. Qing hua da xue chu ban she, 2012.
[2]康传利,顾峻峰,刘兆威.梯度提升回归树的旅游流量预测模型[J].数学的实践与认识,2019,49(15):251-261.
[3]Friedman J H. Greedy function approximation: a gradient boosting machine[J]. Annals of statistics, 2001: 1189-1232.