魏一通1 郑煜棋2 高 艺3 毕 潇4 郑宁婧5
(1.山东科技大学交通学院 山东青岛 266590 2.山东科技大学电气与自动化工程学院 山东 青岛 266590;3.山东科技大学智能装备学院 山东 泰安 271000)(4.山东科技大学数学与系统科学学院 山东 青岛 266590;5.山东科技大学机械电子工程学院 山东 青岛 266590)
摘要:本文主要针对新零售目标产品的精准需求的研究,利用各种相关因素对销售量的影响,做了基于机器学习建立预测模型,对预测模型进行优化,首先给出最优预测结果,计算得出相关预测值的 MAPE 结果。根据题目要求将目标 skc 筛选出来,并建立影响目标skc 销量的指标体系。其次根据所建立的指标体系整理数据并进行清洗、筛选、标准化处理等。最后选用多元回归与通径分析结合的方法分析各指标对假日目标skc 销量的影响并给出了影响程度排序,并给出各指标可能的影响方式的分析。
关键词:多元回归;通径分析;BP;神经网络;ARIMA;模型
引言
近年来,我国消费市场的不断发展使得市场上的消费模式已经逐步由“以物 为主”转变为“以客为主”。在新零售行业,这种现象也尤为明显。顾客不再把 性价比作为衡量是否购买物品的唯一标准,而是把更多的注意力放在“个性化、时尚、美观”等方面。这类不仅仅单一地追求实用性而是更多的考虑时尚性等个 性需求的特殊需求虽然推动着新零售企业的生产模式逐步向多产品、小批量迈进, 但同时也给零售行业的库存管理带来很大难题。这就导致当前大多数新零售企业 重点关注并思考的问题转变为如何根据层级复杂,品类繁多的历史销售数据,以 区域层级,小类层级乃至门店skc(单款单色)层级给出精准的需求预测。
1、问题分析
首先需要根据题目要求将目标 skc 筛选出来,并建立影响目标skc 销量的指标体系。其次根据所建立的指标体系整理数据进行清洗、筛选、标准化处理等。再次选用多元回归与通径分析结合的方法分析各指标对假日目标skc 销量的影响,并给出影响程度排序与影响方式的分析。并按月将目标小类的销售量进行汇总。其次对汇总的数据进行训练集与测试集划分,再次需要选择合适预测方法预测目标小类 2019 年 10 月 1 日后 3 个月的销售量,目标小类中的所有 skc 的销售数据进行周数据汇总并剔除过少的数据,在问题二研究的基础上对 BP 神经网络模型进行改进以提高预测精度更好进行低层级的预测。
2、模型的建立
遗传算法是一种寻优算法,在人工系统中实现特定目标的优化。遗传算法可通过群体搜索技术,逐个筛选,最终得到最优解或准最优解,将局部和整体有机的结合起来。可用其优化 BP 神经网络预测模型。遗传算法优化的 BP 神经网络结构包括确定个数的变量、层数和算法的复杂程度。利用遗传算法得到 BP 网络结构的最优个体作为权值和阈值,进而利用 BP 神经网络模型的主要功能得到预测值。
遗传算法改进 BP 神经网络流程示意图
将数据进行实数编码。其中,每组数据包含了数据整体的初始权值和阈值,在此过程中,遗传算法将参数初始化,便于后续步骤的进行, 输入输出变量已知,此时构成了一个网络清晰、权值和阈值确定的神经网络。由每组数据我们得到初始权值和阈值,然后利用 BP 神经网络对训练集训练,得到预测值。因为基于遗传算法优化的 BP 神经网络模型的局部处理不是很好,且内部关系是复杂的非线性关系,故采用支持向量机原理进行完善,它可以基于有限样本进行训练,利用统计学理论,在特征空间中,针对系统高度非线性回归问题。从而有效地解决非线性系统建模。
3、模型的求解
BP 神经网络算法的收敛速度较慢是由其算法究其本质是梯度下降法,出现“锯齿形现象”在所难免,使得 BP 算法低效。与此同时正因为目标函数的复杂, BP 网络的神经元输出在接近0 或1 的情况下,会出现一些平坦区,在这些平坦区内, 权值误差变化很小,使训练过程几乎停滞。另外,为了使网络执行BP 算法,必须预先赋予网络的步长更新规则,这样也会使得算法低效。因此本文引出利用遗传算法优化 BP 神经网络的优化方式。在 GA-BP 神经网络的优化后,依旧存在步长的选择问题,过大的步长会导致收敛过快引起不稳定,过小的步长虽然避免了不稳定,但是收敛速度就会很慢。于是针对于利用增加优化因子的方法再对 GA-BP 算法进行二次优化,利用该动量有效的改变的值,使得不再是一个恒定的值,引入这个优化因子之后,使得调节向着底部的平均方向变化,不至于产生大的摆动,即优化因子起到缓冲平滑的作用。
结合上面分析结果, 二次改进后wij = wij -hdjOi 的简单形式,wij (t +1) = wij (t) -hd j Oj + a{wij (t) - wij (t -1)}
其中,O 为各层元素的实际输出值。由每组数据我们得到初始权值和阈值,然后利用 BP 神经网络对训练集训练,得到预测值,把预测值和实际值之间的误差绝对值作为每组数据的适应值 F,计算公式如下:
式中,n 是网络的输出节点,yi 是 BP 神经网络第i 个节点的期望输出,xi 为第 i 个节点的预测输出, k 是系数。
利用适应值进行适应度比例法完成操作,计算公式如下[2] :
(式经过对GA-BP 神经网络预测值修正后,可以得到误差平方和 Ec ,及 E 的修正值。遗传算法是一种寻优算法,在人工系统中实现特定目标的优化。遗传算法可通过群体搜索技术,逐个筛选,最终得到最优解或准最优解,将局部和整体有机的结合起来。
可用其优化 BP 神经网络预测模型。遗传算法优化的 BP 神经网络结构包括确定个数的变量、层数和算法的复杂程度。利用遗传算法得到 BP 网络结构的最优个体作为权值和阈值,进而利用 BP 神经网络模型的主要功能得到预测值。
结论:
通径分析是一种将流行模型与多元回归相结合的因果关系综合分析方法。可应用于多基因遗传病学、社会学、经济学、农业及教育学等因素之间具有复杂关系的实际问题,可以揭示要素之间互相影响的程度,以及要素对所研究问题的直接与间接影响程度。ARIMA 模型是统计模型中常见的一种用来进行时间序列预测的模型,可以应用在股票研究、高速公路上的交通流研究、人口数预测等时间序列预测研究上。用于更高精度的预测,如天气预报、鱼群的迁徙预测等,与实际情况进行比对,修改训练参数,进一步减少误差;遗传算法在很多领域都十分有用,可用于电力系统进行无功优化求解,在水利土木工程发展中也能够进一步得到应用和推广。在进行多类别预测时能够大大提高预测的精度。
参考文献:
[1]丁志华,冯猜猜,刘振华.我国煤炭价格波动及其因素研究——基于通径分析理论[J].价格理论与实践,2015(09):33-35.
[2]曹洁,宋君远.新零售背景下的消费者行为影响因素分析[J].淮南师范学院学报,2018,20(02):22-25+45.