基于 FP-Growth 关联规则的农村电商推荐算法研究

发表时间:2020/9/25   来源:《科学与技术》2020年15期   作者:张荣臻
[导读] 农村电商的规模逐年增长,不过因为交通和信息的缺陷成本依然较高,
        张荣臻
        浙江经贸职业技术学院,浙江杭州,310018

        摘要:农村电商的规模逐年增长,不过因为交通和信息的缺陷成本依然较高,尤其影响农村电商上行成本。本文研究了一种基于FP-Growth关联规则的农村电商推荐算法,算法以皮尔逊相关系数为基础对商品进行K-means聚类,挖掘了潜在的连续购买关系,并据此推荐处于同区域内的若干相关商品。经离线评估,算法改进了订单撮合方法,提升上行订单的时间和空间集中度,降低了农村电商上行成本。

        关键词:农村电商;FP-Growth;K-means;关联规则

0 引言
        农村电商已经成为电商追逐的新蓝海,然而由于农村地区路远件少、信息不畅通等因素,使得电商进军农村市场存在诸多不便[1]。农村电商的成本依然较高,因此考虑在电商平台端进行优化以降低成本,本文就如何改进订单撮合方法来提升上行订单的时间和空间集中度进行了探索。
        电商网站通过推荐系统为相关客户推荐物品和提供一些参考意见,为用户提供购买帮助,能够代替销售人员帮助客户来实现整个购买程序[2]。推荐系统的主要优点是能够及时的给予用户推荐,并且能够主动地挖掘出用户潜在的购买可能,对于商家来说可以增加商品销售量,对于用户来说,省去了在海量商品中寻找自己感兴趣的商品[3]。本文研究了一种基于FP-Growth关联规则的推荐算法以提升农村电商上行订单的时间和空间集中度。
1 研究方法
        为了促成区域范围内的商品连续购买行为,可以参考历史数据中用户在12个小时区间内的连续购买行为,以此为依据进行商品推荐,这种推荐方法的核心是挖掘连续购买行为的关联规则。
        但这里有一些问题需要重点解决:历史数据中,限定时间内限定区域的集中购买行为很稀有,并不足以为关联规则的挖掘提供依据;商品的数量非常巨大,即使在不考虑区域限制的情况下连续购买行为也会被稀释,同样无法挖掘出规律。
        为了应对上述问题,首先要将稀释的连续购买行为密度提高。在海量的商品中,其实有很多商品的功用是一样的,所以完全可以把功用相同的商品合并为一类。但是,在现有的数据中,只包含商品的类目数据,对商品功用的衡量不够精确。所以,在商品类目相同的前提下,需要进一步采用商品的相似度进行聚类算法计算出细化分类,并将产生的商品细化分类编号作为一个字段记录下来。后续如果有之前未出现过的商品加入,经过一段时间的数据积累以后,可以通过比较商品相似度的方式确定其商品细化分类。
        确定了商品细化分类后,可以计算细化分类的关联规则,根据离线计算所得的关联规则可以方便地进行实时推荐。不过,在当前模型中关联规则定义的是细化分类的组合,根据规则只能计算应该推荐哪个细化分类,具体推荐哪件商品需要进一步在改区域的商品中排序得出。
1.1 K-means计算商品细化分类
        商品细化分类的计算,需要通过聚类算法来实现,K-means聚类算法目前应用最广泛的划分聚类算法之一。K-means算法的计算量是比较大的,幸运的是,这里只需要对每个大的商品类目下的若干商品进行聚类,极大地降低了计算量。
        距离计算是K-means算法成功的关键,其计算方法有很多种,包括欧氏距离、切比雪夫距离、闵可夫斯基距离、马氏距离、对称点距离、相关系数、余弦相似度、皮尔逊相关系数等[4]。在当前应用场景中,比较适合使用皮尔逊相关系数来度量商品之间的距离,其公式如下。
         
        其中,和分别表示用户u对物品i和j的评分,代表同时喜欢物品i和j的用户集合。这里的均值计算只考虑到同时喜欢物品i和j的用户集合,对于其他不涉及物品i和j的用户,不加到均值计算的过程中。
1.2 FP-Growth关联规则
        关联规则算法,可以发现交易数据库中不同商品之间的关联关系,获得有关顾客购买模式的一般性规则。Apriori是最经典关联规则挖掘算法,其核心理论为:频繁项集的子集是频繁项集;非频繁项集的超集是非频繁项集。不过Apriori的计算效率比较低下,FP-Growth算法的运算速度比Apriori算法快几个数量级,它不需要产生候选集就能够发现频繁项集[5]。所以这里选用了效率更高的FP-Grwoth算法进行商品的推荐。
        FP-Growth算法,把数据集中的事务映射到一棵FP-Tree上面,再根据这棵树找出频繁项集,整个构建过程只需要扫描两次数据集。其具体过程为:遍历数据集,统计各元素项出现次数,创建头指针表;移除头指针表中不满足最小值尺度的元素项;第二次遍历数据集,创建FP树。
2 实验
2.1 数据集与预处理
        阿里云天池实验室的淘宝用户行为数据集[6],数据集记录了987994名淘宝用户,在处理9439种商品类目的4162024件商品时,所产生的100150807条行为数据。数据集的用户行为包含点击、购买、加购、收藏,不过本算法的目标是促进连续购买行为,所以只采用商品购买行为数据,也进一步压缩了数据量。另外,数据集不包含商户的地理位置信息,不能直接用于本算法的实验,所以增加商户位置字段,该字段的值通过随机算法生成,考虑到全国乡镇总数共为91138个,随机数设置为1到91138范围内的整数,表示商户所处的乡镇编号。
        经过上述处理后,将数据传递到算法中进行实验,首先用训练集数据离线计算关联规则,之后在测试集中使用关联规则进行推荐并评估。
2.2 实验结果评估
        实验使用离线评估的方式进行验证,大部分情况下,推荐算法的验证使用了精确度、召回率、覆盖率这些指标。不过,本算法的策略与传统策略差异较大,使用离线评估的传统指标并不能真实反映算法的性能。在本算法中,推荐商品与推荐细化分类之间的皮尔逊相似度越大,则性能越接近于标准关联规则推荐算法。因此实验以平均皮尔逊相似度作为侧面评估指标,其公式如下。
        
        其中,n为推荐次数,m为单次推荐中被推荐的商品细化分类中包含的上去数量,表示被推荐的商品,表示同属某一分类的另一件商品。
        实验运行结果显示,平均皮尔逊相似度的值为0.83,造成了一定程度的精确度损失,但在时间和空间集中度上的改进足以弥补这一损失。
3 结语
        本文提出的基于FP-Growth关联规则的农村电商推荐算法,经离线评估验证,表现出预期的性能。不过由于策略的差异性,离线评估无法较好地进行横向比较,后续需进一步观测在线评估性能。
参考文献
[1] 贺国杰. 农村电商的物流瓶颈及应对措施[J]. 物流技术, 2015(14):61-62.
[2] 林韶娟. 基于信任网络的推荐系统研究[D]. 复旦大学, 2012.
[3] 刘彬. 推荐技术在电商平台中的应用研究[D]. 2019.
[4] 章永来, 周耀鉴. 聚类算法综述[J]. 计算机应用, 2019.
[5] 崔妍, 包志强. 关联规则挖掘综述[J]. 计算机应用研究, 2016, 33(002):330-334.
[6] 阿里云天池实验室. 淘宝用户行为数据集[DB/OL]. https://tianchi.aliyun.com/dataset/dataDetail?dataId=649.
浙江省供销合作社联合社资助项目(18SS08)
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: