基于混合模型的个性化推荐算法研究

发表时间:2021/7/2   来源:《中国建设信息化》2021年第4期   作者:仲崇欣 曾献辉1,2
[导读] 随着近年来新零售的蓬勃兴起,企业面对如此大的信息量时,要怎么样精准地推荐消费者自己想要的信息却成了一个令人困惑的问题,而智能化的推荐系统则成为关键武器。
        仲崇欣 曾献辉1,2
        1东华大学信息科学与技术学院,上海 201620
        2数字化纺织服装技术教育部工程研究中心,上海 201620
        摘要:随着近年来新零售的蓬勃兴起,企业面对如此大的信息量时,要怎么样精准地推荐消费者自己想要的信息却成了一个令人困惑的问题,而智能化的推荐系统则成为关键武器。本文提出了基于混合模型的智慧化推荐算法。研究分析了现有个性化推荐算法的局限性,提出了基于混合模型的个性化推荐算法,给出了该算法的构建流程与具体实现方法。最后,通过实验分析验证该模型的准确率。        
关键词:个性化推荐,智慧营销,混合模型
Research on personalized recommendation algorithm based on hybrid model
         1chongxin Zhong  2xianhui Zeng
         1College of Information Science and Technology Donghua University, Shanghai 201620, P. R. China
         2EngineeringResearch Center of Digitized Textile &Apparel Technology, Ministry of Education, Shanghai 201620, P. R. China
Abstract:
        With the vigorous rise of new retail in recent years, while enterprises have so much more data on, it comes with questions that how to recommend the wanted product that customers are eager to. Therefore, smart marketing will be powerful weapon for enterprises. Through lots of research on recommend algorithm, it will present why to choose the hybrid model for personalized algorithm and explain how to build this model and the method. Finally, hybrid model will be approved by the experiment.
Keywords: Personalized recommendation algorithm, smart marketing, hybrid algorithm



1引言

        随着新零售的蓬勃发展,AI结合大数据时代已经到来,个性化推荐技术作为智慧营销的常用手段,目前被众多的营销系统广泛使用,一般用于企业促进商品的购买与提升销量。
        个性化推荐一般由三个要素构成,分别是用户、项目以及推荐算法三项,运行模式主要是依照消费者以前的消费具体行为所产生的数据信息进行分析,然后再依据分析结果以及具体的数据信息架构消费者消费行为模型,通过项目模型来进行特种分析,最后根据用户的喜好来进行信息的推荐,通过信息列表的形式推荐给用户,至此就完成了整个系统的运作,如图1所示。个性化地筛选用户偏好进行推荐可以有效地过滤掉无用的信息。
        

        推荐系统的智能化已经能够较好地向客户提供可以供给其需求的服务,克服了信息过载的问题。当前的主流算法主要是根据协同过滤、内容和二部图进行推荐,有时也会将多种模式进行融合。
        随着推荐算法发展发展,同时也产生了一系列的问题,众多研究者也针对各种问题进行了各个方面的改进。例如,Massa等人在协同过滤运用中融合了信任模型,这促使算法的准确度大幅度提升,此后,更多的学者也开始采取协同过滤法的个性推荐算法,例如根据个人所主张的协同过滤的个性推荐或者融合了信任模型的过滤个性推荐等。很多大型企业在个性推荐的应用中也进行了创新和发明,如,亚马逊公司研究的图表、视频网站Netflix等都是基于过滤算法的个性推荐模型所创新出的软件,这些应用的出现无疑为大众提供了更好的服务。
        在2016年黄莹凭借对稀疏矩阵加以数据填充的方法将该算法的计算精确度进行了优化提升,具体的做法是通过目标用户和最近邻用户之间的相似程度的比较进行的,通过对最近邻用户的预测值对数据的稀疏性进行减弱。
        对内容进行推荐时,需要围绕用户的视角开展,对用户的兴趣加以分析才能够精确推出用户所期待的内容。在2016年李耀东等对协同过滤推荐引擎进行了深入的分析,并且对用户采用产品的搜索场景进行模拟,提取了主要的特征行为,并且对用户观影场景的概念加以总结,突出了用户观影情境的新概念,建设用户情感模型并且将之投入到推荐系统的开发中。
        在2009年周涛等人对二部图作为根据进行推荐算法分析,该算法的理论依据是物质扩散和热传导,与其他计算方式相比较而言,该算法能够有效解决数据的稀疏性。为将稀疏性的负面效用降到最低,在2016年李寒芳,吴东月等又通过用户聚类的二分图信用网络进行了算法的构建,其依据是通过对用户相似度的分析计算和群体间的信任机制将用户群体加以聚类,通过上述操作能够大幅提升数据的准确度。
2基于混合模型的智能个性推荐算法
2.1 问题分析
        在对众多的推荐系统研究中,尚未发现哪一种推荐算法可以完全满足零售企业智慧营销的需要。下面对一些主流的推荐算法中蕴含的问题加以考虑可以发展:
(1)以项目为基础研究内容的过滤推荐算法是当前最普遍采用的计算模式,凭借对用户以往的历史数据对用户未来的行为进行估算,进而采取推荐。但这个方法也会受到稀疏性以及冷启动等问题的影响。随着用户范围的不断扩增,以及项目信息的不断累加,系统性能也会出现受到影响的可能。
(2)以内容为基础进行推荐,可以以内容为中心,不必去衡量用户的信息,可以忽略稀疏性问题,同时也能够满足具有特殊兴趣爱好用户的需要,但是对内容的提取问题也层出不穷,但需要对内容的结构进行有效的总结。
(3)通过二部图进行推荐是具有逻辑性的,不需要考虑内容因素,只需要理顺选择与被选择双方的关系即可完成推荐,它的空间复杂度较高,难以高效的执行。
(4)根据关联挖掘进行推荐的方式是对事物与事物之间的关系进行梳理,挖掘事物之间存在的潜在的联系,但这样的计算方式较为复杂。
2.2混合推荐算法设计思路
        每一个算法都具有其独有的优势与缺陷,在实际应用的过程中,本文建议需要考虑对各种算法进行综合运用,以取长补短,发挥优势,以综合的算法运用来保证数据的准确。
        本文研究了以关联挖掘为基础的推荐算法和对项目进行协同过滤算法、二部图算法,针对这几种算法提出改进和组合模型构建方案,改进思路和流程如下:
        (1)在基以关联挖掘为基础的算法之中,通过频繁项集来挖掘相关程度、可信度号的项目,因此通过推荐筛选出的项目都具有一定的热度,同时能够将冷启动问题有效解决。
        (2)加权二部图的算法原则能够在一定范围内解决稀疏性的问题,同时还可以根据加权值推测出最符合用户兴趣的项目,可以形成最大程度的契合。
        (3)根据项目进行协同过滤的传统算法是根据项目的相似度进行的,故而在运算之前先将项目内所有的特征数据信息整合,再使用加权计算法来完成不同项目特征近似度的计算,同时还改善了相似度。
        最终将三个算法加以综合,可以提升推荐的准确程度,还能够提升列表的丰富程度,提供给用户更加优质的服务。
2.3算法改进与设计
        (1)引入加权二部图推荐机制
         目前很多系统都允许用户对产品和项目进行评分,评分越高说明用户越喜欢该项目。因此,不仅判断用户是否选择了该项目,还区分高低分对推荐结果的影响,w即用户-项目的边缘值,以ai代表用户,以bj指代选定的项目,若评价值>3,可推算则wij=1;以ui指代用户,以oj指将要被选择的项目,而评分值<3,那么就需要将wij设定为参数,而该参数数值是可以进行调整的,其数值调整区间为0-1。
         在完成消费者对具体项目评分的加权计算以后,就可以应用下面的公式(3-1)来表示不同消费者之间对于单一项目评价的近似度:
        
        (3-1)
         公式中的w取值可以为1、或0;以代表用户,相关指数权值的累加;表现的是项目之间相关内容信息所对应权值的总和。那么就可以使用下面的公式(3-2)对目标消费者从未进行评价的项目的评价预测结果进行计算。
        (3-2)
        其中,为用户间的相似度,为权值。
        (2)改良与优化的协同过滤算法
        以前的信息推送算法主要是以项目本身的信息为主体,在进行项目的相似程度推断时的依据主要是利用用户评分进行的,从中寻找相似关系,进而对项目的未来趋势进行预测分析和推荐。若起始时候的数据量太少,计算的相似度数值就缺乏精确度,以至于算法精度受到影响,但通过内容来进行推荐则可以尽可能的利用信息内容进行高效的相似度计算。
         根据内容去分析用户喜好,通过项目推荐挖掘用户的潜藏应用取向,这两个不同的算法完全可以结合使用,在实际应用中起到不同的作用,可以有效地提升计算结果的准确率,据此便可架构完备用户模型,用以确定用户需求来提供更加完善、全面的服务。
         本次研究中笔者对于信息推送算法的态度是将以项目内容为分析主体以及以用户为分析的算法进行结合,按照不同的分析主体所对应的信息熵来确定最终的权值,下面的图2所展示的就是融合后算法分析相似度的步骤。

        在计算和分析用户行为的近似程度时,需要对用户的行为信息进行统计,同时也需要了解项目的信息,推荐给用户项目的同时还被内容的推荐算法所限制着,这样的限制提供给了算法一定的阈值,可以丰富关于邻居推测的可信度。方法的融合可以确保数值可信度提升,互相取长补短,相辅相成。
        数据的评价值处于稀疏状态时,计算数值是缺乏可信度和准确性的,以至于算法的精度受到影响,文章指出应该将项目以及内容推送方式进行结合,在此基础之上还需要制定因为内容的不同导致信息熵发生变化而体现出来的具体权值。
        对项目特征进行准确的提取是达成数据精确的重要手段,需要对项目进行多角度的总结和归纳。例如,对商品的标签、项目评分信息可以帮助准确掌握项目的介绍与特征。所以对多个普遍属性进行统计,在此基础上再进行更深入的属性划分。比如,产品属性信息包括其品牌、特征、编号以及名称。
最常见的评分准则是通过5星打分制度进行的,用户对产品的满意度可以通过评分矩阵进行判定,此处可以分为两个内容,第一是评分信息,通过综合评分信息的相似性来进行项目关系的明确,第二是评分隐含信息的分析,即产品的销售数量以及受欢迎程度。
项目均可以通过0,1向量进行表示,相似度的计算可以采用余弦相似度求取,具体的运算公式如下(3-3)所示。
        (3-3)
        在公式(3-3)中,其中表示项目i和项目j属性集合的交集。该方法并未对不同属性对于推荐结果的影响作用进行分析,为了对此内容进行分析,需要加入信息熵作为权重,构建加权余弦相似度的度量方式。作为抽象的概念——信息,信息熵可以解决信息度量化问题,如公式(3-4)所示。
        (3-4)
        分析上面的公式,其中X所指代的含义是计算中的随机变量,而n则表示的是随机变量具体的数值,所指代的是随机变量在赋值的过程中第i种的概率,应用此公式能够通过准确的运算对信息的不确定性进行确定。依据本文提到的属性内容来说,取值仅有两种可能,有或无,用1或者0来便是。
最后,需要对用户-项目的评分矩阵来进行改进,由皮尔逊相似度来求取产品相似度sim2。
2.4混合模型设计
        (1)投票法生成推荐列表
         根据以上改进方案,本文把基于关联挖掘的推荐、融合内容相似度后的基于对项目的总结归纳进行推荐、通过加权二部图的推荐这三种算法求取结果,首先依据投票方式获取推荐列表。依据投票法获取的产品列表数目具有差异,应采取与之适应的信息推送体系来完成推送工作。
         商品信息推送表单中应当涵盖所有投票数值超过1的商品,如果选票大于1的产品个数≥推荐产品数目,就需要经过降序对推荐列表产品进行分值排列,以此进行产品数目的增减,最后才能够形成推荐列表,如图3所示。此外,若先获取的列表的部分数据,另一部分则需采取更新权重的模式获取推荐。

        (2)更新权重生成推荐列表
         假如信息推送表单中的某个信息的推送数值比预设的数值要小那么此时就需要对该权重数值进行重新计算以后确定新的信息推送表单。当我们得到了新的表单以后还需要重新计算该表单的召回率,在得到初步计算得出的召回率以后需要对其进行归一化处理,处理过后重新分配输入不同信息的权重数值,在此基础之上还需要对其进行进一步归一化处理就可以将表单中不同的信息按照权重数值的高低进行排列,这样就可以最终得出一个全新的信息推送表单。此时依照关联挖掘的反馈对权重值进行进一步修改,并且还需要通过协同过滤以及二部图的具体反馈来重新对权重进行赋值,如下图4所示。

        具体的步骤(假设总共推荐的是M个产品)如表1所示。
表1生成推荐列表实现步骤
Table.1 Implementation steps of generating recommendation list


         在这里首先假定使用a-z英文字母来指代给消费者A推送的具体商品,而N-itembased以及bi-net所指代的是两个不同的推荐算法,这两个算法给消费者推送的产品信息分别都是六个,但是类型不同。而算法Apriori则是按照商品的置信程度,商品支持率以及提升度来针对消费者进行商品推送,意味着该算法最终推送的商品个数可能和上述的两个算法都不一样,下面的表2所展示的就是三种不同算法计算出的不同的商品信息推送表单。

3实验与分析
3.1实验数据
         本次实验用到的数据集是来源于A企业的销售购买数据和用户信息。本文选取的是2020年1月1日00:00:00到2020年10月31日00:00:00这一时间段采集到的数据集。其中包含了31200个销售订单资源信息和20020个系统使用者,值得一提的是收集到的所有商品都被100个或以上的系统用户评价。本系统对于商品的评分体系中5分为最高分,并且每个评价的分值的跨度是0.5,最低分设置为0.5分没有设置零分选项。
3.2实验环境
        表3本次实验活动所需要的软件以及硬件的具体情况,以及对应的版本参数。

3.3 实验效果与分析
         根据二部图推荐算法的分析,将数值的大小进行差异化处理,用户与项目都被赋予权值,对于相关参数的选择中。也能够发现召回率会因权重的不同而出现差别,当权重值等于0.3时的推荐成果最佳。如图5可知加权二部图的召回率相较于没有加权的二部图更具有优势,且高达十个百分比。



         如图6,可以将信息熵的融合项目推荐模式进行统计,同时发现此时推荐的召回率以及相似度要高于独立项目推荐的召回率和相似度。



         下图7所展示的就是针对多个改良优化后的算法与融合推荐算法中的召回率指标进行横向比对的结果,通过图片可以直观地看到,本文提出的融合混合推荐算法的召回率相比较于其他的算法来说明显要高出一大截,甚至高达百分之二十,具有显著的优势。同时也说明在不同算法的混合中,推荐的准确率大幅提升。


4总结与展望
        随着新零售与智慧营销时代到来,推荐系统越来越担负其智能化的关键角色。现如今,由于任何一种单一的推荐算法已经无法达到智能化的要求,不得不探索一种新的方法。本文通过融合的角度出发,主要解决传统个性化推荐算法的局限性。提出基于融合后的关联挖掘、融合信息熵的内容与项目相似度计算,以及基于加权二部图的方法,将结果融合后进行召回,可以最终结合了各个算法的优势和避免其缺点,最终获得更加智能化的推荐结果。
        
        
        
        
参考文献:
[1]房璐璐. 基于大数据分析的推荐系统研究[D].北京邮电大学,2015.
[2]杨志伟. 基于Spark平台推荐系统研究[D].中国科学技术大学,2015.
[3]王鹏. 基于矩阵分解的推荐系统算法研究[D].北京交通大学,2015.
[4]单京晶. 基于内容的个性化推荐系统研究[D].东北师范大学,2015.
[5]赵向宇. Top-N协同过滤推荐技术研究[D].北京理工大学,2014.
[6]张志军. 社交网络中个性化推荐模型及算法研究[D].山东师范大学,2015.
[7]王静金. 基于位置社交网络的个性化地点推荐算法研究[D].厦门大学,2014.
[8]袁利. 基于聚类的协同过滤个性化推荐算法研究[D].华中师范大学,2014.
[9]宋瑞平. 混合推荐算法的研究[D].兰州大学,2014.
[10]朱文奇. 推荐系统用户相似度计算方法研究[D].重庆大学,2014.
[11]余永红. 融合多源信息的推荐算法研究[D].南京大学,2017.
[12]陈清浩. 基于SVD的协同过滤推荐算法研究[D].西南交通大学,2015.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: