基于LSTM网络的产品评论分析研究黄欣然

发表时间:2020/10/9   来源:《论证与研究》2020年8期   作者:黄欣然
[导读] 摘要:通过使用星级评定和提交更多关于产品的意见和信息,客户有机会对他们的购买进行评估。一旦他们的评论显示出来,就可以帮助其他客户作出产品是否购买的决定。阳光公司希望利用这些数据来更深入地了解他们所参与的市场与时机。本文通过对该公司的三个产品的相关评论进行数据挖掘与分析,通过实验得到了针对一个评论的结构分析得分和情感分析得分,分别赋予他们30%和70%的权重,以此作为评论的最终得分,以帮助该公司更好

                                                                            黄欣然
                                      (南京师范大学强化培养学院 江苏省 南京市 210023)
         摘要:通过使用星级评定和提交更多关于产品的意见和信息,客户有机会对他们的购买进行评估。一旦他们的评论显示出来,就可以帮助其他客户作出产品是否购买的决定。阳光公司希望利用这些数据来更深入地了解他们所参与的市场与时机。本文通过对该公司的三个产品的相关评论进行数据挖掘与分析,通过实验得到了针对一个评论的结构分析得分和情感分析得分,分别赋予他们30%和70%的权重,以此作为评论的最终得分,以帮助该公司更好的制定发展策略。
         关键词:产品评论;LSTM网络;情感分析
        引言
        本文需要研究产品的声誉其随时间发展变化的规律。这就需要通过研究该事物过去发展的历史记录,以得到其自身发展的规律。在现实中很多问题,如利率波动、收益率变化、反映股市行情的各种指数等通常都可以表达为时间序列数据,通过研究这些数据,发现这些经济变量的变化规律(对于某些变量来说,影响其发展变化的因素太多,或者是主要影响变量的数据难以收集,以至于难以建立回归模型来发现其变化发展规律,此时,时间序列分析模型就显现其优势——因为这类模型不需要建立因果关系模型,仅需要其变量本身的数据就可以建模)。而时间序列分析中,LSTM(Long Short Term Memory Network)长短时记忆网络,是一种改进之后的循环神经网络,可以解决 RNN 无法处理长距离的依赖的问题,广泛的应用于时间序列预测问题上面。
        1 数据处理
        根据所给数据可知,一件产品的评论的可靠度不仅仅依赖于评论本身撰写的质量如何,也同样依赖于是否是官方认证的测评以及是否得到其他人的认可。因此在评价评论的可靠度的时候,在对原有文本评论的处理下,我们尤其选择了helpful votes和vine两个指标,对其进行灰色关联分析,得到其影响可靠性的权重,赋予其相应的比例,依此我们最终得到评论的可靠度评分。
        我们认为一个产品的声誉由多个部分组成,所以首先综合考虑star-rating和刚刚得到的评论的得分。为了将两项指标在同一维度下考虑,我们将star-rating的5分制映射到(-1,1)之间。获得了同一纬度的star-rating和评论得分后,我们参考专家评估法得到两者的权重分别为30%和70%,这样就得到了一个产品的好评度。然后我们观察其他指标,对vine, verified purchase, helpful votes利用独立性分析分别加权,最终得到一个产品在每一天的声誉。通过每条评论记录的star_rating和review_score(更具评论结构得分和评论情感得分)使用下式得到产品声誉:
       

     2 LSTM网络构建
        将各个产品的数据根据日期作为主键(唯一值)构建了一个新的表,里面的属性包括每日的总声誉,每日的产品销售数量,每日的平均星级,每日平均评论情感得分,每日亚马逊认证者评论总数,每日亚马逊验证购买者总数。
        LSTM流程如下:
        1.使用上述新建的6项作为特征数据,准备用于神经网络的构建
        2.我们认为商人售卖产品的目的是为了赚取利润,因此在不考虑不同产品的利润不同的情况下,我们认为卖的越多的产品是好产品,因此在这个LSTM神经网络中我们将上面六个特征作为模型的输入,将其中的“每日的产品销售数量”作为模型的输出数据
        3.我们认为今后5天的商品售卖情况与过去30天的的售卖情况是相关的,因此将新构建表以35条数据为一个批次(batch)进行分割,将所有批次的数据打乱,并去除80%的数据为训练样本,20%的数据为测试样本。
        4.神经网络里模型的搭建,我们使用了3个LSTM层和1个Dense作为神经网络的架构。
        5.设置模型的基本参数,如“学习速率”(这个是神经网络里的一个专有名词)、“训练次数”、“批次”等,以pacifier为例,以下为pacifier的模型训练中的损失曲线。
        3 实验结果分析
        测试评论中的情感关键词对于商品评级是否有影响。由于feeling数据中的正负号表达的是情感的积极与消极,我们对其数值取一个绝对值得到feeling(ABS)数据,并分别对三个产品的数据做相关性分析。
        具体分析可知,产品一的star-rating和feeling(ABS)之间的相关性数值为0.308,并呈现出0.030水平的显著性,因而说明star-rating和feeling-ABS之间有着显著的正相关关系。产品二的star-rating和feeling(ABS)之间的相关性数值为0.598,并呈现出0.000水平的显著性,因而说明star-rating和feeling-ABS之间有着显著的正相关关系。产品三的star-rating和feeling(ABS)之间的相关性数值为0.424,并呈现出0.002水平的显著性,因而说明star-rating和feeling-ABS之间有着显著的正相关关系。
        综合以上三个产品的数据分析,我们发现基于文本的评论确实与评级水平密切相关。
        结论
        BP神经网络在训练时,能够通过学习自动提取输出、输出数据间的“合理规则”,并自适应的将学习内容记忆于网络的权值中。即BP神经网络具有高度自学习和自适应的能力。通常使用LSTM模型预测未来趋势时,数据值都达到了10万以上,我们仅使用了不到十分之一的数据预测,这就导致最后算出的结果准确度在90%左右。如果能提供更多的数据,那么模型的准确性将会大大提升。
        参考文献:
        [1]Herbig P, Milewicz J, Golden J. A model of reputation building and destruction[J]. Journal of business research, 1994, 31(1): 23-31.
        [2]Chiu Y C, Chen B, Shyu J Z, et al. An evaluation model of new product launch strategy[J]. Technovation, 2006, 26(11): 1244-1252.

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: