基于LDA模型对于在线评论与评级的分析

发表时间:2020/11/24   来源:《基层建设》2020年第22期   作者:张达
[导读] 摘要:随着互联网的不断应用和发展,在线评论和评级对网络产品的销售的影响越来越明显。
        华北理工大学理学院  063210
        摘要:随着互联网的不断应用和发展,在线评论和评级对网络产品的销售的影响越来越明显。基于此种现象,通过对所提供的相关数据以及查询相关文献对问题进行整体建模分析,实现提高企业产品的吸引力和信誉。
        马氏距离对于数据集中的异常值进行剔除处理,并根据数据集中的每项数据的信息熵,确定模型指标。同时使用LDA模型对评论进行向量化,并运用TF—IDF统计和量化评论分类,采用余弦相似方法对评论模型进行线性拟合,对量化后评论与商品星级评价的线性加权。特定地考虑每一条评论和此前一周的关系,并建立岭回归模型和SVR模型,
        关键词:LDA模型;TF-IDF;拟合回归;在线评论;产品评级
        1 数据预处理
        对于异常值的清洗,本文采用马氏距离(Mahalanobis Distance)公式对数据进行距离计算,它是度量学习中一种常用的距离指标,由标准化数据和中心化数据计算出的二点之间的距离。由于不受量纲的影响,而且在多元条件下还考虑了变量之间的相关性,这使得它优于欧氏距离,列出相关公式如下。
 
        其中 为向量矩阵的均值。
        2 模型建立
        2.1信息熵模型
        在机器学习中,信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据,它所描述的是表示有关概率系统整体概率分布状态的统计特征量。本文使用熵权法对影响用户满意度的信息指标进行权重计算,该方法是一种客观赋权的方法,通过对同一层各个指标的相对重要性排序结构,确定出同一层次指标的重要程度数值,即指标的权重,具体操作步骤如下:
        Step1:对于预处理过后的数据集进行整理,构建出如下的数据矩阵。
 
        Step2:由于样本数据集的数据纲量不同,故需要对指标进行无量纲化,即标准化、规范化,它是通过数学变换来消除原始指标量纲及量级影响的方法。[3]用过使用该方法将数据集的数值统一控制在[0,1]之间。
 
        Step3:计算在第j项指标下,第i个样本数值所占某指标的比重得出指标的熵值。
 
        其中: 代表随机事件 的概率。
        Step4:公式计算指标权重,并比较各指标权重大小,数值越大表明改指标在整体系统所建立的模型中占比越大,其中各权重的总和是1。
 
        2.2 LDA模型量化评论
 
        图3 LDA模型框架
        对于文本的处理,本文首先采用LDA模型对进行文本向量化,将文本处理问题转换为机器学习问题。LDA模型的目的就是要识别主题,即把文档—词汇矩阵变成文档—主题矩阵和主题—词汇矩阵,该模型能更有效地从挖掘文本中获得潜在有价值的信息。LDA模型的概念图如下所示,其中参数A反映出文本集中不同隐含主题间的相对强弱关系,参数D则代表主题自身的概率分布;T表示隐含主题,W表示每个词;B代表文本-主题概率分布,C代表主题-词概率分布。[5]
        2.2.1 TF-IDF词频统计
        由于需要对LDA模型得到的结果进行量化评论,因此我们采用TF-IDF统计方法。该算法简单高效,已经广泛应用在多种领域中。它由TF和IDF两部分组成,其中TF表示词频,IDF表示逆文档频率,这两个词相乘就可以得到一个词的TF-IDF值。
 
        其中 是在某一文本中词条w出现的次数,N是该文本总词条数。
 
        其中Y是语料库的文档总数, 是包含词条w的文档数,分母加1是为例避免词条未出现在任何文档中而导致分母为0的情况。
        (2弦相似方法
        本文利用余弦相似算法,计算评论与建立的10条评论之间的相似度,找出10条评论中的关键词,如图可以看出产品的类别评论中month,love和color几个词突出显著,主要对于这几个词进行评论的相似度计算。
 
        图6 评论词云
        本文取出一个评论中的关键词,以计算两个向量的余弦相似度,用LDA模型生成向量,然后通过公式计算向量的余弦相似度,值越大的表示越相似。
 
        3 Conclusions 总结
        随着电子商务的发展,人们的消费模式已经出现了很大的转变,由于在线市场的商品种类众多、购买方式快捷、用户搜索方便等优点越来越受到人们的欢迎,这也使得在线消费行为的研究受到了更多人的关注,其中在线评论和评级会刺激消费者的消费行为。本文通过建立LDA模型对已经定性的评价进行量化,使用TF-IDF统计方法将评论分类量化并建立10种较为科学的评论模型,接着余弦相似度来量化评论,通过得到数据的评分与产品销售之间的关系,可以较为直观地看出在线评论对提高企业产品的吸引力有着重要的影响。
        References
        [1]朱建文.面向日志融合的数据预处理与行为分析预测[D].哈尔滨工程大学,2017.
        [2]徐林明,李美娟.动态综合评价中的数据预处理方法研究[J].中国管理科学,2020,28(01):162-169.
        [3]刘乙诺.产品评价影响因素中企业品牌的分析与研究[J].教育教学论坛,2019(30):68-69.
        [4]赵政.文本向量化方法对文本分类效果影响的改进研究[D].首都经济贸易大学,2018.
        [5]黄兴荣,徐兴彬.基于Python爬虫技术和LDA模型的短文本获取技术分析[J].电大理工,2019(03):1-3+11.
        [6]Zhu Lin,Reychav Iris,McHaney Roger,Broda Aric,Tal Yossi,Manor Orly.Combined SNA and LDA methods to understand adverse medical events.[J].The International journal of risk & safety in medicine,2019,30(3).
        [7]D.Sejal,T.Ganeshsingh,K.R.Venugopal,S.S.Iyengar,L.M.Patnaik.ACSIR:ANOVA Cosine Similarity Image Recommendation in vertical search[J].International Journal of Multimedia Information Retrieval,2017,6(2).
        [8]刘丽娜,齐佳音,张镇平,曾丹.品牌对商品在线销量的影响——基于海量商品评论的在线声誉和品牌知名度的调节作用研究[J].数据分析与知识发现,2018,2(09):10-21.
 
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: