基于 LDA 模型对电商产品评论的文本分析研究

发表时间:2020/4/17   来源:《科学与技术》2019年21期   作者:孟梅 童雅丽
[导读] 本文通过LDA(Latent Dirichlet Allocation, LDA)模型对于某电商平台的笔记本产品的评论信息进行了文本挖掘分析
        摘要:本文通过LDA(Latent Dirichlet Allocation, LDA)模型对于某电商平台的笔记本产品的评论信息进行了文本挖掘分析,提取用户评价的正面情感主题词和负面情感主题词,从中可以了解到产品的优势之处以及不足之处。
关键词:LDA模型;文本分析;情感分析

        在电子商务的迅速发展以及线上购物愈加普及的背景下,如何利用电商大数据提取出有用的信息已成为企业发展和产品完善的关键一环。其中,电商平台的消费者评价是一项重要的数据信息,它通常包含了广大消费者真实的使用感受,这些使用评价也是潜在客户购买产品的重要参考指标,直接影响到产品的口碑以及未来销量。若是能高效抓取挖掘出电商产品评价的信息点,进而了解消费者对于产品的情感倾向,将有助于明确产品或服务的改进方向。

一、LDA模型的构建概述
        在本文中的LDA(Latent Dirichlet Allocation, LDA)模型指的是隐含狄利克雷分布,是一种文档主题生成模型,通常由文档、主题和词3层结构组成,因此又被称作三层贝叶斯概率模型。LDA 作为一种无监督机器学习方法,其作用是以概率分布的形式给出每篇文档的主题,然后进一步分析同一主题下的文档从中抽取各文档实际的主题,从而根据主题分布来进行主题聚类或文本分类。该模型运行结果类似一种索引编号,通过分析,将这种编号赋予实际的意义,通常是通过分析每个主题下最重要的词条来进行总结归纳。
在LDA模型中,其具体生成步骤如下:
1.从狄利克雷分布中取样生成文档m的主题分布
2.从主题的多项式分布中取样生成文档m第n个词的主题
3.从狄利克雷分布中取样生成主题对应的词语分布,
4.从词语的多项式分布中采样最终生成词语
 
二、基于LDA模型的文本挖掘实现过程
        (一)数据预处理
        本文以某电商平台的某款游戏本为例,获取产品上市3个月内的用户评价数据,首先对数据进行预处理,包括将繁体字转为简体字、大写转小写、机械压缩去重、过滤无效评论等。经过预处理的数据有助于保障数据挖掘结果的可靠性。
        (二)文本挖掘
        本文使用LDA主题模型来提取产品评价的信息点。对预处理后的文本进行分词和去停用词处理,利用自建语料库训练朴素贝叶斯分类器,对评价进行情感二分类,分为正面情感文本和负面情感文本;再对这两者分别应用LDA主题分析获取所需要的有关商品评价的信息。经过LDA主题模型的分析后,正面情感文本和负面情感文本各被聚类为3个主题,每个主题下生成10个词语以及相应的出现概率。


        从正面评价主题词可以看出来,主题一的高频特征词是“超级”、“包装”、“设计”、“游戏”等,这说明该笔记本产品的定位受认可,很多消费者购买该产品的需求都是作为游戏本,此外,产品的包装、设计也让消费者感到满意,认为物有所值;主题二中的高频词是“速度”、“开机”、“颜值”、“物流”等,从这些高频词可以看出来,该游戏本运行速度快、外观精美,配送快,用户体验较好;主题三中出现的高频词是“性能”、“散热”、“屏幕”和“跑分”等,这说明该游戏本的配置受到消费者的肯定。
        与此同时,部分消费者对于该游戏本也有着一些负面倾向的评价。从主题一可以看出负面评价主要集中于“屏幕”、“内存”、“漏光”、“电源”等,由此可见,部分消费者购买的游戏本屏幕存在漏光现象,还有一些消费者对此产品的内存有更高要求。而从主题二主要反映的是该游戏本的配件问题,包括键盘、鼠标、电池等,此外还提到了“客服”和“降价”等外在因素,说明该品牌的客户服务有待改进,提高客服质量才能给客户带来更好的消费体验;负面评价主题三中的关键词大多是再次强调了主题一、二中所提到的内容,主要为“散热”、“屏幕”以及“续航”等笔记本本身问题和“售后”、“客服”等外在问题。
        总体来说,该产品的外观设计收到广泛好评,此外它的产品配置、物流时效和游戏体验也被一些消费者所赞赏。而产品的差评也集中于消费者对于产品本身的“内存”、“屏幕”和“价格”等不满,此外,客服及售后服务也颇受诟病,这都是今后产品需要改进的地方。

三、产品发展相关建议
(一)保持设计优势
        该游戏本的外观设计备受肯定,这是产品的一大显著优势,在今后的产品发展道路上要保持这一产品优势。笔记本的外观是消费者购买产品的重要指标之一,若是能一直保持与时俱进的先进设计理念,那么就能在笔记本电脑市场上独树一帜,受到消费者的青睐。
(二)提升产品质量
        尽管对产品的好评主题词有提到产品的性能配置,但是对于该笔记本产品的差评也集中于屏幕、内存、散热等性能方面,说明一些要求高的消费者对于产品的质量存在着不满。这是“众口难调”的现实问题,但是如果能在技术方面继续创新,不断提升产品质量并保证产品的性价比,那么该产品在游戏本的口碑也会进一步提高,从而占据更高的市场份额。
(三)加强客服培训
        除却产品本身存在一些让购买者不满意的地方,该产品的客户服务也让一些消费者诟病。如何在消费者在不能接触产品实物的情况下、保证他们的购物体验是每个电商主体需要思考的问题。加强客服的培训,提高他们的专业素养,优秀的售前售后服务将有助于提升消费者对笔记本品牌的信赖度,也能提升该品牌的商业声誉。

四、结语
        本文使用了LDA主题模型分析了某笔记本产品在某电商平台上的用户评价,通过该文本挖掘过程,提取了消费者评价中的关键信息词。本文依托着平台广泛的真实用户评价信息,利用机器学习的方法,从中提取到了广大消费者对于该产品的真实使用体验,并由此提出了今后该产品发展的相关建议,对于产品改进方向的指引有着重要意义。

参考文献:
[1] 李涵昱, 钱力, 周鹏飞. 面向商品评论文本的情感分析与挖掘[J]. 情报科学(1):53-57+63.
[2] 谢昊, 江红. 一种面向微博主题挖掘的改进LDA模型[J]. 华东师范大学学报(自然科学版), 2013(06):99-107.
[3] 王鹏, 高铖, 陈晓美. 基于LDA模型的文本聚类研究[J]. 情报科学(1):65-70.
[4] 余琦玮, 肖颖, 林静, et al. 产品评论文本中特征词提取及其关联模型构建与应用[J]. 中国机械工程(22):72-79.
作者简介:
孟梅:1992.08;女;安徽六安;学士;安徽省合肥联宝信息技术有限公司;230000;数据管理;
童雅丽:1994.01;女;安徽合肥;硕士;安徽省合肥联宝信息技术有限公司;230000;数据管理;
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: