郑博
(重庆电子工程职业学院 重庆 401331)
摘 要 :本文基于文本分析方法对电商平台商品评论数据中的好评数据进行分析研究,从中挖掘用户对商品的正面反馈信息。对于用户,有助于选购合适的商品;对于商家,有助于基于用户关注的优点进行产品宣传。
关键词 :文本分析 ;评价分析
Research on e-commerce user evaluation analysis based on text analysis
Abstract:Based on the text analysis method, this paper analyzes the favorable data in the product review data of e-commerce platform, and mines the positive feedback information of users on the product. For users, it is helpful to choose the right products; For businesses, it helps to promote products based on the advantages of users' attention.
Key words:Text analysis;Evaluation analysis
一、引言
网上购物已经成为人们生活的常态,在网购过程中,用户会产生海量的行为数据,其中商品评论数据反映了用户对产品和服务的主观感受,非常具有研究价值。对于商家而言,商家可以根据评论数据了解用户的喜好,从而优化产品,提升服务,提高竞争力。对于消费用户而言,可以根据评论数据了解产品优缺点,性价比,售后服务等情况,从而为购物选择提供参考依据。
二、分析思路
本文利用R软件对京东商城里,某品牌空调的评论数据进行分析。由于评论数据中,用户对产品特征的优缺点反馈是关心的重点。因此本文将通过对评论数据进行词频分析,了解用户对产品具体特征的反馈;从外还将对评论数据做LDA主题分析,了解用户对产品的反馈主要集中在哪些的方面。本文通过八爪鱼数据采集器来获取数据,分析评论数据中的好评数据。
三、数据预处理
本文对文本数据预处理包括以下5个方面:1、合并追评内容和评价内容,统一作为评价内容处理。2、删除缺失值。3、英文字母统一转换为小写字母。4、重复值处理。5、由于R语言读取评论数据后存在回车符和换行符,对此直接删除。
四、评论数据分词和词频分析
停用词表和用户词典的建立。由于直接对数据进行分词会有:如“的”,“很”,“了”等,这类对我们的分析没有意义的词,对此建立停用词表。此外,“售后服务”,“售后”,“服务”这类在表达的意义上存在交叉重复的词,对于这类情况,建立用户词典,如将“售后服务”分为“售后”和“服务”。基于jiebaR包做分词处理后,绘制词云图有:
从词云可以看出,“安装”,“师傅”,“制冷”,“静音”,“格力”等词出现的频率较高,说明用户对空调的安装,空调本身的特点和品牌等方面比较认可。具体到空调本身的特点,可以看到空调的制冷效果、静音、节能省电、外观设计等方面是用户反馈较多的优点。
五、LDA主题分析
通过LDA主题分析有:
结果分析:主题1中的高频词汇主要是“制冷”、“外观”、“声音”等,主要反映了格力空调自身的产品质量不错;主题2中的高频词汇主要是“安装”、“师傅”、“态度”等,主要反映了格力空调在安装服务等方面好;主题3中的高频词汇主要是“格力”、“品牌”、“云锦”等,主要反映了用户对格力品牌的认可。
六、建议措施
用户方面,如果对安装服务、制冷、静音、节能省电、外观等方面有要求的用户可以考虑购买这款空调。
企业方面,可以将空调的关于安装服务、制冷、静音、节能省电、外观等方面的优点在商品销售展示中进行强调。