大数跨境

以京东化妆品销售为例,谈谈如何通过用户评论挖掘产品需求

以京东化妆品销售为例,谈谈如何通过用户评论挖掘产品需求 长风大数据
2018-10-24
2
导读:数据挖掘分析实战案例分享

随着信息技术的发展和电子商务规模的不断扩大,网络在线服务的范围越来越广泛,客户基于网络产品和服务随时可以发表自己的观念和看法,即线上评论线上评论是真实反映电子商务产品和服务情况的言论,是网络环境下沟通与交流的重要途径,对于消费者和电商商家来说有着重要的意义。

本案例以京东化妆品类消费者线上评论为例,结合描述性统计、R语言、聚类分析等方法,对评论数据进行挖掘分析,旨在研究消费者产品评论有效性,进而探索消费者产品需求,并采取一些有效措施去引导消费者的正面评论,同时通过探讨分析销售的影响因素,助力企业在战略和营销手段方面寻找新的突破口,为其带来经济效益和社会效益。

数据获取

本案例所用数据来源于第二届“长风杯”大数据分析与挖掘竞赛的开放赛题数据—电商企业运营数据。

商品信息

评论数据

描述性分析

从品牌销量排名中可以看出,“千纤草”以日销量1481遥遥领先,“欧莱雅”和“玉兰油”以日销量467和349的日销量排名第二位和第三位。

从销售额排名中可以看出“欧莱雅”的日销售额以53516元排名第一位,“玉兰油”和“欧莱雅”以45647.72元和42434.9元排名第二位和第三位。

品牌销量TOP10

销售额排名TOP10

对比两图可以发现“千纤草”虽然以绝对的销售量优势占据第一,但是其销售额却位居第三。“欧莱雅”和“玉兰油”虽然销量相对“千纤草”较低,但是销售额却位居第一位和第二位。说明“千纤草”价格平民化,以量取胜。“欧莱雅”和“玉兰油”虽然销量低,却贵在品牌优势,以质取胜。这对那些想要进入电商平台但很难和大品牌抗衡的电商企业一个启示:即学习“千纤草”的战略,走亲民策略,薄利多销,以量取胜。

评分分析

从商品评分角度来看,评分为5占比78.6%,评分为4的占比16.9%,评分为3的占比2.6%,评分为2的占比0.9%,评分为1的占比1%,由此可得,本案例数据的商品评分基本都集中在4-5之间,累计占比95.5%,这表明大部分的消费者对于所购买的商品都是满意的。

词频分析

词频表&词云图

通过词频表&词云图可以看出,消费者在评论中提及很多的都是反映价格方面的,比如“便宜”、“实惠”等等,词频第二的是“正品”,可以看出消费者非常关注化妆品真假的问题,尤其是近年来新闻披露的很多电商平台售假的信息,让消费者对于电商平台的化妆品的质疑声越来越高,电商平台及品牌应该注意产品的质量,保护销售渠道,让每位消费者购买到的商品都是正品。有趣的是,“老婆”的词频为150,排名第十,说明很多男性消费者会为自己的伴侣购买化妆品,化妆品销售商在进行化妆品宣传和推广的时候,也可以向男性宣传,特别是像“情人节”、“七夕”、“三八妇女节”这样的节日,也可以向男性消费者推送可以送给自己伴侣的化妆品的广告,提高销量

词项&文档聚类

大多数情况下,文本聚类主要分为划分方法和层次方法两大类,此外还有基密度方法、网格方法等。

本案例的评论信息经过文本去噪、分词及停用词过滤后,再通过特征选择方法剔除了大部分的稀疏词条,分别对词项和文档进行聚类分析。

在对词项进行聚类时采用系统聚类法,对文档进行聚类时采用k-means和k-mediods两种聚类算法。

词项聚类结果

对保留的30个特征项聚类时分别采用离差平方和、类平均、最长距离和重心法等四种类的合并方法。

文档聚类结果

从结果可以看出,簇1、簇3、簇5和簇6的阴影值接近,簇2的阴影值最高,阴影均值为0.34,总体来说划分效果不错,但个别簇之间划分不是很明显。

从聚类结果可以看出客户在评论中最注重产品效果,其次是注重对产品的特性、价格,最后要考虑客户的购物体验,比如提高物流效率、产品的味道的改进等等。

相关性分析

根据以上的聚类分析以及商品评论的词频分析,我们可以归纳出消费者购买化妆品类商品时会关注的一些因素,即:价格、补水、味道、正品、品牌、物流。

通过Pearson相关性分析得到价格、补水、味道与销量的相关值分别为0.044、0.012及0.045均小于0.05,所以价格、补水、味道与销量具有显著影响。由此,企业可更多关注于价格的合理性、商品的保湿性、商品的气味性等方面来提高商品销量。

案例来源:

第二届“长风杯”大数据分析与挖掘竞赛-福建赛区

作品名称:基于R语言的消费者线上评论分析

学       校:   福州大学        

团队名称:   Data diggers         

指导老师:   刘丹  梁红艳     

队       长:   潘欣萍         

队       员:   徐红 王丹丹 陈丽叶 肖志隆

声明:微信文章为独家原创,欢迎个人用户分享到朋友圈;其他任何形式的转载,请联系本公号取得授权,否则将追究法律责任。长风大数据(微信号:cf-dsj)隶属于Logis北京络捷斯特科技发展股份有限公司,简称:络捷斯特,证券代码:834832。

长风大数据(微信号:cf-dsj基于多行业的海量数据资源,为企业运营和院校科研提供先进的数据挖掘分析工具,帮助用户释放数据价值、捕获深层信息。

联系电话:010-65568598转8013

电子邮箱:cfdsj@logis.cn

网址:http://www.cfdsj.cn

长风大数据 一个有格调的平台
长按,识别二维码,加关注
【声明】内容源于网络
0
0
长风大数据
欢迎关注长风大数据,一起探索大数据/人工智能/智能装备等前沿技术的实战技巧。
内容 0
粉丝 0
长风大数据 欢迎关注长风大数据,一起探索大数据/人工智能/智能装备等前沿技术的实战技巧。
总阅读0
粉丝0
内容0