数据获取
本案例所用数据来源于第二届“长风杯”大数据分析与挖掘竞赛的开放赛题数据—电商企业运营数据。
商品信息
评论数据
描述性分析
从品牌销量排名中可以看出,“千纤草”以日销量1481遥遥领先,“欧莱雅”和“玉兰油”以日销量467和349的日销量排名第二位和第三位。
从销售额排名中可以看出“欧莱雅”的日销售额以53516元排名第一位,“玉兰油”和“欧莱雅”以45647.72元和42434.9元排名第二位和第三位。
品牌销量TOP10
销售额排名TOP10
对比两图可以发现“千纤草”虽然以绝对的销售量优势占据第一,但是其销售额却位居第三。“欧莱雅”和“玉兰油”虽然销量相对“千纤草”较低,但是销售额却位居第一位和第二位。说明“千纤草”价格平民化,以量取胜。“欧莱雅”和“玉兰油”虽然销量低,却贵在品牌优势,以质取胜。这对那些想要进入电商平台但很难和大品牌抗衡的电商企业一个启示:即学习“千纤草”的战略,走亲民策略,薄利多销,以量取胜。
评分分析
从商品评分角度来看,评分为5占比78.6%,评分为4的占比16.9%,评分为3的占比2.6%,评分为2的占比0.9%,评分为1的占比1%,由此可得,本案例数据的商品评分基本都集中在4-5之间,累计占比95.5%,这表明大部分的消费者对于所购买的商品都是满意的。
词频分析
词频表&词云图
通过词频表&词云图可以看出,消费者在评论中提及很多的都是反映价格方面的,比如“便宜”、“实惠”等等,词频第二的是“正品”,可以看出消费者非常关注化妆品真假的问题,尤其是近年来新闻披露的很多电商平台售假的信息,让消费者对于电商平台的化妆品的质疑声越来越高,电商平台及品牌应该注意产品的质量,保护销售渠道,让每位消费者购买到的商品都是正品。有趣的是,“老婆”的词频为150,排名第十,说明很多男性消费者会为自己的伴侣购买化妆品,化妆品销售商在进行化妆品宣传和推广的时候,也可以向男性宣传,特别是像“情人节”、“七夕”、“三八妇女节”这样的节日,也可以向男性消费者推送可以送给自己伴侣的化妆品的广告,提高销量。
词项&文档聚类
大多数情况下,文本聚类主要分为划分方法和层次方法两大类,此外还有基密度方法、网格方法等。
本案例的评论信息经过文本去噪、分词及停用词过滤后,再通过特征选择方法剔除了大部分的稀疏词条,分别对词项和文档进行聚类分析。
在对词项进行聚类时采用系统聚类法,对文档进行聚类时采用k-means和k-mediods两种聚类算法。
词项聚类结果
对保留的30个特征项聚类时分别采用离差平方和、类平均、最长距离和重心法等四种类的合并方法。
文档聚类结果
从结果可以看出,簇1、簇3、簇5和簇6的阴影值接近,簇2的阴影值最高,阴影均值为0.34,总体来说划分效果不错,但个别簇之间划分不是很明显。
从聚类结果可以看出客户在评论中最注重产品效果,其次是注重对产品的特性、价格,最后要考虑客户的购物体验,比如提高物流效率、产品的味道的改进等等。
相关性分析
根据以上的聚类分析以及商品评论的词频分析,我们可以归纳出消费者购买化妆品类商品时会关注的一些因素,即:价格、补水、味道、正品、品牌、物流。
通过Pearson相关性分析得到价格、补水、味道与销量的相关值分别为0.044、0.012及0.045均小于0.05,所以价格、补水、味道与销量具有显著影响。由此,企业可更多关注于价格的合理性、商品的保湿性、商品的气味性等方面来提高商品销量。
案例来源:
第二届“长风杯”大数据分析与挖掘竞赛-福建赛区
作品名称:基于R语言的消费者线上评论分析
学 校: 福州大学
团队名称: Data diggers
指导老师: 刘丹 梁红艳
队 长: 潘欣萍
队 员: 徐红 王丹丹 陈丽叶 肖志隆
声明:微信文章为独家原创,欢迎个人用户分享到朋友圈;其他任何形式的转载,请联系本公号取得授权,否则将追究法律责任。长风大数据(微信号:cf-dsj)隶属于Logis北京络捷斯特科技发展股份有限公司,简称:络捷斯特,证券代码:834832。

长风大数据(微信号:cf-dsj)基于多行业的海量数据资源,为企业运营和院校科研提供先进的数据挖掘分析工具,帮助用户释放数据价值、捕获深层信息。
联系电话:010-65568598转8013
电子邮箱:cfdsj@logis.cn
网址:http://www.cfdsj.cn

