大数跨境

作品赏析| 超市场景下大数据的应用和分析

作品赏析| 超市场景下大数据的应用和分析 长风大数据
2017-12-13
2
导读:竞赛的优秀作品集在密集整理当中,想要获取免费赠送名额的小伙伴,记得点赞转发哦,幸运会敲你的门!
墙角数枝梅,凌寒独自开。
遥知不是雪,为有暗香来。

12月9日正值寒冬,参加2017大数据分析专业竞赛的你们就像这朵朵寒梅傲立雪中,首都-5℃的寒风也无法阻挡你们的热情,数百人齐聚北京只为在这个赛场上证明自己,时光不负,你们惊艳了这个舞台!

轻轻地,比赛落下了帷幕,正如你们轻轻地来,你们挥洒的汗水凝结成了优秀的作品,请待小编娓娓道来

作品赏析之超市场景下大数据的应用和分析

作       者:南京工业大学-Topol

团队成员:刘翰泽 董浩阳 刘宇晖 高强

指导老师:赵柳榕  胡桓

提出问题


中国产业信息《超市行业商业模式与投资战略规划分析报告》显示受经济放缓、电商冲击等因素的影响,超市营收利润持续下滑。

众所周知,大数据在大型连锁超市企业中已有庞大的规模与实际的应用,取得了相当可观的盈利,成为超市行业内新的巨大的利益增长点,但是对于小超市而言,若想获取大数据带给超市行业的红利还十分困难,原因在于大数据技术门槛高,流程复杂,技术人才少等,通俗来讲,一般人玩不起来。其实这也常常是大数据技术目前发展的困惑所在---有技术的人拿不到数据,有数据的人又不会技术。

暑期南京工业大学的小董来到一家中小超市实习,超市老板也面临着同样的问题,小董开始思考如何帮老板用大数据解决问题。



分析问题


由于消费者对产品和服务的个性化需求越来越突出,且产品呈多样化趋势,商品的摆放等方面一直为超市管理者关注的焦点,并存在一些有待解决的问题。例如,如何减少库存管理的成本从而更加有效提高管理的效率?怎样规划商品的配置可以更好地增加收益?将大数据与管理决策有机结合时,一个最主要的分析特征是放弃对因果关系的渴求,关注研究数据之间的相关关系。于是,为了解决所提出的问题,小董决定从商品关联规则着手,为中小超市提出基于大数据的解决方案。

跟超市老板要来了一个月的74386条交易数据后,他开始对数据进行处理:

数据解读

数据预处理


数据分析

数据清洗之后,对所有处理过的数据进行了简单的、初步的分析,发现该超市八月每日的销售量基本稳定,没有出现特别大的波动。销售水平围绕图中的虚线上下波动,差异较小。这表明我们的数据特异性低,可以被使用。

 -8月超市销售趋势

使用PMT软件对商品进行聚类绘图,主要的聚类变量是商品的销售数量与利润,结果如下图所示。图中,颜色的深浅代表商品数量和利润的数值大小,颜色越深数值越大。结果分为三竖条,中间、右边的两条是分别以商品数量、利润为变量进行聚类的结果,左边的一条是综合两个变量的聚类结果。最左边的线条是聚类的龙骨图,右边的文字是该类别中的商品名称。

图-聚类分析热点图

之后,以商品销量与利润为两个维度绘制了散点图。

 

-散点图

重点查看了散点图的左上角和右下角。

图-散点图右上角

可以看到西瓜、生面等明星商品均居于右上角,与我们之前聚类的结果相符。

-散点图左下角

另外,我们发现左下角的这些特殊商品,它们的销量很低,利润也低,有些利润为负值。这些商品是滞销商品。



解决问题


解决思路

图-明星商品金字塔

根据特征值的明显程度,商品结果分别分布在金字塔的四层,由聚类结果得到了超市销售的明星商品,其表现特征为销量高且利润高。其中鲜核桃与鲜葡萄略微特殊,它们的销量并不是特别高,但是利润较高,最终将他们也归为明星商品。

综合以上聚类分析和散点图的分析,得出了西瓜、生面、西红柿等17种明星商品,散菜花、五花肉、雨伞等6种滞销商品。但是,我们不能盲目地增加或取缔这些商品。

由于客户消费需求越来越多样化,商品的淘汰不能仅仅以营业额的高低考量。武断淘汰必然将客户的需求局限于寥寥几个品种,这是不符合现实的,因此我们还需要考虑客户的感受,这点可以通过商品的关联性分析很好的解决。在淘汰滞销商品的同时还需考虑它与其他商品有无关联性,若有关联性应该统筹考虑是否淘汰。

建立模型

很多商品之间具有强相关性,比如咖啡与方糖,除此之外,在商铺中也会出现一些看似匪夷所思的商品关联,这些现象值得我们去关注并利用其创造价值。次关联性分析,使用了Apriori算法。首先生成不重复的流水单,生成同时出现在一个购物篮中的两种商品的全部组合,分别计算支持度、置信度和提升度。

图 Apriori算法

算法实现


对清洗后的数据进行处理,建立商品名称及数量数据库、流水单号及购物篮系数(每个购物蓝中商品的个数)数据库、商品的销售数量利润数据库。

图-数据库部分

通过程序对原始数据以流水单号作为特征值,切割成特定格式。(以购物篮为单位将数据分割)。根据商品名称数据库对切割后每个购物栏中的数据进行重新编码,以简化运算。通过流水单号数据库对每个购物篮进行全排列,通过统计得到两种商品组合数据库。

图-两种商品组合数据库

通过程序遍历商品个数数据库以及两种商品的全部组合,计算得到两种商品之间的支持度、置信度、提升水平。

-支持度,置信度和提升度计算结果

结果展现

此次运算的目的是将pos机数据通过基于Apriori算法的购物篮分析程序,运算出每种商品之间的关联关系,首先计算出每两种商品同时出现在同一购物篮中的次数。通过引入支持度、置信度、提升度三个指标较为准确的得出了每种商品之间的关系。

通过PMT软件,将计算出的支持度、置信度、提升度进行可视化分析。

图-处理逻辑

图-结果展示

红线是AB的提升度,绿线是BA的提升度。在提升水平关联规则中只有提升度Lift(x→y)>1时才是有效的强关联关系。即只有AB的提升度和BA的提升度都大于1时,该商品组合才具有有效的强关联关系。因此以1划出分割线,我们只取提升度大于1的有效关联关系。例如,图中显示出的商品组合15,为豆皮与金针菇,豆皮对金针菇的提升水平为4.38,大于1,金针菇对豆皮的提升水平为8.11,也大于1,符合提升水平关联规则的标准,该组合的关联关系是有效的强关联关系。

通过上述分析过程,我们从该月的销售流水中找到了如下几种具有“暗恋关系”[1]的商品组合:

图-结论分析

注:暗恋关系指商品相关性是指商品在卖场中不是孤立的,不同商品在销售中会形成相互影响关系,由于这种关系往往隐藏在数量庞大的商品群后面,平常我们无法发现,因此也称之为商品之间的“暗恋关系”。

解决方法

在得到了超市中的明星商品和滞销商品,以及超市中关联性很强的几种商品组合之后,根据分析得到的结果,改变广告单中商品的排列方式。以火锅节为主题,找到火锅及其关联性强的商品,再由火锅的关联商品找到其他的与火锅有关的商品,做出了一张超市广告单。

图-关联广告单设计

此外,设计了一个小货架的货架摆放,并放入超市。

图-货架陈列设计

看了这样一份有理有利有节的分析报告,你们是不是不禁要为小董疯狂打callL了呢

近期长风大数据公众号将推出“2017大数据分析专业竞赛作品赏析系列”,更多精彩作品敬请期待!

同时,竞赛的优秀作品集也在密集整理当中,想要获取免费赠送名额的小伙伴,记得点赞转发哦幸运会敲你的门

声明:微信文章为独家原创,欢迎个人用户分享到朋友圈;其他任何形式的转载,请联系本公号取得授权,否则将追究法律责任。长风大数据(微信号:cf-dsj)隶属于Logis北京络捷斯特科技发展股份有限公司,简称:络捷斯特,证券代码:834832。

长风大数据(微信号:cf-dsj基于多行业的海量数据资源,为企业运营和院校科研提供先进的数据挖掘分析工具,帮助用户释放数据价值、捕获深层信息。

联系电话:010-65568598转8013

电子邮箱:cfdsj@logis.cn

网址:http://www.cfdsj.cn


长风大数据 一个有逼格的平台
长按,识别二维码,加关注





【声明】内容源于网络
0
0
长风大数据
欢迎关注长风大数据,一起探索大数据/人工智能/智能装备等前沿技术的实战技巧。
内容 0
粉丝 0
长风大数据 欢迎关注长风大数据,一起探索大数据/人工智能/智能装备等前沿技术的实战技巧。
总阅读0
粉丝0
内容0