大数跨境
0
0

干货 | 如何利用亿信WonderDM聚类分析做到大数据精准营销

干货 | 如何利用亿信WonderDM聚类分析做到大数据精准营销 亿信华辰
2018-03-06
2
导读:通过数据挖掘之聚类分析,刻画用户画像,精准分析用户需求。

俗话说,物以类聚人以群分。顾名思义,聚类就是把若干事物按照某种标准归为几个类别,其中较为相近的聚为一类,不那么相近的聚于不同类。


不同于分类分析,聚类分析是一种探索性的分析,在聚类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。


聚类方法


聚类分析的算法可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。这些算法本身无所谓优劣,而最终运用于数据的效果却存在好坏差异,这在很大程度上取决于数据使用者对于算法的选择是否得当。下面就对其中的K-Means和EM算法进行简要介绍。


K-Means聚类

K-均值算法是最早出现的聚类分析算法之一,它是一种快速聚类方法,但对于异常值或极值敏感,稳定性差,因此较适合处理分布集中的大样本数据集


它的思路是以随机选取的k(预设类别数)个样本作为起始中心点,将其余样本归入相似度最高中心点所在的簇类(cluster),再确立当前簇中样本坐标的均值为新的中心点,依次循环迭代下去,直至所有样本所属类别不再变动。

算法的计算过程非常直观:



EM聚类

EM算法(期望最大化算法)的思路十分巧妙,在使用该算法进行聚类时,它将数据集看作一个含有隐性变量的概率模型,并以实现模型最优化,即获取与数据本身性质最契合的聚类方式为目的,通过“反复估计”模型参数找出最优解,同时给出相应的最优类别数k。

而“反复估计”的过程即是EM算法的精华所在,这一过程有E-step(Expectation)和M-step(Maximization)这两个步骤交替进行来实现。



聚类的步骤


本次我们将通过亿信华辰新产品WonderDM的聚类分析为大家讲解一个精准营销的案例,通过聚类分析刻画用户画像,精准分析客户需求。

精准营销简单来说就是5个合适,在合适的时间、合适的地点、将合适的产品以合适的方式提供给合适的人,通常用到很多挖掘技术,例如关联分析、聚类分析。

以下是分析过程


准备数据

我们准备了一个电信客户通话时间记录的数据集。



该数据集有7个字段。其中第1个字段为客户ID,作为分析字段没有意义,将会排除掉。其它6个字段是各种时间段内的通话时长,都可以作为分析字段使用。

接下来我们开始用数据集训练一个合适的聚类模型。


训练模型

先创建一个挖掘过程,选择聚类,进入挖掘过程界面。



系统内置了两种聚类算法,我们选择常用的K-means算法。再选择电信客户数据集,勾选通话时长相关字段,选择所有数据参与聚类(100%抽样)。聚类数可根据业务经验给一个合适值,默认为3,点击”训练模型”菜单查看训练出来的聚类模型。



K-means聚类模型提供聚类剖面图、簇内误差平方和、聚类中心信息来辅助对模型的评估。

你还可以点击参数面板右上角的高级设置按钮,进一步调节聚类参数。



高级参数里的质心初始化方法与聚类的效果有很大关心,质心选取的不好,聚类的结果可能只是局部最优。默认是随机选取,效率较高,但可能结果不是最优。


除了K-means算法,你还可以选择EM算法进行聚类,操作方式跟K-means基本一致,在此不再累述。


模型评估

评价聚类模型有一个简便的方法:

  • 对于K-means聚类,选择不同的输入字段训练的模型,簇内误差平方和越小的模型性能越好。

  • 而对于EM聚类,则是通过簇划分对数似然值的大小评判模型好坏,值越大表示各个样本属于当前划分的概率越大,则模型越好


对于聚类剖面图,则可以从中看出每种聚类的特征,以上面的K-means模型为例。



从剖面图来看,数据被归纳为3类。可以看到,对于cluster3这一类,“上班时间通话时长”、“下班时间通话时长”、 “国际通话地长”、 “总通话时长”,这3个变量用红色棱形标出,棱形中间代表平均值,即红色标记的变量平均值相比其它分类偏离较大,通俗的说,平均通话时长比其它分类长。


结合平均值较高的“上班时间通话时间”、“国际通话时间”这几个因素,我们可以识别cluster3分类的客户为商务高端用户。而cluster2只有“下班时间通话时长”较其它分类突出,排除这类用户为商务用户,可归为普通高端用户。剩下cluster1分类没有较突出的变量特征,可归为普通用户。


模型应用

聚类模型的应用同分类分析,也是要先发布选择好的聚类模型,再制作相应的模型应用用于客户数据的聚类(具体使用可参考前面发布的数据挖掘类的文章)。


小  结

聚类分析可用在各行各业。

在商业方面,可用于客户分类、用户画像、消费市场细分等。

在保险行业,可根据平均消费用于保险用户的分组,也可根据住宅类型,价值,地理位置用于城市房产分组。

在互联网和电子商务方面,可用于文档归类,还可通过分组聚类出相似行为的用户,向客户推荐更合适的服务。



【声明】内容源于网络
0
0
亿信华辰
领先的数据分析和数据治理软件厂商 | 中国数据治理解决方案市场第一 | 数据资产管理标杆厂商 | Data Agent | 数据中台
内容 886
粉丝 0
亿信华辰 领先的数据分析和数据治理软件厂商 | 中国数据治理解决方案市场第一 | 数据资产管理标杆厂商 | Data Agent | 数据中台
总阅读1.8k
粉丝0
内容886