
投稿来源:南京工业大学|WiFi团队
项目背景及意义
在新一代信息技术的支撑和推动下,电子商务与传统的经济模式进一步融合,呈现出服务化、多元化、无边界化的发展特点与趋势。线上交易尽管快捷方便,却不能给用户带来丰富的体验服务。移动互联网的迅速发展,改变了用户的生活方式和消费习惯,基于移动互联网的O2O电子商务模式应运而生。O2O电子商务模式不仅将用户从线上引导到线下,做到线上线下深度融合,而且给用户带来更多的便捷。“线上支付,线下消费”逐渐深入各行各业,逐渐形成新的消费形态。在O2O电子商务模式下,智能终端+移动互联网完成了生活服务、娱乐方式的迭代用户交易更简便、高效。O2O电子商务模式具有应用广泛、地域不受限制、市场规模大的优点。随着用户消费习惯的养成,O2O电子商务模式已是大势所趋。
通过精准投放研究可以使线下商家实时地掌握市场发展动向并快速应对变化,获得及时、经济和个性化的服务;对于O2O电商平台,可实现精准营销和个性化投放,提高优惠券的使用率,减少营销成本。
数据说明
数据获取于阿里天池竞赛官网的O2O用户线上线下的消费数据,共180万条,分线上和线下两个数据集。线上、线下共享六个相同字段,即用户ID、商户ID、优惠券ID、优惠率、优惠券领取日期及消费日期。同时又各拥有一个特别字段,即线上的用户行为(点击、购买、领取优惠券)和线下的优惠率。数据说明如下图所示。
数据预处理
缺失值处理
通过对数据缺失量的统计,发现各字段均存在一定数量的缺失值,所以有必要对这些缺失值做填补。对于连续型值本文使用平均数补充,对于离散型缺失值用其众数补充,具体操作如下。其中由于字段Coupon_id为null表示用户没有使用优惠券的消费记录,字段Date为null表示用户领取优惠券而没有在有限期内使用,其本身就代表了一种数据状态,因此对Coupon_id、Date的空值记录不做处理。
点击观看视频
数据类别编码
通过对优惠券的日期特征Date_received和消费日期特征Date进行分析,发现在每周末使用优惠券的消费量会出现小峰值,说明在周末时外出活动较多,消费概率更大。于是采用One-Hot编码方法对特征进行离散化编码,用7个占位符(1, 0, 0, 0, 0, 0, 0)表示周一,(0, 0,0, 0, 0, 0, 1)表示周日,编码结果如下图。
特征工程
由于数据的特征过少,仅仅只能给出数据的基本描述,通常不能全面精确地描述问题,需要根据业务逻辑和经验进一步构造出新的更加有效的特征来深入表达问题。所以,我们通过对用户行为和优惠券特点进行深入分析,并参考传统电子商务用户行为预测模型的特征工程和天池竞赛相关资料,然后结合O2O模式特点,从统计、比率、时间维度三个角度,利用PMT平台中的特征工程方法,将特征扩展为57个,并提取出六个特征群。
模型及评价
本文使用XGboost模型,此模型是在 Adaboost 和GBDT 等提升树算法基础上进行优化的算法。首先,通过一个给定的含有n条记录、m个解释变量的训练集D={(xi,yi)} ,|D|=n ,xi∈Rm ,yi∈R ,和第i个样本的预测值来构造决策树的加性模型。
与传统的GBDT目标函数不同,XGboost模型在原有的目标函数基础上增加了正则项,通过对模型复杂度的惩罚,以此来减弱模型的过度拟合问题。
XGboost算法通过计算特征重要性得分,为特征重要性排序,并剔除一些不重要的特征来实现模型优化。
经过多次训练,AUC值平稳保持在0.87,模型优于随机猜测,有一定预测价值,结果如下。
点击观看视频
O2O优惠券目标用户定位及设计
依据模型得到的用户使用优惠券预测的概率结果,本文将一种优惠券的用户分为三类,将使用该优惠券概率高(60%-100%)的用户标记为商家的重要发展客户,优惠券使用概率为中等(30%-60%)的用户标记为商家的一般价值用户,优惠券使用概率低(0%-30%)的用户标记为商家的新用户或濒临流失用户。对于不同的用户采取不同的优惠券发放策略。
以南京市浦口区某串串火锅店为例,此火锅店在大众点评平台上发放了两种优惠券,但销售量均远低于其他同类商家,在排除店内优惠力度大于优惠券力度的情况下,将其发放的两种优惠券的预测概率分为三类用户。下图是原有79元代100元优惠券的用户分类情况。
如图所示,新用户或濒临流失用户占全部用户的54%,一般价值用户占比为28%,重要挽留或发展用户占比为18%。新用户或濒临流失用户比例较大,意味着有一大部分用户领取本优惠券后并不使用,这将导致在未来此优惠券的销售中会损失掉过半的消费者。而一般价值用户使用概率高与前类用户,可以将它理解为这类用户可能成为前类用户,也可能成为忠实的重要发展用户。如何对新用户或濒临流失客户产生更大的吸引力增加其进店概率,如何将一般价值用户转化为重要发展客户,如何牢牢抓住重要发展用户,我们通过分析得出一下建议。
本文认为,可以将发放一种优惠券的方式转变为根据用户群体不同发放三种优惠券。上图展示了新优惠券的发放方式,向新用户或濒临流失用户发放84元代100元的优惠券;向一般价值用户发放89元代100元的优惠券,并为其提供套餐优惠形式;向重要发展用户发放74元代100元的优惠券,并为其提供贴心的会员服务。89元代100元优惠券新发放方式也采用相同的方法进行改进。另一种优惠券的优化方式类似,不再赘述。
为了证明分类发放优惠券这一理论可行,本团队借鉴了大众点评霸王餐发放机制,如上图所示。只有满足条件的用户才能够领取此优惠券,不满足条件的用户点击领取后,将会出现领取失败的界面。通常,用户都会选择最大力度的优惠券,设置限制条件,同时设置满足该领取条件方式的链接,激励用户成为更高级别用户,用户获得优惠的同时,也帮助商家收获更多忠实客户。
总结回顾
本文通过对O2O场景下的180万条数据进行分析建模,将训练得到的XGBoost模型应用于实际商家的优惠券发放问题,将预测所得优惠券使用概率将用户分为三类,为商家分类制定优惠券提供参考意见。并参考已有优惠发放机制,为优惠券实际发放提出了可行方案。帮助商家合理发放优惠券,为用户提供差异性服务,满足用户个性化需求。
本文虽然对该商家的优惠券发放进行了一定的分析并提出一些建议,但是,仅仅从价格的角度考虑了影响优惠券使用的因素,对优惠券使用概率有所影响的因素还包括,用户距离商家的远近、时间、其他客户评价等一系列因素。本项目使用了XGboost模型,预测相关问题的其他方法还包括,贝叶斯、随机森林、LightGBM等,在预测方面均有各自特点。当然,仅从优惠券提升餐厅收益显得过于单薄。当前餐饮业存在诸多复杂的实际问题,例如,餐饮食材的价格波动,服务人员的服务效率,商家的宣传等。如何进一步结合实际,考虑更多因素,将优惠券发放进一步优化,是本团队接下来探索和研究的重点方向。
长风大数据(微信号:cf-dsj)
基于多行业的海量数据资源,为企业运营和院校科研提供先进的数据挖掘分析工具,帮助用户释放数据价值、捕获深层信息。
联系电话:010-65568598转8007
电子邮箱:cfdsj@logis.cn
网址:http://www.cfdsj.cn

