
行业白皮书

热门行业应用场景
常用必备技能
技能解析

扫码回复【数据分析】,免费领取白皮书
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代,信息消费者想方便地找到自己感兴趣的内容,信息生产者则想将自己的内容推送给最合适的目标用户,现在竟然变成了一道难题。

移动互联网的出现带出了推荐系统这一概念,根据维基百科的定义,推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”,也可将其简单理解为“猜你喜欢”。其实它在我们的生活中无处不在,比如早上在早餐店买包子的时候,老板可能会问要不要来个茶叶蛋,这就是一种简单的推荐。
很简单,互联网的推荐策略就是把线下的这种模式搬到线上,从而大大扩展了推荐系统的应用:个性化推荐已经在电商(Amazon,淘宝,京东等)、个性化音乐(Spotify,网易云音乐,QQ音乐)、电影和视频(YouTube,Hulu,爱奇艺,腾讯视频)、新闻(今日头条,腾讯新闻)等多个领域得到广泛的应用,并且成为了互联网领域最重要的工具之一。

推荐系统通过不同策略建立用户和物品的关系,从而将用户可能感兴趣的物品展示给用户,它是建立在大量有效数据之上的,其背后的算法思想有很多种,主要分类包括四种类型:基于内容的协同过滤(Item-Based Collaborative Filtering)、基于用户的协同过滤(User-Based CF)、基于标签(Tag)的推荐、利用社交网络数据等。接下来,CareerTu就要开始讲讲Spotify、网易云音乐和爱奇艺的“推荐故事”。
数字音乐已成为众多年轻人追捧的主流消费内容,如何借助音乐个性化推荐帮助用户在浩瀚的音乐库中快速、准确地获取用户感兴趣的音乐曲目变得越来越重要。

熟悉音乐应用软件 Spotify 的朋友们应该知道,Spotify每周一都会更新“每周推荐”(Discover Weekly)-- 包含了30首可能会是不同风格但是用户没有听过的歌曲混杂。很多用户喜欢Spotify都是因为 Discover Weekly,它会让人觉得非常贴合自己的音乐品好,每一周的推荐音乐都令人十分惊喜。
Spotify 因为Discover Weekly这个功能大受欢迎,而重新思考商业模式,投入大量的资源来推荐基于算法的音乐列表,而这个推荐系统主要结合了三种推荐模型:
协同过滤的基本逻辑很简单,如果用户A喜欢歌曲【1,2,3和4】,用户B喜欢【2,3,4和5】。那么我们会有结论:用户A和B喜欢的四首歌曲当中有三首是相同,所以他们很有可能是品好相似的用户。所以他们有很大的概率喜欢对方喜欢自己却没有听过的音乐内容。

Spotify就是通过这个原理跟踪用户行为来为其推荐音乐的,比如记录用户收听某首歌曲的次数,他们添加到播放列表中的歌曲,他们访问了歌手的主页面可以看出他们对这位歌手的兴趣。此外,Spotify还通过分析建立类似用户档案,比如用户X的歌单里有多少歌是用户Y也正在听的。结合对用户和歌曲的协同过滤,Spotify根据用户的口味和兴趣量身定制了推荐歌曲,这也就是为什么“Discover Weekly”播放列表在用户中如此受欢迎的原因了。


Spotify使用自然语言处理分析用户的评论,发布的帖子,来了解当下人们在讨论什么样的音乐,在评论时他们使用了什么样的语言描述他们的感受,并且还会发现风格相似的音乐人和歌曲。
结合前两种处理模型似乎已经足够了,但是第三种推荐模型可以帮助Spotify提高整个推荐模型的准确性,同时,这种方式还可以处理新发行的音乐。某位歌手如果在Spotify发表新歌,但是收听用户不足导致Spotify无法收集到足够的数据用来协同过滤,在网上也找不到任何关于这首歌曲的相关描述,自然语言处理当然也就涉及不到。
对于音乐来说,想要将一首歌与另一首歌进行比较的最佳方法是关注它们的音频。所以就可以利用原始音频模型去识别新发表的歌与其他流行歌曲音轨之间的不同,这样一来,Spotify不仅让用户发现了更多鲜为人知、新的歌曲,也让这些歌手发表的新歌,有了更多被听到的机会。
作为一名网易云音乐的忠实粉丝,我对它有一种特别的情怀,让我不经意间就能发现好音乐,又会因为歌曲或是歌单中的某些评论而有所触动。特别喜欢网易云推荐的歌曲,它总能猜中我的口味,优秀的个性化推荐和良好的社区氛围所营造出的温暖、纯粹的听歌体验,也使得其在所拥有的版权相对有限的情况下,仍然有大量的死忠粉拥护。

作为移动互联网音乐行业的后起之秀,网易云音乐定位在建立一个以用户为中心的移动音乐社区,利用“音乐+社交”的特色帮助用户更好地发现和分享音乐。网易云音乐是国内首个以歌单为架构的音乐产品,通过歌单作为入口,用户可以根据自己的音乐口味喜好来获取优质音乐。同时,它还将音乐推荐功能分成了三个部分:私人FM、每日歌曲推荐、推荐歌单。
之前我们已经提过Spotify的三种不同推荐系统模型,那网易云音乐的推荐系统原理又是怎样的呢?实际上,两者因为都是音乐应用软件,他们所使用的原理也是大同小异的。除了同样基于用户及歌曲的协同过滤推荐模型以外,网易云还用到了基于音乐标签(Tag)的推荐模型。比如网易云的主打之一 -- “推荐歌单”,它的热门标签包括了不同风格类型的音乐,还可以根据不同场合和心情进行划分。

用户及歌曲的协同过滤就是找两者之间的相似度,这个相似度可以是歌曲,也可以是用户。那另一方面,说到基于标签的推荐,其实也不难理解。但不同于协同过滤主要通过用户的行为来计算相似度,基于标签的推荐是着重利用用户或者音乐的特征来计算其相似度的。歌曲有标签,用户也会基于行为被打上标签,系统通过标签将二者关联。
根据标签进行推荐需要产品在初期就有标签概念,网易云音乐不同的曲目类型就是天然的素材标签,通过对UGC(User GeneratedContent—用户原创内容)内容的处理和对用户行为的数据分析就可以得到用户标签,再按照歌曲和用户的标签类型按照匹配度排序推荐给用户就可以了。
但是在实际过程中,上文所提到的推荐模型都是需要大量依赖于用户的历史数据,对于第一次使用的用户以及第一次被收录的音乐,在没有任何数据留存的情况下要如何解决呢?这就涉及到推荐系统的一个主要问题:冷启动。

网易云常用的解决方案是用户冷启动。第一,利用用户社交网络账号的信息。网易云音乐在注册和登录界面支持用户通过社交网络账号注册登录。这个时候,系统导入用户在社交网络上的好友信息和公开发布的信息进行数据分析,通过对性别、职业、年龄等公开发布信息的兴趣分析来获取初步的用户画像;同时可以基于社交好友关系链进行推荐。第二,要求用户描述自己的兴趣,利用选择的音乐标签,根据内容属性推荐音乐,在冷启动时推荐的音乐也应该具备相似特点。
与前面两个音乐类应用软件不同的是,视频网站爱奇艺的推荐系统原理其实更为直接简单,其主要分为两个阶段:召回阶段和排序阶段。具体结构如图所示:

召回阶段会通过用户画像,经过多维度的分析解读用户的人群属性、历史观看记录、兴趣内容和偏好倾向,在千万级的视频库中挑选出几百到几千个用户感兴趣的视频内容。
排序阶段就在此基础上进行更精准的计算,给每一个视频依据用户的兴趣程度进行精确打分,对视频的内容和质量以及视频的类别属性进行特征分析,与用户兴趣和其他偏好特征是否高度匹配,进而从成千上万的候选中选出用户最感兴趣的少量高质量内容(十几个视频)。
在广场舞大妈都能谈论两句大数据的时代,基于机器学习的推荐算法模型已经不再罕见。但是没有任何一种推荐方法或系统能适用全部的情形,在真正实现过程中还要最大限度地分析考虑用户的需求,毕竟你不了解用户就不知道让用户看到什么。随着大数据人工智能越来越热,由大数据驱动的营销策略在2021年会越来越多,各种岗位也需要会数据分析的小伙伴前来加入。那么需要学习哪些数据分析的技能?
首先要掌握Data岗的三个必备技能,他们分别是:Python、R和SQL。
从上表调查中可以看出,不论是Core Data Scientist、Researcher还是Big Data Specialist,都要求掌握Python这项技能。早就在2016年Python就已经成为大学和行业中最受欢迎并且使用最为广泛的编程语言了。
这几年,随着大数据时代和AI的崛起,Python以简洁实用的语言优势,成为了现象级语言,在各大语言排行榜名列前位,全民学Python的话题铺天盖地……
学了Python以后可以干什么:
-
可以解决基本的商业分析问题。利用Python中的统计模型分析导致每种型号电动牙膏不同销售量的主要因素是什么以及这些因素对销售量有多大的影响 -
挖掘社交网站数据。如果你对数据分析感兴趣,那么社交网站数据挖掘就是利用你的Python技能回答有关周围世界的问题的好办法。 -
可以解决日常问题。比如自动备份你的音乐列表;可以做网站,很多著名的网站包括YouTube就是Python写的;可以做网络游戏的后台,很多在线游戏的后台都是Python开发的。
SQL是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
有人把SQL比作“进阶版的Excel”。其实Excel与SQL相比,就是计算器与计算机的区别。当数据到达一定量级的时候,你就会发现使用SQL速度快、内存占用少。几行代码就可以搞定的事情,而相同情形下Excel的工作量则会巨大无比。
数据库是用来存储大量数据的一种软件,那么SQL呢,是用来操作数据里的数据,具体来说SQL可以做数据查询,数据更新,写入数据等等。如果把数据库比作盘子,那数据就是盘子里的菜,SQL则是你的筷子。因为SQL和数据库是天生的一对,又相对简单,目前世界上大部分网站和APP背后的数据都是建立在SQL数据库基础之上。
SQL具有数据定义、数据操纵和数据控制的功能:
-
数据定义功能。能够定义数据库的三级模式结构:外模式、全局模式和内模式结构。在SQL中,外模式又叫做视图(View),全局模式简称模式(Schema),内模式由系统根据数据库模式自动实现。 -
数据操纵功能。具有很强的数据查询功能,可以进行数据插入、删除和修改。 -
数据控制功能。对用户的访问权限加以控制,以确保系统的安全。
R是一个免费的自由软件,有UNIX、LINUX、MacOS和WINDOWS版本。R的源代码可自由下载使用,可在多种平台下运行。
R拥有多种统计学及数字分析功能。比其他统计学或数学专用的编程语言有更强的物件导向功能。R的另一强项是绘图功能,制图可以印刷,也可以加入数学符号。
虽然R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。其分析速度可媲美GNU Octave甚至商业软件MATLAB。
R语言是集数据处理、计算和制图软件于一身的系统。R语言的功能包括:
数据存储和处理
数组运算工具
统计分析工具
统计制图功能
编程语言
可操纵数据的输入和输出
这三种技能备受欢迎,但其实,他们的入门和学习却不难。对于新人小白,可以通过看几本靠谱的书籍的方式学习,也可以通过快速入门网站中学习,另外除了入门书籍和视频指导外,当然如果有专门的老师带领自己入门就会更好。
当今的互联网企业越来越重视数据,数据分析师也成为了热门高薪职位。为此,职图研究院专门撰写了一份《2021 数据分析行业百科》,包含热门行业应用场景、常用必备技能、技能解析。

对于想要做品牌全球化和学习数字化技能的同学,职图针对当前热门的四大数字化方向——数据分析、商业分析、数字营销、UIUX推出的技能畅学年卡,能够让你在来自世界500强大厂的导师带领下,掌握数字化高薪岗位必备工具等硬技能。
无限课程,带来无限可能。
技能畅学年卡是职图拳头产品集训营系列的升级版本,旨在帮助在校学生、毕业求职者和在职工作人士,突破知识的界限,激发自我潜能,学习掌握互联网热门行业硬技能。
职图技能畅学年卡全年无限观看互联网数字化高薪职能的必备技能。品牌全球化必备技能:数字营销Digital Marketing, 数据分析Data Analytics, 商业分析Business Intelligence, 产品交互设计Product Design。海外专家授课。导师来自:Amazon, Google, Facebook, TikTok, Casper, LVMH等。
职图技能畅学年卡,可以学习职图技能自学的所有课程。
职图集训营年卡全面升级上线助力你掌握岗位必备技能!






学员战绩






