
行业白皮书


扫码回复【DA】,免费领取白皮书
在现如今的数字时代,全球各地的企业都在利用数据科学来解决各类问题,每一款基于移动/网络的产品软件或数字体验类服务也都需要应用数据科学来实现个性化等精细的客户体验。无疑,如果说21世纪最缺的是人才,那么其中正为紧俏短缺的可能要有“数据科学专业人士”的姓名!
然而,如果要从事数据科学相关的工作,刚入行、出于职业发展早期阶段的新手需要的不仅仅是强有力的理论基础,还需要有交付并解决现实问题的实战经验。因此,我们整理了11个实战案例,帮助你在即将到来的春招阶段,通过模拟实际分析案例一方面充实你的简历,另一方面也能在面试中侃侃而谈、全方位展示你的实战“经验”!

A.初级案例
Yelp作为风靡全美的外卖网站(类似于国内的大众点评),很多人在思考一天的难题——“吃什么好呢?”的时候都会用Yelp来帮助他们选择想要的食物。他们在线上搜索、就餐打卡、评论留言等一系列消费者行为,也同时为Yelp积累了海量的适用于数据分析的基础数据。

例如,数据科学家罗伯特·陈(Robert Chen)就基于Yelp的海量数据,研究食客评论态度的正负性和印度餐厅真实品质之间的联系,简单来说,就是人们能否将Yelp上的评论或者评分作为判断该去哪家印度餐厅就餐的依据呢?罗伯特·陈使用Python和R语言,发现参考“一个人对某一特定菜肴(在本例中为印度菜)的餐馆评论次数”以及“从姓名推测评论者是否为印度人”的可信度比较高,可以作为该消费者选择餐厅的依据之一。具体来说,在他分析的11个城市中,那些有印度名字的评论者往往只对每个城市中的同一家餐厅纷纷给予正面积极的评价,而其他不熟悉印度菜系的消费者就可以根据好评的集中程度,来选定这家“众望所归”的餐厅啦!
用户分层这一理论通常被应用于营销行业。营销人员基于每个消费者的心理、行为偏好等数据进行人群分类运营,以提供有针对性的产品和服务。而数据科学领域的发展则可帮助营销人员们科学、快捷且大规模地实现上述分层诉求。

自动驾驶汽车需要检测车道线,以确保实时遵守交通规则。数据科学和机器学习可以在实现这一点上发挥关键作用。例如:你可以使用OpenCV库、NumPy、Hough、CNN神经网略等可视化相关技术,构建一个应用程序,通过实时抓去视频帧或图像来自动识别汽车的行程轨迹线。
B.中级案例
除了初级案例中的餐饮、营销和交通运输领域,数据科学也在体育行业有广泛应用。例如,大家可以从数据角度分析专NFL(美国职业橄榄球赛)不同战术的得分效率。首先收集每场比赛的相关数据,再使用R语言进行分析,通过提出假设、数据验证假设、提出可行性建议的实战演练,熟悉了实际工作中数据分析项目的工作流程。

图像分类是数据科学中最受欢迎和需求最广泛的细分领域之一。例如:数据科学家设计了一套帮助人们更加快速和准确识别狗狗品种的应用程序。他通过JupyterNotebook构建神经网络模型,基于大型数据集有效地处理图像(而不是传统的数据结构)以避免过度拟合,并结合在不同数据集上训练的神经网络模型结果,进行探索性数据分析,从而优化模型预测结果,直接预测准确度高于人类肉眼识别狗狗品种的准确程度。

通过获得Uber授权的完单交易等数据,FiveThirtyEight从中研究发现Uber乘客呼单的规律性和基础特征、其与公共交通的相互作用,以及对出租车客流量的影响等,从而回答了该命题。
这是另一个基于Yelp的项目,但比我们之前讨论的更复杂。数据科学家Michail Alifierakis使用Yelp数据构建了他的“餐厅成功模型”,以评估餐厅的成功/失败率。他使用了一个线性逻辑回归模型,并使用网格搜索和交叉验证对预测结果的精度进行了优化,从而贷款人和投资者更加科学地进行ROI最大化的投资。
世界各地的许多执法机构正在转向数据驱动的方法来预测和预防犯罪。例如:数据科学家奥兰多·托雷斯(Orlando Torres)的关于预测性警务的项目,就成功利用自动化模式检测过程,减轻了犯罪分析人员的工作量的同时,也有效通过预判降低了犯罪率。
他根据公开信息源中的2016年实际数据,构建基于线性回归、随机森林回归、K-nearest neighbors、XGBoost和深度学习等预测模型,以预判2017年特定邮政编码地区、日期甚至时段内的犯罪事件。
如今,企业正通过聊天机器人实现客户服务的自动化。目前的两类聊天机器人:特定域和开放域聊天机器人,都是使用自然语言处理(NLP)和递归神经网络(RNN)模型实现的。例如:Patrick Meyer通过自然语言处理来识别负向、中立和积极的语言表述;保罗·埃克曼(Paul Ekman)则将人们在文案中表露的情绪做进一步细分,即:六种情绪模型——愤怒、厌恶、恐惧、喜悦、悲伤和惊讶,以提高机器人自动化完成客服诉求的精准度。

C.高级案例
电商购物中,跨平台比价,寻找统一产品的最低价格无疑是大量网购者的快乐源泉之一。Chase Roberts通过比较eBay和Amazon上3500种产品的价格,帮助消费者及时制定科学的省钱/薅羊毛方案!其分析结果显示,如果选择了错误的平台购买这3500种商品(总是在价格更高的网站购物),消费者平均将花费193498.45美元;而通过自动化比价,从而在每种商品定价最低的平台分别购买这3500种商品,消费者平均只需花费149650.94美元,从而足足节省44000美元的差额,相当于为自己打了8折左右!

最近的一项研究显示,虚假新闻比真实新闻传播得更快,触达到的人也更多。约52%的美国人表示,他们经常在网上遇到虚假新闻。加州大学伯克利分校的一个四人小组制作了一个假新闻分类器。该团队专注于点击诱导型这种常见的假新闻形式,通过从OpenSources上列出的新闻来源获取数据、使用NLP对文章进行初步处理以进行基于内容的分类、训练各种机器学习模型来划分新闻文章、并最终成功开发了一个web应用程序作为分类器的前端。
D.数据分析项目数据源
以下是一些在线数据源,当你在准备数据科学案例项目时,可以免费访问并下载先关的合规数据哦:
VoxCeleb:一个视听数据集,包含来自不同年龄、职业、口音等演讲者的简短演讲片段。这些片段是从上传到YouTube的采访中提取的。它可以用于各种应用,如语音分离、说话人识别、情感识别等。
波士顿住房数据:一个小型数据集,来源于基于美国人口普查局收集的波士顿住房数据。该数据集可用于评估,尤其是回归问题。
Kaggle: 拥有超过 50,000 个涉及各类主题的公共数据集,可以找到做数据科学项目所需的所有数据和代码。他们还提供具有竞争力的数据集。
国家环境信息中心:世界上最大的环境数据仓库,提供海洋、大气、气象、地球物理、气候条件等信息。
全球卫生观察站:提供一些最新的COVID-19数据。
谷歌云公共数据集:由BigQuery、云存储、地球引擎和其他谷歌云服务托管的数据集。
亚马逊网络服务开放数据集:以下载、使用或在Amazon Elastic Compute Cloud(Amazon EC2)上分析数据集。

以下是一些做数据分析项目的提示,当你在准备数据科学案例项目时,可以按照这一个完整的操作流程进行分析:
选择正确的问题,从而针对性的聚焦一个数据集,以免研究面太过发散
将问题模块化拆解,并按照如下流程进行
提出你的假设:假设数据如何对某些变量做出反应
清理数据:Garbage in,Garbage Out,有噪音的数据推导出的分析结论无异于废纸
找出数据特征:考虑哪些因素会影响你的预测结果,预判可能的影响因素准备放入模型中
创建预测模型:确定合适的模型
回顾你的假设研究数据:根据模型结果,肯定或者调整最初的假设,并通过讲数据故事的方式将上述研究过程进行阐述
为了更好地帮助目前正在找实习、全职工作的同学,CareerTu特地建立了海外职场交流群,帮助大家更迅速地了解行业信息!

扫码回复【职场】,申请加入海外职场交流群。









