大数跨境
0
0

提升工作效率:我常用的R语言自动化

提升工作效率:我常用的R语言自动化 CDA数据分析师
2015-11-28
2
导读:R语言自动化常用的6种方式

“每天一个数据分析师”新一期内容奉上,请享用~


人物档案


高云,毕业于北京邮电大学电子信息工程专业,目前在一家创业公司担任数据分析总监职务。



DA:您是如何入行的?


高云:因为我并不是学统计学和计算机专业的,毕业后是在电信运营商做网络维护和网络优化相关的工作,这一干就是6年的时间。大家都知道从2009年3G时代以后,随着移动互联网的爆发,运营商的移动数据流量也是与日俱增,我刚好负责的就是数据业务的流量监控工作,搭建了一套全网数据流量的监控平台,研究全网大大小小接口流量的起起落落,也算是大数据的初体验吧。


近几年,运营商对于数据价值的探索需求也逐渐旺盛,我们成立了专门的大数据中心,时任的主管也是特别看好我的潜力,希望我能加入到这样一个专门做数据分析和数据挖掘的团队中来。也正是在他不断引领下,我从一个大数据的门外汉,一路走到了今天,所以,说到入行,真的是非常感谢他。


DA:您的工作经历,目前的工作职责是什么?工作中曾做过的数据分析实例,以及您的职业规划?


高云:在运营商做大数据分析工作的这段时间里,做过很多基于空间地理的用户迁徙、商圈人流、用户的社交网络以及用户特征标签的建模和分析项目。在2015年我加入了一家专注于零售行业的O2O大数据服务的创业公司,担任数据分析总监的职务,全面负责公司对外的数据分析服务、用户标签体系建设和产品优化相关的工作。


在我未来的职业规划中,数据分析一定是一条主线,做一名专业领域的数据科学家是我最终的目标。所以,在繁忙的工作中,我会要求自己不能停下学习的脚步,无论的数据分析的技术,还是专业领域的行业知识,都有太多需要去探索的东西。


DA:能否给我们讲讲您在工作中遇到的印象深刻的困难及其背景成因?


高云:其实,任何一个数据分析或者数据挖掘项目的困难,都只是一个暂时的需要跨越的障碍而已,这样的困难往往是我们不断学习进步的机会,并不是数据分析师最大的敌人。在我看来,数据分析师工作最大的制约是效率问题。我们往往在常规的数据采集、ETL、数据清洗和规范的报表制作中耗费了大量的时间和精力,而这部分基础而重要的工作,产生的显性价值又很低。占用了大量数据分析师时间和精力的同时,制约了大家进一步探索数据、挖掘数据隐含价值以及追求卓越的数据可视化的思考空间。这样经典的二八现象在数据分析行业内是屡见不鲜的。


DA:如何解决这个问题呢?能否请您向广大同行分享下思路?


高云:解决这个问题的关键在于自动化,这也是目前越来越多先进的数据分析和挖掘工具能够大行其道的原因所在,无论是SPSS、SAS还是R、Python,甚至是EXCEL,都有足够的能力将常规的“规定动作”时间压缩到很小的范围,让大家有足够的时间去完成那些机器无法完成的“人的工作”,而这部分“人的工作”才是数据分析师这个职业存在的最大价值。


具体来说,我们会把数据格式转换、异常值识别、数据清洗和基本的数据统计分析工作利用R语言作为工具,编写自动化的R脚本文件实现,甚至直接生成可视化报表的PPT文件。把以前需要好几天完成的工作,在几秒内实现,这种感觉还是很COOL的。


分享一些我们在R语言自动化实现过程中用到的扩展包和函数:


  • plyr


  • dplyr


  • reshape2(数据整理)


  • boxplot.stats函数(异常值检测)


  • ggplot2(可视化)


  • knitr(生成报告)


因此,磨刀不误砍柴工,希望广大同行都能通过各种手段把自己从80%的繁琐、重复劳动中解放出来,释放更多的价值。


DA:您可否推荐一些平时充电学习专业知识的平台或途径?


高云:首选当然是人大经济论坛了,我的大量的视频、电子书资源都是从论坛中获得的,这里还想感谢一下广大的坛友呢。


其它的途径我主要是看书,毕竟电脑看了一天了,晚上一般喜欢翻一翻纸质的书籍,像O`Rilly出版社发行的很多国外的数据挖掘、机器学习类的书籍质量都是非常高的。另外还有一个比较快速获得知识和帮助的平台就是QQ群了,那真是一个高手云集的地方。


DA:您对希望从事数据分析行业的人有哪些建议?


高云:要对数据有热爱。从事数据分析这个行业有时候的工作时很艰苦的,对着各类数据报表一看就是一天,如果没有足够的热爱,很难有这样的耐心和毅力去坚持。无论是学习和工作,都要用一种专注甚至是苛刻的态度去做,只有这样,才能让我们的分析结论有足够的说服力,自己才能获得足够的信心。


另外,很多刚入门的分析师往往不知道需要学习什么样的工具,或者是什么工具都想学,但是什么都学的一知半解又无法深入。其实,初期的时候能熟练使用1-2个工具就足够了,把一个工具用深用精很重要,很多的工具都是触类旁通的。


最后一点建议是,数据可视化很重要,重要到可以说三遍。在数据规模和信息量爆炸的今天,可视化作为一个最接近用户的表达手段,有着“最后一公里”的重要价值。一个有趣的数据分析结果,如果没有一个有吸引力的可视化表达方式,往往就会石沉大海了。而一个独到的可视化设计,会对一个数据分析的结论有难以估计的加分作用。


DA:您如何看待数据分析师行业的就业前景及未来发展?


高云:粗略的算一下,大家可能感觉周围的数据分析师很多,学校里相关的专业也是越来越热门。但落实到每个专业领域中来,优秀的数据分析人才还是非常稀缺的,而数据分析师在不同领域的工作中又有一定的通用性,所以就业和转行的机会也更多,前景还是非常好的。


DA:平时工作之余都做些什么,有什么特长爱好呢?


高云:因为现在的工作确实比较忙,工作之余其实就是更多的陪伴家人和孩子吧,毕竟她们对我的支持是最大的,也是我最需要感恩的人。爱好的话是足球和三国杀啦,体育锻炼和脑力锻炼兼顾吧。说真的,有时候数据分析师的大脑还是需要放松一下的,一直紧绷着的话就会失去很多灵感和创意了。


高云留下了自己的联系方式,QQ:32323597 邮箱:32323597@qq.com有问题想要沟通的同学可以在后台留言哦~


点击文章底部阅读原文,查看CDA数据分析师认证考试考纲解析和报名流程。


回复关键字 看往期精彩~


1001 ☛ 一分钟读懂2015中国数据分析师行业峰会!

1002 ☛ 吴喜之:数据分析和数据挖掘是最大的求职法宝

1003 ☛ 33道Hadoop面试题,看看你能答对多少?(答案在后面)

1004 ☛ 成为首席数据官是一种什么样的体验?

1005 ☛ 超能教程 十分钟学会 Python!


【声明】内容源于网络
0
0
CDA数据分析师
🌸全国30万数据分析从业人员,有10万在CDA数据分析师 🌺CDA会员俱乐部有1000个数据库,成为持证人即可获得相关数据信息 🌹未来两样东西最有价值:一个是数据,一个是GPU
内容 9451
粉丝 0
CDA数据分析师 🌸全国30万数据分析从业人员,有10万在CDA数据分析师 🌺CDA会员俱乐部有1000个数据库,成为持证人即可获得相关数据信息 🌹未来两样东西最有价值:一个是数据,一个是GPU
总阅读2.5k
粉丝0
内容9.5k