点击蓝字关注我们

数据科学定义
数据科学是一种使用从统计分析到机器学习的方法从结构化和非结构化数据中收集洞察力的方法。对于大多数组织而言,数据科学被用于将数据转化为价值,其形式是改善收入,降低成本,提高业务灵活性,改善客户体验,开发新产品等。
RiskIQ公司首席数据科学家Adam Hunt说,“如果愿意,企业可以获取的数据量是巨大的,但是如果没有做任何事情,把它变成有趣的东西,它有什么用呢?数据科学是关于提供这些数据的目的。”
数据科学与分析
虽然数据分析是紧密相关的,但它是数据科学的一个组成部分,用于了解组织的数据是什么样子的。数据科学利用分析的输出来解决问题。
Hunt说,“数据科学正在得出推动数据向前发展的结论。如果不是采用数据解决问题,如果只是在做调查,那就是分析。如果真的要用结果来解释某些事情,就要从分析到科学。数据科学与实际解决问题的关系比观察、检查、绘制数据更大。”
对于Looker公司首席数据科学家Hillary Green-Lerman来说,数据分析和数据科学之间的区别在于时间尺度。她表示,数据分析描述了当前的现实状况。数据科学使用该数据来预测或了解未来。
Green-Lerman说,“许多人认为数据分析师只是初级数据科学家;有人希望在他们长大后成为数据科学家。有时这是真的,但实际上我发现一个非常优秀的分析师拥有与数据科学家不同的技能。”
数据科学与大数据
数据科学和大数据通常是一致的,但数据科学可以用来从各种规模的数据中提取价值,无论是结构化的、非结构化的还是半结构化的。当然,在许多情况下,大数据对数据科学家很有用,因为企业拥有的数据越多,在给定模型中可以包含的参数就越多。
Hunt说,“有了大数据,企业就不必受制于小数据的维数限制。大数据在某些方面确实有帮助,但更多并不总是更好。如果把股票市场放在合适的位置,它就不会起作用。”
数据科学的商业价值
数据科学的商业价值取决于组织需求。数据科学可以帮助组织构建工具来预测硬件故障,允许组织执行维护,并防止意外停机。它可以帮助预测超市货架上的内容,或者根据产品的属性预测产品的流行程度。
MapR科技公司首席应用架构师Ted Dunning说,“数据科学团队可以拥有的最大价值在于他们与业务团队融为一体。几乎按照定义,寻求新奇的人员,真正创新的人员,将会发现价值或泄漏的价值,而不是人们所预期的。通常他们会让业务人员带来惊喜。价值并不是人们最初认为的那样。”
数据科学团队
数据科学通常是一门团队科学。数据科学家是大多数数据科学团队的前瞻性核心,但从数据转向分析,然后将分析转化为生产价值需要一系列技能和角色。例如,数据分析师应该在将数据呈现给团队,并在维护数据模型之前对其进行调查。数据工程师必须构建数据管道以丰富数据集,并使数据可供公司其他人使用。
eBates公司分析副总裁Mark Stange-Tregear警告不要寻求数据科学“独角兽”,也就是将非线性思维与高级数学和统计知识以及编码能力相结合的人员。
Stange-Tregear解释说,“我不认为数据工程是关键的数据科学家特征,我希望有人真正添加其他内容。如果我可以让某人建立模型,能够评估统计数据,并将该模型的好处传达给业务部门,那么我就可以雇佣足够成熟的数据工程师来采用该模型并实现它。”
数据科学的嵌入式方法
写完这篇文章,到现在差不多有两年了。我对于探访民间巫术的兴趣至今未减,探访的结果之一是我还想就此说一些话。可以说,这是一些多余的话。
巫术之与民间信仰有着无法界定和厘清的关系。我在这里没有用“宗教信仰”这样的短语,因为这样的信仰源于对现实生活的渴求、祈诉,目的是趋利避害、求取现实生活的平安和富足,究其来源,乃是对现实中可以预见的风险的规避,对未来不可预见的风险及可预见的利好的预防和诉求。从这样的认识出发来探究巫术,我认为生活中的巫术是一个极其宽泛的概念,除了一般的“巫术”定义之外,似乎至少还可以理解为“对于人、事、物及其与生活的关系的一种特殊认识和理解及因此而形成的观念、意识、心理和言行表现”。还是举例来说明吧:
民间对于建房中举凡与大门有关的事情甚为关注和谨慎。其心理因素,除了门神、四灵等迷信因素之外,最为主要的认识就是大门是房屋的象征,具有等同于房屋的意义,而房屋与人一样也是有灵的。所以,其一、立大门、封大门是要举行相关的仪式,其“主打节目”就是用大门的制作尺寸来祈求福祉,用匠人的祝、赞预示吉利,以鸡头的朝向预卜吉凶。熟知鲁班行工匠的人都知道木匠、砖匠会使用一种叫“鲁班尺”的尺子。鲁班尺的主要功能不在于丈量,而在于依据特定的尺码卜定吉凶。依据砖匠、木匠行的成规,大门的不同高度、宽度依次应验“财”、“病”、“离”、“义”、“官”、“劫”、“害”、“本”等八种不同的吉凶情况。9尺9寸高、5尺4寸宽,这个尺码与“本”相应,预示平安。其余的依此类推。这是一个方面。另一个方面,不同的建筑又要求与尺码相应以达到最理想的利好效果:一般地说,药铺(即现在所说的医院)的大门要与“病”这个字相应的尺码一致,学校、官衙的大门要与“官”这个字相应的尺码一致,店铺、祠庙的大门要与“财”这个字相应的尺码一致。如此等等,不一而足。其二,几乎是一个古往今来始终未变的通例:同一排建房左邻右舍,大门的尺寸大小要一致。它的简化形式就是彼此的大门必须一样高。否则,即有人强我弱、强者凌弱、遭遇门高者打压的风险。其三、木匠做门窗时,讲究木料的处置要与“根在下枝在上”这样的树木生长之理一致,反之,做出来的门窗枝端在上则认为是不吉利的。但是,在制作家庙这样攸关一族荣兴衰败的建筑时,木匠往往会应主人之请,特意将大门门框中的一根木料按“枝端在下、根端在上”的方式来处置,此举寓意为“树倒树倒,代代温饱”。
基于万物有灵的认识,民间历来都很注重安置栋梁,除了此前介绍的封栋仪式之外,民间还从其它三个方面予以重视:其一,材料的选择,讲究用“双桠树”做栋梁,讲究栋梁从采伐下山到安放到屋梁上,这期间材料不沾地。所谓双桠树,就是由同一个树根发出的芽长成的两棵树中的一棵。所谓不沾地,就是材料不要与地面接触,而让板凳等把木材架起来。其二,镇的放置。在这里,放置镇的目的在于使其具有神奇的功能,这与佛、道及民间庙宇里的神像必须放镇一样,不过,那不叫做镇,而叫做“脏”。栋梁中的镇放在主梁正中的暗格中:中间凿空,外面以木板覆盖,几乎就看不出凿空的痕迹。镇包括安梁文书、历书(民间称之为“皇历”)、钱币、折扇(一般两把)、笔(一般两支)、墨(一般两块)等物品,其它还可能有米谷豆盐茶。最有意思的是,与神像里面的“脏”一样,有些镇中还有海马、海龙、石燕。这可能与佛教有一定的关系。其三,栋梁的位置。概括地说就是主梁处于正中位置:处于前后左右这四个方位的正中位置,这就是人们平常所说的屋脊正中位置。主梁之外,一般还有两根陪梁。陪梁置于主梁之下两三路砖处,与主梁成三角形,一般漆成朱红色。
屠夫的禁忌。旧时,屠夫行对于所谓的“怪气猪”有一种特殊的敬畏感,一是除非有相应的、足以使自己能制服怪气猪的本领,否则,绝对不敢动刀宰杀。因为有一种观念认为这样的猪是鬼怪投胎,具有特别的神通,没有本领的人,或者本领胜不过猪的屠夫会招致报复:最严重的情况是丧命。二是依规矩,杀猪的屠夫可以无偿的得到一半的猪肉。所谓 “怪气猪”,包括以下几种:五爪猪,这种猪在两个蹄子之外,还在腿上长有三个小蹄子或近似小蹄子的赘生物;半边瓢,这种猪头部的毛色明显分为两种,看上去一白一黑,彼此对称,如同两只不同颜色的瓢合在一起一样;叫花子围腰,又叫叫花子背袋,这种猪通身一种毛色,而腹部、背部有另外一种颜色的毛上下左右彼此贯通,看上去就像猪身上围了一根带子一样;双蛇出洞,这种猪看上去与普通的猪一模一样,只是当它吃饱了躺下的时候,鼻孔里会伸出两股浓浓的鼻毛,一伸一缩,就像两根蛇信子一样;木马猪,这种猪的蹄子长在一起,看不出有两个,把它称之为“骈枝猪”似乎更为合适一些;小结猪,就是猪蹄子上长出一个小结节,结节翻转向上的猪。这实际上是人对于稀奇事物敬畏心理的外在反应和表现,多少带有一些古代动物图腾的遗迹。
几个乡下人在一起闲聊,不禁意间就聊起了官场上的事情。
老头说:某年某年,乡镇领导换届选举前恰好有个节日,甲乙丙三个乡干部去给某县领导送节礼,这是三个没有写上姓名的大红包,一个六万,一个八万,一个十万。几天后,甲乙丙三个中有两个人如愿以偿的提升了,只有一个人还在原来的位子上。这个人很不高兴:嘿,我不也是给你意思意思了吗?凭什么呀!于是就找领导,暗示领导是这么这么一回事,我想不明白。领导说:都定盘了,还关照个屁!去,把你的红包拿走!一甩手就是个十万的大红包。乡干部一看,这哪是我的呀?我的才六万。又一想:提升个球!不就是几天的时间吗!老子白得了四万。
老太婆说:我说这当官的就是贱,别看他人前人后威风凛凛的,背后拿了人家的就得给人家做孙子。我就瞧不起这些人。
中年人说:如今这社会,谁不要给人当孙子?你得去求人家,你就得做孙子。老百姓要给人去做孙子,当官的也得给人去做孙子:小官给大官做孙子,大官给更大的官做孙子。
这是乡间随时随地可以听到的毫无意义的闲聊,没有人去关心计较这样的闲聊。
也许你会说,这老太婆纯粹就是吃不到葡萄就说葡萄酸,清高什么呀?但是,这世界上确实有不想当官的人。不仅不想当官,还不想做自己不想做、不喜欢做的事情。有时,这是某种惰性使然,有时是建立在对自己理性认识基础上做出的明智决定,这就是我们通常所说的个人意愿。每个人都有自己的意愿,缺少的只是对个人意愿的尊重:有时是别人不尊重你的意愿,有时是自己不尊重自己的意愿。假如一个人连这点意愿都没有的话,假如一个人连自己也不能尊重自己的意愿的话,这个人就活得太累了。
也许你会说,这中年人说的也太绝对了,与废话有什么差别?不,他说的只有缘于偏激的夸张,夸张包装着的东西却没有完全违背事实。生活中有太多的无奈,你必须面对。是跨过去还是绕过去?这是你面对无奈的时候必须做出的选择。当这种无奈只是你可以克服而没有去克服的困难时,你当然会选择“跨过去”,这是勇敢地面对挑战。当这种无奈是你无法克服而不能去尝试着克服的困难时,甚至是你无须触及的困难时,你当然应该选择“绕过去”,这是理智的放弃。
也许你会说,真有如你所说的“无须触及的困难”吗?这就要讲到老头说到的事例了。按老聃的说法,一个人面临的最大祸患莫过于贪婪的欲望。人们常说贪欲是一个无底洞,永远也满足不了。要满足个人的贪欲常常意味着风险:或者是别人的付出、牺牲、损害、毁灭,或者是自己的堕落、扭曲、异化、毁灭,更多的是既损害了别人,又毁灭了自己。不是吗?钱是好东西,假如要用风险去为之买单的话,你何必自寻烦恼呢?当官是风光荣耀的事情,假如要用风险去为之买单的话,你何必自讨苦吃呢?
我们平常看到的盛酒器具,一是酒坛,二是酒壶,三是酒瓶。在乡下,喝酒的时候,主妇从酒坛里把酒舀出来,倒进酒壶或者酒瓶里,再端上桌,再筛进酒盅酒碗里,喝酒的人这才“举杯邀明月”,或者“把酒话桑麻”。这似乎是乡下人饮酒的基本程序。
我是乡下人,这三种盛酒器具乃是我习见习闻的东西。乡下人的酒坛是清一色的陶制作品,细口深腹,外饰斑驳的土釉,朴拙,却极显粗重,尤其是装满一坛酒的时候。那酒壶呢,多半是锡匠手里出来的东西,一律圆口鼓腹,配以厚实的底,高高的提梁。倘若你手里有一把这样的酒壶,你看吧,那提梁实在是太夸张了:又粗又大,像一张拉满的弓,向上,向外弓起,竟然比壶身要高出许多。你再看看吧,同时用手拈一拈,也许就会突然冒出一个念头:说不定哪一天这提梁一断,不把壶身砸一个稀烂才怪呢!我不喜欢酒壶,不仅仅是因为酒壶有这么一根粗大的提梁。我有一种印象:举凡叫壶的器具,都是要用手提的,让人离不开沉重的感觉。我喜欢酒瓶。浅浅的抿一口,再慢慢的咽下去,长长的啧啧嘴,得美酒的香醇,喝酒的惬意,酒酣的余味,这就是喝酒。想像一下吧,这样喝着酒,再有人一手扶着瓶口,一手轻轻托着瓶底,缓缓的倒一碗酒给你喝,这将是一种什么滋味?这个时候,我常常想:如果不是酒瓶,用的是别的盛酒器具,是否也有这样的韵味?你看看吧,酒瓶造型各异,又饰以文字图案,图文并茂,喝酒之前可以先饱眼福,玻璃质地的酒瓶,透明通亮,喝酒之前可以先来享受酒的色泽之美,陶瓷质地的酒瓶,或轻巧细腻,或厚重稳实,摇一摇,里面的酒,声轻悦耳,喝酒之前可以先存一番有关酒的想象……诸如此类,以瓶盛酒,尽得喝酒的妙处。
我有一只陶瓷质地的酒瓶,样子是一只小小的酒坛子,它的口极细,颈极短,足极浅,圆圆的瓶腹,则显得高之又高,有酒坛的朴拙。它的胎质极薄,拿在手里,轻轻巧巧的如同无物,轻轻一弹,声响清脆,经久方散,有乐曲一样的余韵。我看过作为文物收藏的酒瓶图片,仿佛就有这样一种款式。有雅兴的人,或许会认为它不失古朴之美吧。它的釉质细腻,均匀,光滑,亮泽,有玉质的温韵感。瓶身釉色奇巧,它的腹部呈淡淡的芽黄色,上面分散着一片片枣红色的晕斑,有鳝鱼黄的韵味,它的足部却是短短的一圈深黑色,厚实,稳重,要推倒这样一只酒瓶并不是容易的事情。两种釉色自然融合,找不到一点拼接的痕迹,这实在是行家里手的杰作。
一些组织选择将数据科学家与其他功能混合在一起。例如,Mapr公司的Dunning建议遵循数据操作方法,将数据科学家嵌入到具有业务线职责的DevOps团队中。这些数据运营团队往往是跨职能的和技能的,如运营、软件工程、架构和产品管理,并且可以从头到尾协调数据、工具、代码和环境。数据运营团队倾向于将分析管道视为类似于生产线。
Dunning说,“孤立的数据科学团队可能希望部署最复杂的模型,嵌入式数据科学家将寻找可维护的廉价胜利。他们对于选择的解决方案是务实的。”
数据科学目标和可交付成果
数据科学的目标是构建从数据中提取以业务为中心的见解的方法。这需要理解价值和信息在企业中是如何流动的,并能够利用这种理解来识别业务机会。虽然这可能涉及一次性项目,但更典型的是,数据科学团队寻求识别关键数据资产,这些资产可以转化为数据管道,为可维护工具和解决方案提供支持。例如,银行使用的信用卡欺诈监控解决方案,或用于优化风电场中风力发电机布置的工具。
逐渐地,传达团队所做工作的演示文稿也是重要的可交付成果。Riskq公司的Hunt说,“确保他们将结果传达给公司的其他人是非常重要的,当数据科学团队长时间陷入困境时,它开始陷入困境。产品经理认为工作是理所当然的,除非我们一直在谈论和关注它。”
数据科学过程和方法
生产工程团队在Sprint周期中工作,并且有计划的时间表。Hunt表示,数据科学团队通常很难做到这一点,因为可以提前花很多时间来确定一个项目是否可行。
Hunt说,“很多时候,第一周甚至第一个月都是研究、收集、清理数据。我们能回答这个问题吗?我们能有效地做到吗?我们花费了大量的时间进行设计和调查,远远超过了标准工程团队的表现。”
对于Hunt来说,数据科学应该遵循科学方法,尽管他指出并非总是如此,甚至不可行。
Hunt说,“企业试图从数据中提取一些洞察力。为了反复和自信地做到这一点,必须使用科学方法准确地证明其假设。但我不认为许多数据科学家真正使用任何科学。”
Hunt说,真正的科学需要时间。企业花费时间确认其假设,然后花费很多时间试图反驳自己。
Hunt说,“通过数据科学,企业需要深入研究数据来验证这些假设。我们试图回答的很多问题都是短暂的。例如,在安全方面试图找到解决威胁的办法。”
他表示,因此,数据科学通常意味着采用“足够好”的答案,而不是最佳答案。然而,危险是结果可能成为确认偏见或过度拟合的牺牲品。
他说,“如果这不是真正的科学,也就是说企业用科学的方法来证实一个假设,那么所做的就是向一些算法采用数据来证实自己的假设。”
数据科学工具
数据科学团队使用各种工具,包括SQL、Python、R、Java以及Hive、oozie和TensorFlow等开源项目。这些工具用于各种与数据相关的任务,从提取和清理数据到通过统计方法或机器学习对数据进行算法分析。
通过统计方法或机器学习进行算法分析。
“企业需要良好的可视化工具。在这一点上,编程工具Python是最受欢迎的。企业需要能够构建有趣模型的工具。”MapR公司Dunning说。
Dunning说,当MapR公司调查其客户数据团队时,团队使用的最少数量的建模工具是5个,而且甚至没有进入可视化工具。
“事情变得越来越多,因为人们更加怀疑。这种其他建模技术会产生更好的模型吗?”Dunning说。
数据科学家的薪酬
根据PayScale公司的数据,以下是一些与数据科学相关的最受欢迎的职位和每个职位的平均薪酬:
•分析经理:67,000美元至126,000美元
•助理数据科学家:58,000美元至101,000美元
•商业智能分析师:49,000美元至95,000美元
•数据分析师:42,000美元至83,000美元
•数据架构师:77,000美元至153,000美元
•数据工程师:64,000美元至132,000美元
•数据科学家:65,000美元至134,000美元
•IT数据科学家:61,000美元至135,000美元
•首席数据科学家:95,000美元至172,000美元
•研究分析师:4万至7万美元
•研究科学家:48,000美元至118,000美元
•高级数据科学家:93,000美元至160,000美元
•统计学家:50,000美元至108,000美元
数据科学技能
虽然数据科学学位课程的数量正在迅速增加,但它们并不一定是组织在寻找数据科学家时所寻求的。eBates公司Stange-Tregear表示,他寻找具有统计背景的候选人,因此他们知道是否在看实际结果,将结果置于场景中的领域知识;以及使他们能够向业务用户传达结果的沟通技巧。
“如果我有一位可以完成所有这些工作的数据科学家,那么我会担心通过数据工程团队实现这一点。”他说。
RiskIQ公司的Hunt表示,对拥有博士学位的应聘者很感兴趣。Hunt说,“我偏向招聘于拥有博士学位的人,但我不会放弃那些具有丰富经验的人才。博士能够对一个主题进行非常深入的研究,并且能够将这些信息传播给其他人。但是,拥有扎实的背景或个人项目是非常有趣的。”
Hunt说,他特别寻找物理、数学、计算机科学、经济学甚至社会科学的博士学位的人才。他不会对拥有数据科学或分析学位的应聘者另眼相看,但他确实对招聘这些人有所保留。他说,“我的个人经历是,我发现它们非常有用,但他们过于关注模型的操作,而不是思维方式。”
MapR公司的Dunning更关心申请人的个人能力,而不是展示新事物的能力。他说,“我在招聘数据科学家时首先想到的内容是:受访者是否能教会我一些东西?我不想找到指导我怎么做的人,我非常想找到那些可以做我不能做的事情的人才,或者可以教会团队的人才。”
Dunning指出,一些优秀的数据科学家或数据科学领域的领导者都具有非传统背景,并指出,他与之合作过的最好的人员包括曾经做了6年园丁的人,具有美术背景的人,有的甚至拥有法国文学学位,还有一位没有接受计算机培训的新闻系学生。
Dunning说:“想用数据感知来测试人们,而不是用公式。希望有能力看到事物并理解它们。”
数据科学培训
鉴于目前缺乏数据科学人才,许多组织正在制定计划,以培养内部数据科学人才。而培训是另一条快速增长的途径,培训工作人员承担数据科学家的角色。
数据科学学位
根据美国新闻和世界报道,这些是数据科学领域的顶级研究生学位课程:
•统计学理学硕士:斯坦福大学的数据科学
•信息与数据科学硕士:伯克利信息学院
•数据科学理学硕士:哈佛大学约翰保尔森工程与应用科学学院
•分析科学硕士:芝加哥大学格雷厄姆学院
•计算数据科学硕士:卡内基梅隆大学
•数据科学理学硕士:华盛顿大学
•跨学科数据科学硕士:杜克大学
•应用数据科学硕士:密歇根大学信息学院
数据科学认证
组织需要在数据分析技术方面有专长的数据科学家和分析师。他们还需要大数据架构师将需求转化为系统,需要数据工程师构建和维护数据管道,需要了解Hadoop集群和其他技术的开发人员,还需要系统管理员和管理人员将一切联系在一起。认证是候选人展示他们拥有正确技能的一种方式。
一些顶级大数据和数据分析认证包括:
•数据科学专业成就认证
•认证分析专业人员
•Cloudera认证助理(CCA)数据分析师
•EMC经验证的专业数据科学家协会(EMCDSA)
•MapR认证数据分析师
•Microsoft认证解决方案专家(MCSE):数据管理和分析
•使用SAS 9的SAS认证数据科学家
来源:企业网D1Net


