大数跨境

巨量资料扩展演算法、编程语言

巨量资料扩展演算法、编程语言 芯华舍
2017-07-11
2
导读:我从小就对各种东西的运作原理十分好奇,而且主要是因为诧异以及来自我爸妈的鼓励──他们分别是社工以及小学老师;


业界对于巨量资料(big data)的热烈讨论与投入,正进一步催生新的演算法、编程语言以及软体加速等相关技术。IBM首任资料长(CDO) Inderpal Bhandari指出,神经网路(Neural network)已经存在很长一段时间了。最新的进展是我们必须为其处理大量的资料,以及强化与其有关的工程实力。


他描述采用生成对抗网路(GAN)的研究进展指出,透过让两种神经网路相互竞争,可望创造出更好的神经网路。这是一种导引出更多演算法的工程思考——现在已经因此而激荡出很多关于神经网路方面的工程技术了。


从某些方面来看,这些演算法可用于预测未来的硬体。例如,Dun & Bradstreet的首席资料科学家Anthony Scriffignano指出,量子(quantum)演算法将会变得越来越热门,因为当这类演算法成功可用后,就能用于执行一些量子电脑才能做的事。


深度信念网路(DBN)是另一种热门的新兴途径。Scriffignano将其定义为一种非渐进式方法,能够让你一边学习一边修正目标与目的,因而具有明日神经形态电脑的特性,并形成一种适于模拟人脑的系统。


美国史丹佛大学(Stanford University)电脑科学教授Christopher Re开发的通用资料深度探勘工具——DeepDive演算法一直备受关注。该校资料科学计划主管Stephen Eglash指出,这种演算法有助于让电脑更易于了解并使用文本、表格和图表等非结构化的资料,就像掌握关联式资料库或试算表一样轻松。


现有的资料大部份都是非结构化或半结构化的。例如,我们可以轻松地读取规格表,但电脑却很难像我们一样理解。


以一种DeepDive程式理解基于知识建构的非结构化资料


Deep Dive已经用于协助肿瘤学家以电脑解释肿瘤照片。此外,美国纽约检察总长也用它作为执法工具。至今,它已经应用在各个不同领域的许多公司了。


Eglash说,DeepDive之所以如此独特,部份原因在于它能辨识并标记所有的资料,然后用学习引擎和概率技术来确定资料的意思。


尽管这种途径十分成功,但它只是近来学术界开发的多种演算法之一。其他演算法有的专注于电脑视觉(computer vision)等领域,或尝试在即时资料串流中找出异常之处。Eglash强调,如此就能让我们持续进行更深入的研究

 •    

掌握有趣的资料集 


让开发人员肾上腺素飙高的部份原因,就在于他们必须从现实世界中取得有趣的资料集。GE Digital的Predix云端工程负责人Darren Haas声称在这方面取得了优势。


Haas说:我想有些人可能没机会看看我们所提供的资料。我们从飞机、卫星和火车取得了高达数千兆位元组(petabyte)的感测器资料。如果将这三者关联起来,就可以提供很多资讯,例如农场或红杉树看起来健康或是病了。


Hass原本任职于苹果(Apple),负责部署其中一项最大的Hadoop,用于执行像Siri等任务。他说GE Digital已经从亚马逊(Amazon)、Facebook和Google吸收到编程人才,当我展示我们正着手进行的资料集时,他们都感到十分震惊。


事实上,位于加州的通用电气(GE)软体部门已经从几年前约800个编程人员,迅速增加到目前约有2,000人了。


Haas个人喜欢的一种编程语言是Go。这是少数几种已编译的编程语言之一,如Elixir和Erlang一样,现在重新获得了机器学习(machine learning)开发人员的再度关注。

    •    

在实作层,我一直鼓励自家团队使用Go,Haas指出,GE也定期举办Go语言的聚会。它已经过编译了、速度快、涵盖各种应用,而且更有效管理记忆体。我还教12岁的儿子学Go呢,因为,我认为这是未来的趋势。


像Go这样的编译语言确实适用于执行环境。


他说:如果您需要串流资料或事件中枢,全部都以Go来写最恰当不过了。相形之下,我看到的每一个Node.js专案在四个月后都得重新编写。

  •    

也就是说,很多人都大量使用Python。我认为它是机器学习的主流,适合资料分析、撷取资料和建构模型……等等,而且,Matlab的R也很重要。


无论是哪一种语言,重要的发展趋势就是自动化功能。


很多人都用资料科学家说的『何者正确与否』,以手动策划资料集与模型。Haas说:但我们想用串流、侦测异常的方式进行,在封闭的反馈回路中通知用户。


戳原文,更有料!
【声明】内容源于网络
0
0
芯华舍
内容 397
粉丝 0
芯华舍
总阅读60
粉丝0
内容397