大数跨境
0
0

运用工作流时,不能忘了交互式的数据分析

运用工作流时,不能忘了交互式的数据分析 学术头条
2017-04-06
2
导读:否则很可能得出荒谬的结果。


我们在科学上经常使用工作流来进行数据分析。它们实际上是不可缺少的,因为如果对每个项目都重新制定新流程,会造成极大的时间浪费。另一方面,如果所需的假设不成立,那么毫无意义地应用工作流可能导致完全错误的结论。这就是为什么成功的数据分析师要极大地依赖交互式数据分析(IDA)。这篇文章诞生的原因,是我有些担心不少决策者和思想领袖并未对IDA给予足够的重视,而他们的意见将会影响我们今后访问和处理数据的方式。


首先,我们构建一个非常简单的例子来说明IDA的重要性。假设你现在正在从事人口学研究,要求你总结出几个郡范围的男性身高情况。由于样本量很大,身高这个指标可以通过正态分布进行估计,因此可以轻松地使用真实、已经受检验的方法:报告均值和标准差作为总结。你惊奇地发现一个郡男性平均身高为6.1英尺,标准差(SD)为7.8英尺。这时候你是否开始撰写论文和新闻稿来描述这个非常有趣的发现了?在这里,交互式数据分析可以让我们不至于急于报告这个幼稚的结果。首先,我们注意到,如果数据实际上真的是正态分布的话,这个标准差简直大得离谱:超过15%人的身高将是负数。面对这个荒谬的结果,经验丰富的数据分析师下一步显然要研究数据(如下图所示)。一研究就会发现一个问题,似乎有一个报告值是以厘米为单位的:是180厘米而不是英尺。对数据进行修正之后,报告结果将变为平均身高5.75英尺,标准差为3英寸。

 

多年的数据分析经验告诉你,这样的例子很常见。不幸的是,随着数据和分析过程变得越来越复杂,工作流中的纰漏更难以被检测出来,并且经常被忽视。我们许多人在教授培训生的一个重要原则是,当数据分析导致了意想不到的结果时,要仔细检查隐蔽的问题,尤其是在意外的结果会让我们在专业上获益时,比如可以发表论文时。


交互式数据分析对于开发新的研究方法也是不可或缺的。例如,在我的研究领域,对数据的探索导致了对发现新方法产生了需求,并促进了应对现有工作流中无法处理的特定情况的新方法的产生。


那我为什么还担心呢?随着公共数据集的数量越来越多,许多资助机构、决策者和行业领袖者都在倡导使用云计算来将计算引入数据。如果方法适当,这将对现在每个人的非系统化、高冗余的数据下载方式做出明显改善。然而,在研究了其中一些计划的细节之后,我已经有点担心,决策者可能不会充分考虑IDA的重要性。


以NIH围绕“数据共享计划”推动数据驱动型发现为例。该计划的链接页面中描述了一个由四部分组成的生态系统,其中之一是“软件”。根据页面上的描述,这个“软件部分”应负责“科学分析工具和管道工作流的获取和部署”,其中并未提及获取原始数据访问权限的策略。不提这一点,就很难对未来的工作流的输出、分析工具和管道工作流的开发情况进行仔细检查。


我注意到,数据分析工作流在数据分析不可或缺的领域是非常受欢迎的,如生物医学研究领域,这也是我的重点关注领域。在该领域内,通常引领科技企业的负责生成数据的人并不总是有经验的数据分析师。但文献中往往充斥着现成的工作流。你可以通过这个google搜索结果中的大量期刊来体会这些工作流的流行程度:

 



在数据生成方不是数据分析专家的领域中,工作流的出现凭添了一种魅力,研究人员本身不用再对数据分析进行深入思考,而将责任转给了预先设定好的软件。请注意,这些工作流并不总是用需要真正可理解的数学语言或计算机编码来描述,而是使用一系列PowerPoint图形形式。典型数据分析工作流的要点可以简化为下图中的内容:

 


对数据分析过程的简化特别令人担忧的是,对IDA的复杂之处缺乏完全的认识。


如上所述,数据分析工作流是科技企业的必要组成部分。没有这个部分,这个过程就会慢下来乃至陷于停止。但是,只有在各个方面都达到最优配置后,才能实施工作流。即使如此,也需要利用IDA来确保该流程按照预期执行。我的许多同事的职业主要是开发这样的分析工具。我们已经了解到,在工作流达到成熟之前,急于实施工作流可能会产生广泛的负面后果。而且,至少在我的经验中,没有交互式数据分析,是不可能开发出严格的工具的。所以,我希望这篇文章能够有助于说明交互式数据分析的重要性,令其继续成为科技企业中的一部分。


原文链接:http://simplystatistics.org/2017/04/03/interactive-data-analysis/

【声明】内容源于网络
0
0
学术头条
致力于学术传播和科学普及,重点关注大模型、AI4Science 等前沿科学进展。
内容 1019
粉丝 0
学术头条 致力于学术传播和科学普及,重点关注大模型、AI4Science 等前沿科学进展。
总阅读0
粉丝0
内容1.0k