大数据的定义是包含更多种类、以不断增加的数量和更快速度到达的数据,数据的价值,数据的真实性,这也被称为五个V。简而言之,大数据是更大、更复杂的数据集,特别是来自新数据源。这些数据集如此庞大,以至于传统的数据处理软件无法处理它们。但这些大量的数据可以用来解决以前无法解决的业务问题。
大数据从哪里来的呢?大数据可以从社交网络和网站上公开分享的评论中收集,也可以通过个人电子设备和应用程序自愿收集,还可以通过问卷调查、产品购买(电子商务)和电子签到收集。智能设备中的传感器和其他输入的存在使得数据可以跨越广泛的情况和环境进行收集。还包括车辆上的GPS,该系统会产生大量有关车辆位置和移动的数据。

/大数据的5个V
数据量(Volume):数据量很重要。使用大数据,您将不得不处理大量低密度、非结构化数据。这可能是价值未知的数据,例如Twitter数据源、网页或移动应用程序上的点击流,或传感器启用的设备。对于一些组织来说,这可能是数十TB的数据。对于其他组织来说,可能是数百PB。
速度(Velocity):速度是数据接收和(也许)采取行动的快速率。通常,数据流的最高速度直接进入内存,而不是写入磁盘。一些互联网智能产品是实时或接近实时运行的,并且需要实时评估和行动。
多样性(Variety):多样性指的是可用的许多数据类型。传统数据类型是结构化的,并且可以很好地适应关系数据库。随着大数据的兴起,数据以新的非结构化数据类型出现。非结构化和半结构化数据类型,如文本、音频和视频,需要额外的预处理才能得出含义并支持元数据。
在过去几年中,又出现了两个V:Value(价值)和Veracity(真实性)。数据具有内在的价值。但在发现这个价值之前,它是无用的。同样重要的是:你的数据有多真实,你能依赖它多少?
如今,大数据已经成为资本。想想世界上一些最大的科技公司。他们提供的大部分价值来自他们的数据,他们不断分析这些数据以提高效率并开发新产品。
最近的技术突破已经极大地降低了数据存储和计算的成本,使得存储比以往任何时候都更容易、更便宜。由于大数据的容量增加,成本降低,现在可以更准确、更精确地做出商业决策。
在大数据中找到价值不仅仅是分析它,当然分析它是另一个好处。这是一个完整的发现过程,需要富有洞察力的分析师、业务用户和能够提出正确问题、识别模式、做出明智假设并预测行为的高管。
/大数据的历史
尽管大数据概念本身相对较新,但大数据集的起源可以追溯到20世纪60年代和70年代,当时数据世界刚刚起步,第一个数据中心和关系数据库开始发展。
大约在2005年,人们开始意识到用户通过Facebook、YouTube和其他在线服务生成了大量数据。Hadoop(一个专门用于存储和分析大数据集的开源框架)也是在同一年开发出来的。NoSQL在这个时期也开始变得流行起来。
开源框架的发展,比如Hadoop(以及最近的Spark),对于大数据的增长至关重要,因为它们使得大数据更易处理,存储成本更低。自那时以来,大数据的容量急剧增加。用户仍在生成大量数据,但不仅仅是人类在这么做。
随着物联网(IoT)的出现,更多的物体和设备连接到互联网,收集客户使用模式和产品性能的数据。机器学习的出现产生了更多的数据。
尽管大数据已经取得了很大进展,但其用途才刚刚开始。云计算进一步扩展了大数据的可能性。云提供真正的弹性可伸缩性,开发人员可以简单地启动临时集群来测试数据子集。图数据库也变得越来越重要,因为它们能够以使分析快速而全面的方式显示大量数据。
/大数据的用例
大数据可以帮助您应对一系列的业务活动,从客户体验到分析。下面举几个例子您就明白了。
<用例1/>产品开发:像Netflix和宝洁这样的公司利用大数据来预测客户需求。他们通过对过去和现在产品或服务的关键属性进行分类,并建立预测模型,模拟这些属性与产品商业成功之间的关系。此外,宝洁利用焦点小组、社交媒体、测试市场和早期商店推出的数据和分析来规划、生产和推出新产品。
<用例2/>预测性维护:可以预测机械故障的因素可能深藏在结构化数据中,比如设备的年份、制造商和型号,也可能存在于涵盖数百万条日志条目、传感器数据、错误消息和发动机温度的非结构化数据中。通过在问题发生之前分析这些潜在问题的迹象,组织可以更具成本效益地部署维护,并最大程度地提高零部件和设备的正常运行时间。
<用例3/>客户体验: 你可以看到到处都是争夺客户的竞争。如今,比以往任何时候都更有可能清晰地了解客户体验。大数据使您能够从社交媒体、网站访问、通话记录和其他来源收集数据,以改善互动体验并最大程度地提供价值。开始提供个性化的优惠,减少客户流失,并主动处理问题。
<用例4/>运营效率 :运营效率可能并不总是成为新闻焦点,但这是大数据产生最大影响的领域之一。借助大数据,您可以分析和评估生产、客户反馈和退货以及其他因素,以减少停机时间并预测未来的需求。大数据还可以用于根据当前市场需求改善决策制定。
<用例5/>推动创新:大数据可以通过研究人类、机构、实体和流程之间的相互依存关系,并确定利用这些见解的新方法来帮助您创新。利用数据见解改善对财务和规划考虑的决策。研究趋势和客户需求,推出新产品和服务。
/大数据挑战
虽然大数据充满了许多潜力,但依然存在一些挑战。
首先,大数据确实很大。尽管新技术已经被开发用于数据存储,但数据量大约每两年就会翻倍。预计2025年全球数据量将达到175 Zettabytes(10的21次方)。组织仍然在努力跟上数据增长的步伐,并寻找有效的存储方式。

但仅仅存储数据是不够的。数据必须被使用才有价值,而这取决于数据的策划。干净的数据,或者说对客户相关并且以一种有意义的方式组织起来以便进行分析的数据,需要大量的工作。数据科学家在数据实际被使用之前要花费50%到80%的时间进行策划和准备工作。
大数据也可能会产生过载和噪音,降低其有用性。公司必须处理更大量的数据,并确定哪些数据代表信号,哪些是噪音。决定数据的相关性成为一个关键因素。此外,数据的性质和格式可能需要在其被处理之前进行特殊处理。由数字值组成的结构化数据可以很容易地存储和排序。而非结构化数据,如电子邮件、视频和文本文档,在变得有用之前可能需要应用更复杂的技术。
最后,大数据技术正在以飞快的速度变化。几年前,Apache Hadoop是处理大数据的流行技术。然后Apache Spark在2014年被引入。跟上大数据技术的发展是一个持续的挑战。
/大数据的运作方式
大数据为您提供了新的见解,为您打开了新的机遇和商业模式。入门涉及三个关键步骤:
1、数据整合。大数据汇集了来自许多不同来源和应用程序的数据。传统的数据集成机制,如抽取、转换和加载(ETL),通常无法胜任这项任务。需要新的策略和技术来在千兆字节甚至拍字节级别对大数据集进行分析。
在整合过程中,您需要将数据导入、处理数据,并确保数据格式化并以业务分析师可以开始使用的形式可用。
2、数据管理。大数据需要存储。您的存储解决方案可以是云端、本地,或两者兼有。您可以以任何您想要的形式存储数据,并根据需要将所需的处理要求和必要的处理引擎引入这些数据集。许多人根据数据当前所在的位置选择他们的存储解决方案。云端逐渐受到欢迎,因为它支持您当前的计算需求,并使您能够根据需要启动资源。
3、数据分析。当您分析并对数据采取行动时,您对大数据的投资将会有所回报。通过对各种数据集进行可视化分析,获得新的清晰度。进一步探索数据以进行新的发现。与他人分享您的发现。利用机器学习和人工智能构建数据模型。让您的数据发挥作用。

