点击蓝字关注我们
大数据是这几年的一项热门技术。它和人工智能、云计算一起,已经成为大科技公司的技术标配。但是该如何理解大数据技术?这项技术对我们有什么影响?这些基本的问题,不少人却并不清楚。

首先,大数据这个名字本身会给人一种误解,认为大数据的关键在于数据量很大。不过,数据集的大小经常被高估。其实所需要的数据集的大小,跟数据本身的效果、数据的真实程度等都有关。
例如,一个火热的炉子,你只需要碰到一次,就明白,热炉子很危险,会烫伤你。但是,你可能需要喝几千杯咖啡,才能确定,咖啡是否会让你头疼。原因就在于,热炉子本身的效果强度很高,因此,只需要一项数据,就能显现出结果。
当然,你未必总是需要大数据,才能得出重要见解,你需要的是正确的数据。大数据革命跟收集更多的数据无关,而是跟收集正确的数据有关。以谷歌为例,它不是仅仅凭借着能够比其他搜索引擎搜索到更多的内容,就成为世界上最大的搜索引擎公司,它凭借的是,可以搜索到更好的数据。这跟谷歌的算法有关。谷歌的算法,是按照一个网页被链接的数量来对搜索结果排序的。
其次,大数据有四种力量。这四种力量,也并不都同数据集本身的大小相关。
大数据的第一种力量是,提供了新类型的数据。这些独特的数据来源,能够让研究者进入以前只能靠推理和猜测的领域。
大数据的力量在于,重新想象什么东西有资格成为数据,提供之前从来没有收集过的信息,让人们可以研究。
大数据的第二种力量是,提供了诚实的数据。在数字时代出现之前,可想而知,由于考虑到社会压力等因素,人往往会隐藏起来那些会让自己难堪的想法。即使面对询问,也不会坦诚相告。但是,在数字时代,虽然人们仍然会在现实生活中隐藏起一些真实想法,但是在互联网上,尤其是可以匿名的网站上,人们往往会透露出自己的想法。
大数据使我们终于可以看清人们真正想要什么和真正做了什么,而不是人们说自己要什么和做了什么。

大数据的第三种力量是,让我们可以把焦点放在人口中的一个很小的子集,去进行研究。
当然,这要求对小的子集,也有大数据量。比如,为了将照片的一小部分放大后还能看清楚,照片需要有很高的像素。同样,为了能够清楚放大检视数据的小子集,每一个小子集中都需要大量的数据。比如,某一个球队有多受1978年出生的男性的欢迎。只对几千人进行的小调查,样本根本不够大,1978年出生的男性人数肯定不够多。
这样做的意义在什么地方呢?研究发现,是否成为一个球队的粉丝,跟这个球队在一个人特定年龄段的表现有关系。如果在一个人对运动最痴迷、最容易喜欢上某项运动的时间段,这个球队的表现越好,那它获得这个年龄段的球迷就越多。
而且,美国人政治观点的形成也类似。很多美国人会在14岁到24岁这个关键时期,形成个人的政治偏好。其中,形成政治观点最重要的年纪是18岁。受欢迎的共和党总统或不受欢迎的民主党总统,将影响很多年轻人成为共和党人。反之亦然。大数据允许我们有意义地放大检视数据集的细部,获取新的洞察。
第四种力量是,允许研究者进行因果关系实验。大数据可以允许研究者进行快速而且可控制的因果关系实验,而不仅仅是相关性。
这种测试在很多互联网公司被称作是A/B测试。脸书(Facebook)每天能进行上千次A/B测试。所谓的A/B测试,指的是,在同一个时间维度,分别让相似的两组访客随机访问这些版本,收集数据,来评估出用户更喜欢的版本。比如,两个标题,哪一个点击量更高;放哪种类型的照片,更能让用户喜欢等等。
一个网站的CEO说:“你不能假设任何事,必须针对每件事都进行测试才行”,“如果我们了解人性,根据我们的生活经验就能判断答案是什么,那么测试就不会有价值。但事实上,我们不了解人性,所以测试才这么有价值。”
这种方法,互联网公司已经大量使用,而现在和将来,社会科学家也可以使用,从而把以往模糊的研究,变得更科学。


