
互联网的兴起以及产业的数字化导致各种数据量急剧增长。数据量增大到一定程度,量变就有可能成为质变。

这个众所皆知的道理,在大数据领域会有什么不同吗?
常见误解
大数据就是大量数据,忽略其多维度和完备性的本质
在应用上只看到利用统计规律提升业务,没有看到它改变商业模式、产业结构以及人们生活和工作方式的潜在力量

1
我们在讨论大数据本质之前,先讨论一下什么是机器智能?
计算机科学家们认为,如果计算机实现了
语音识别
机器翻译
自动回答问题
这几件事情中的一件,就可以认为它具有图灵(人工智能之父)所说的那种智能。
以“自动回答问题”为例,谷歌的解决方案就是——将这个过去认为是纯粹自然语言理解的问题变成大数据问题。进一步分解可以看到:
答案要存在,且答案数据必须完备
计算机的计算能力要强,问题回答需要在一定时间限度里完成
需要处理自然语言,进行语法和语义等方面的分析
这三点都跟大数据紧密相关。换句话说,数据是机器学习的原始材料,也是人工智能的基石。
1
那么大数据还有哪些特点呢?
2013年百度曾发布了一个颇有意思的统计结果:《中国十大“吃货”省市排行榜》,它没有做民意调查和饮食习惯研究,只是从“百度知道”的7700万条和吃有关的问题里“挖掘”出一些结论。
在关于“什么能吃啊”的问题中,福建、浙江、广东、四川等地,网友经常问“什么虫能吃吗”;
宁夏网友关心的竟是“螃蟹能吃吗,怎么吃”……
从这里就能看出,数据量显然是很大的。但此外,数据维度也非常多,不仅涉及食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等。而且里面包含了提问者的很多信息,如IP地址、计算机信号、浏览器种类等等。而且这些维度并不是明确给出的。
百度只公布了一点点大家感兴趣的结果,但它很容易从这些数据中得到不同年龄、性别和文化背景的人的饮食习惯,不同生活习惯的人的饮食习惯等等。如果收集数据的时间跨度足够长,还可以看出这其中饮食习惯的变化。

曾经美国大选结果的预测是“永远不准”的,总是大局准确,但细节(每一个州)常常出错。
2012年,一个名不见经传的统计学家Nate Silver通过大数据分析,准确地预测了全部50个州的结果。他的方法并无异处,只是收集的数据很完备。同样的理由也解释了谷歌自动驾驶项目的飞速进展,计算机学习“数据(经验)”的速度远比人快得多。
以药品研制来说,传统的思路是先研究病理,找到解决方法,然后找到相应的药物,进行各种动物实验和临床实验。
但是现在情况发生了变化:比如大数据统计研究发现,一款治疗心脏病的药物对于胃病的治疗效果明显。那么我们就需要先接受这个结论,在反过来找原因。这样的思路能够缩短研发的周期和成本。
思维方式的转变常常带来意料之外的结果。
这,就是大数据的威力。
参考材料:
吴军《大数据、机器智能与未来社会图景》


相关阅读:大数据服务让数据“活”起来



