大量数据？统计规律？你真的看懂大数据了吗？- 大数跨境

正辰科技订阅号

2019-07-24

互联网的兴起以及产业的数字化导致各种数据量急剧增长。数据量增大到一定程度，量变就有可能成为质变。

这个众所皆知的道理，在大数据领域会有什么不同吗？

常见误解

我们在讨论大数据本质之前，先讨论一下什么是机器智能？

计算机科学家们认为，如果计算机实现了

这几件事情中的一件，就可以认为它具有图灵（人工智能之父）所说的那种智能。

以“自动回答问题”为例，谷歌的解决方案就是——将这个过去认为是纯粹自然语言理解的问题变成大数据问题。进一步分解可以看到：

这三点都跟大数据紧密相关。换句话说，数据是机器学习的原始材料，也是人工智能的基石。

那么大数据还有哪些特点呢？

多维度和完备性

2013年百度曾发布了一个颇有意思的统计结果：《中国十大“吃货”省市排行榜》，它没有做民意调查和饮食习惯研究，只是从“百度知道”的7700万条和吃有关的问题里“挖掘”出一些结论。

在关于“什么能吃啊”的问题中，福建、浙江、广东、四川等地，网友经常问“什么虫能吃吗”；

江苏、上海、北京等地，网友经常问“什么的皮能不能吃”；

宁夏网友关心的竟是“螃蟹能吃吗，怎么吃”……

从这里就能看出，数据量显然是很大的。但此外，数据维度也非常多，不仅涉及食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等。而且里面包含了提问者的很多信息，如IP地址、计算机信号、浏览器种类等等。而且这些维度并不是明确给出的。

百度只公布了一点点大家感兴趣的结果，但它很容易从这些数据中得到不同年龄、性别和文化背景的人的饮食习惯，不同生活习惯的人的饮食习惯等等。如果收集数据的时间跨度足够长，还可以看出这其中饮食习惯的变化。

曾经美国大选结果的预测是“永远不准”的，总是大局准确，但细节（每一个州）常常出错。

2012年，一个名不见经传的统计学家Nate Silver通过大数据分析，准确地预测了全部50个州的结果。他的方法并无异处，只是收集的数据很完备。同样的理由也解释了谷歌自动驾驶项目的飞速进展，计算机学习“数据（经验）”的速度远比人快得多。

无限潜能

以药品研制来说，传统的思路是先研究病理，找到解决方法，然后找到相应的药物，进行各种动物实验和临床实验。

但是现在情况发生了变化：比如大数据统计研究发现，一款治疗心脏病的药物对于胃病的治疗效果明显。那么我们就需要先接受这个结论，在反过来找原因。这样的思路能够缩短研发的周期和成本。

思维方式的转变常常带来意料之外的结果。

这，就是大数据的威力。

参考材料：

吴军《大数据、机器智能与未来社会图景》

【声明】内容源于网络

正辰科技订阅号

我们是数字科技产品与服务的优秀提供商

内容 245

粉丝 0

正辰科技订阅号我们是数字科技产品与服务的优秀提供商

总阅读460

粉丝0

内容245