大数跨境

大量数据?统计规律?你真的看懂大数据了吗?

大量数据?统计规律?你真的看懂大数据了吗? 正辰科技订阅号
2019-07-24
2

互联网的兴起以及产业的数字化导致各种数据量急剧增长。数据量增大到一定程度,量变就有可能成为质变



这个众所皆知的道理,在大数据领域会有什么不同吗?


常见误解


  • 大数据就是大量数据,忽略其多维度完备性的本质

  • 在应用上只看到利用统计规律提升业务,没有看到它改变商业模式、产业结构以及人们生活和工作方式的潜在力量

1

我们在讨论大数据本质之前,先讨论一下什么是机器智能


计算机科学家们认为,如果计算机实现了


  • 语音识别

  • 机器翻译

  • 自动回答问题


这几件事情中的一件,就可以认为它具有图灵(人工智能之父)所说的那种智能。


以“自动回答问题”为例,谷歌的解决方案就是——将这个过去认为是纯粹自然语言理解的问题变成大数据问题。进一步分解可以看到:


  • 答案要存在,且答案数据必须完备

  • 计算机的计算能力要强,问题回答需要在一定时间限度里完成

  • 需要处理自然语言,进行语法和语义等方面的分析


这三点都跟大数据紧密相关。换句话说,数据是机器学习的原始材料,也是人工智能的基石。


1

那么大数据还有哪些特点呢?


1
多维度和完备性


2013年百度曾发布了一个颇有意思的统计结果:《中国十大“吃货”省市排行榜》,它没有做民意调查和饮食习惯研究,只是从“百度知道”的7700万条和吃有关的问题里“挖掘”出一些结论。


在关于“什么能吃啊”的问题中,福建、浙江、广东、四川等地,网友经常问“什么虫能吃吗”;


江苏、上海北京等地,网友经常问“什么的皮能不能吃”;


宁夏网友关心的竟是“螃蟹能吃吗,怎么吃”……


从这里就能看出,数据量显然是很大的。但此外,数据维度也非常多,不仅涉及食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等。而且里面包含了提问者的很多信息,如IP地址、计算机信号、浏览器种类等等。而且这些维度并不是明确给出的。


百度只公布了一点点大家感兴趣的结果,但它很容易从这些数据中得到不同年龄、性别和文化背景的人的饮食习惯,不同生活习惯的人的饮食习惯等等。如果收集数据的时间跨度足够长,还可以看出这其中饮食习惯的变化。



曾经美国大选结果的预测是“永远不准”的,总是大局准确,但细节(每一个州)常常出错。


2012年,一个名不见经传的统计学家Nate Silver通过大数据分析,准确地预测了全部50个州的结果。他的方法并无异处,只是收集的数据很完备。同样的理由也解释了谷歌自动驾驶项目的飞速进展,计算机学习“数据(经验)”的速度远比人快得多。


2
无限潜能

以药品研制来说,传统的思路是先研究病理,找到解决方法,然后找到相应的药物,进行各种动物实验和临床实验。


但是现在情况发生了变化:比如大数据统计研究发现,一款治疗心脏病的药物对于胃病的治疗效果明显。那么我们就需要先接受这个结论,在反过来找原因。这样的思路能够缩短研发的周期和成本。


思维方式的转变常常带来意料之外的结果。

这,就是大数据的威力。


参考材料:

吴军《大数据、机器智能与未来社会图景》



 相关阅读:大数据服务让数据“活”起来

                   你可能不了解的大数据

                 上百万?几十亿?大数据重要的不是数字,而是其背后的意义

【声明】内容源于网络
0
0
正辰科技订阅号
我们是数字科技产品与服务的优秀提供商
内容 245
粉丝 0
正辰科技订阅号 我们是数字科技产品与服务的优秀提供商
总阅读460
粉丝0
内容245