随着计算机技术的飞速发展, 当今各种社会活动产生了海量的数据,互联网的应用实现了全球范围内的数据共享,人类进入了大数据(big data)时代。事实上,早在2002 年世界上产生的电子媒介信息总量就已有5000万太字节,相当于3.7万个美国国会图书馆储存的信息量。2008年,谷歌(Google)声称其搜索引擎索引的网页已达一万亿个,而据估算其索引的网页最多只有全部网页的1/3。近几年,随着Web2.0的诞生,论坛、博客、微博、社交网络等社会化媒体(social media)得到了迅猛发展,更导致了形形色色数据的急增。据不完全统计,目前全球企业的信息存储量大约为1.8~2.2泽字节(1泽字节=1021比特)。美国把大数据称为“未来的新石油”。而人是创造大数据的主体,我国作为世界人口最多的国家,截至2012年12月底,我国已有5.64亿网民,手机网民数量为4.2亿,创造大数据的速度正在接近甚至超过发达国家。

截至目前,关于大数据定义,各方还没有达成一个统一的意见。根据美国国家科学基金会的定义,大数据“指的是大型、多样、复杂的、纵向的,和/或基于仪器、传感器、互联网交易、电子邮件、视频和点击流等产生的分布式数据集,和/或所有现在和未来可用的其他数字源”。在2013年5月的第462次香山科学会议中,与会者也对大数据概念给出了自己的定义:大数据是来源多样、类型多样、大而复杂、具有潜在价值,但难以在期望时间内处理和分析的数据集。同时为了使得政府更好地理解大数据概念,与会者还给出了大数据的通俗定义:大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。
总体而言,大数据的特征可描述为四个“V”,即大容量、多种类、快速度和高价值。前三个“V”为数据的采集和预处理带来了很大的困难。第四个“V”的价值意味着大数据是巨大的、低密度的,但具有无形的内在的高价值。为了寻求大数据巨大的商业价值,数据挖掘和知识发现是必要的。
如何有效处理和利用大数据已成为人类社会所面临的越来越严峻的挑战。一方面,我们为大数据的复杂特征所困惑;另一方面,我们又非常渴望追求知识。可见,对数据相关科学问题的研究急切需要大力开展。目前,数据管理、数据仓库、数据挖掘和知识发现等数据技术正结合数学、逻辑和科学实验理论,逐渐发展成一门新的科学,称为“数据科学”(data science)。我们注意到:数据科学的精髓就是通过大数据挖掘将数据变为知识,为人类创造强大的生产力。

从历史发展的角度看,采集、存储、传播数据并获取知识是人类社会活动最重要的部分。自中国古代的结绳记事、仓颉造字、造纸和印刷术的发明,到西方近代的电报、电话、计算机和互联网的发展,无不印证了新技术的进步是人类社会进步的重要推动力量。正是信息技术全面融入社会生产生活,才营造了大数据时代。
大数据时代的来临对现代科学和社会发展的影响是深刻的。维克托•迈尔•舍恩伯格和肯尼思•库克耶在他们的《大数据时代》(Big Data: A Revolution that Will Transform How We Live, Work, and Think)一书中描述了这些颠覆性的影响:在数据采集方面,例如,我们可以分析更多的数据,有时候甚至可以处理与某个特别现象相关的所有数据,而不再依赖于随机采样;在数据处理方面,如大数据的简单算法比小数据的复杂算法更有效。而我们认为,大数据分析或大数据挖掘相对通常基于数据库的数据挖掘而言,是高层次学习知识发现过程。首先,大数据应该既要全体,又要抽样,大数据的抽样比小数据的抽样更具有普适性。其次,大数据分析可迅速发现粗糙解, 然后从中寻求精确解。最后,大数据从相关关系中逐渐把握因果关系与必然关系。
大数据刺激了大量值得研究的问题,其中具有挑战性的有如下三个技术问题。
1. 如何用信息技术手段处理非结构化和半结构化数据
目前,人们对非结构化和半结构化数据的个体表现、一般性特征和基本原理尚不清晰,这些都需要通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学科交叉来研究。尽管,人们可用Hadoop等开源信息技术平台收集非结构化和半结构化数据,但怎样将这些数据转化为能够使用数据挖掘工具的数据形式,如多维数据表,是一大难题。企业可结合自身的领域知识去完成这个转变,但是如何找到某一领域的普适性方法又是另一难题。给定一种半结构化或非结构化数据,如图像,如何把它转化成多维数据表、面向对象的数据模型或者直接基于图像的数据模型?
假设非结构化和半结构化数据被转化为“多维数据表”,如果把通过数据挖掘提取“粗糙知识”的过程称为“一次挖掘”过程,那么将“粗糙知识”与被量化后主观知识,包括具体的经验、常识、本能、情境知识和用户偏好,相结合而产生“智能知识”的过程叫做“二次挖掘”。从“一次挖掘”到“二次挖掘”类似事物“量”到“质”的飞跃。
由于大数据所具有的半结构化和非结构化特点,基于大数据的数据挖掘所产生的结构化的“粗糙知识”(潜在模式)也伴有一些新的特征。这些结构化的“粗糙知识” 可以被决策者的主观知识过滤处理并转化,生成半结构化和非结构化的智能知识。因此,寻求“智能知识”反映了大数据研究的核心价值。
由于大数据所具有的半结构化和非结构化特点,基于大数据的数据挖掘所产生的结构化的“粗糙知识”(潜在模式)也伴有一些新的特征。这些结构化的“粗糙知识” 可以被决策者的主观知识过滤处理并转化,生成半结构化和非结构化的智能知识。因此,寻求“智能知识”反映了大数据研究的核心价值。
2. 如何探索大数据复杂性、不确定性特征描述及大数据的系统建模
值得注意的是,大数据的每一种表现形式都仅呈现数据本身的某一侧面,并非全貌。这一问题是大数据建模的新挑战,突破它是实现大数据知识发现的前提和关键。从长远角度来看,解决大数据的个体复杂性和随机性所带来的挑战将促使人们了解大数据的数学结构,从而使大数据统一理论更加完备。从短期而言,如果学术界能发展一般性的结构化数据与半结构化、非结构化数据之间的转化原则,它将会带来企业大数据交叉应用的迅猛发展。管理科学,尤其是基于最优化的理论会在寻求大数据知识发现的一般性方法和规律性中发挥重要的作用。
大数据的复杂形式还导致了许多与对“粗糙知识”的度量和评估相关的研究问题。已知的最优化、数据包络分析、期望理论、管理科学中的效用理论都可以被用来研究如何将主观知识融合到数据挖掘产生的“粗糙知识”的“二次挖掘”过程中。这里,人机交互将起到至关重要的作用。
3. 数据异构性和决策异构性
在大数据环境下,管理决策面临着两个“异构性”关系问题:“数据异构性”和“决策异构性”。传统的管理决策模式取决于决策者对业务知识的学习和日益积累的实践经验,而管理决策又是以数据分析为基础的。
根据决策者的特征,管理决策可以分为结构化的决策、半结构化决策和非结构化决策。在企业管理中,有三个层次的决策,分别是运营管理层、中级管理层和高级管理层。不同层次的管理人员在对信息(定量)和知识(非定量)的需求上也大不相同。结构化的决策与运营管理层相联系;半结构化的决策与中级管理层有关,非结构化的决策则与高级管理层紧密联系。
人们注意到,大数据使决策层次发生可能是颠覆性的改变,即基于大数据挖掘决策将结构化决策(操作员)、半结构化决策(经理)和非结构化决策(主管)融为一体。例如,一个营销人员可以根据客户评分(大数据挖掘的结果),迅速决定对客户的交易量,他充当了营销决策者,其身份既为结构化决策者又为非结构化决策者。
直观来说,在知识管理的背景下,日常运营管理的结构化决策将是基于数据挖掘的隐藏模式(粗糙知识),它可以是“结构化知识”或是“显性知识”。这样一个结构化知识结合了不同层次决策者的主观知识,并且逐步转化成半结构化和非结构化知识。那些半结构化和结构化的知识可以表达为“智能知识”。然而,当运营数据由半结构化和非结构化数据组成时,就可能没有结构化的决策产生,而是直接涉及半结构化和非结构化决策的运营管理层。同样,较高的管理层次将面临更为复杂的半结构化和非结构化决策。因此,大数据已经改变了传统的管理决策结构的模式。研究大数据对管理决策结构的影响成为一个具有挑战性的科研问题。除此之外,决策结构的变化要求我们去探讨如何为支持更高层次的决策而去做“二次挖掘”。无论大数据带来了哪种数据异构性,“粗糙知识”可被看做“一次挖掘”的范畴。对我们来说,通过寻找“二次挖掘”产生的“智能知识”,将其视为数据异构性和决策异构性之间的桥梁是十分必要的。探索大数据环境下决策结构是如何被改变的,相当于研究如何处理数据异构性、大数据挖掘与决策者主观知识参与决策过程的关系。
无疑,以上的技术突破将促进大数据在社会发展中的普遍应用。它从信息领域开始,渗透到媒体、教育、金融等诸多行业,形成新的商业模式,引导投资,促进消费,推动产业发展,提高劳动生产率。

在历史上,科学进步始终是由需求引导的。创造需求无疑是大数据发展的前提。受益于中国巨大的人口数量,中国颇具大数据发展的优势。仅从网络用户的角度来看,我国目前的网络舆论的主体已经超过 1 亿互联网用户。中国主要的门户网站日访问量都已达千万次级别, 其中约有39. 1%的用户上网的主要目的是获取信息。2011 年,中国拥有4. 8 亿互联网用户,几乎是美国的两倍;拥有近9 亿部手机,是美国的3 倍。而互联网和手机不仅是产生数据,更是创造需求的重要来源。我们首先需要的是规范相关法律与政策,构建一个更加开放的网络环境,让大数据的各种发明与应用自由的竞争、生长。正如赫胥黎的《天演论》中所指出的那样:“物竞天择,适者生存。”在不远的将来,我国必然是拥有大数据的第一位国家。
(本文摘编自中国科学院《2014年科学发展报告》,图片来自网络)

敬请关注科学出版社,搜索微信ID:sciencepress-cspm 或“科学出版社”
更多精彩请关注:
科学出版社官网:http://www.sciencep.com
新浪微博:@科学出版社官方微博
腾讯微博:@科学出版社
豆瓣小站:@科学出版社
科学网科学出版社博客:http://blog.sciencenet.cn/u/sciencepress

