
三、数据处理有困境
上一篇文章提到的问题都属于数据来源的问题,而大数据除了数据来源存在困境,其数据处理过程在现在也存在困境,主要可以从企业和技术两个大方面进行讨论。
在企业方面,数据处理的概念更加倾向于是对数据进行控制。
企业需要控制对数据的访问权,也需要知道数据的来源和去向、数据的动态情况、数据是否已被修改、数据的处理方式及相关决策等,因此企业对大数据的掌控能力就显得十分重要。在企业应用方面,大数据的处理困境主要有以下三个具体表现:

1.缺乏大数据分析技能
一家零售公司的首席执行官曾让CIO构建一个客户推荐引擎,希望实现对用户的个性化推荐。
但是由于数据分析技能的缺乏,该项目并不能按照预期的计划那样在半年内完成,因此,团队成员提出了做一个“假的推荐引擎”:默认所有人都会买床单,给不论买了什么的用户都推荐床单用品。
尽管不能否认这款引擎确实带动了企业的销售额,但是实际上它并未实现真正意义上的大数据处理下的个性化推荐,而这正是由于其对大数据分析技能的缺失导致的。
2.问题梳理不够全面
对问题的考虑不够全面也是企业在进行大数据处理应用上常犯的错误,许多公司考虑了大数据应用场景的各个方面,却忘记考虑意外发生时的处理办法。
例如曾有一家跨国公司的大数据团队经过研究发现了很多值得应用的成果,并且计划通过云平台把这些成果让全公司共享。
结果由于团队没有考虑网络堵塞的问题,全球各个分部无法顺畅提交数据进行数据分析,实际应用受限。
因为网络基础设施的故障导致大数据项目失败的案例不胜枚举,这给企业在进行大数据分析应用时带来了不小的挑战。
3.低估大数据复杂程度
还有的企业希望能够通过大数据分析建立一个完美的模型能够统一解决所有问题,实际上这是大大低估了大数据复杂程度的做法。
在美国曾有几个互联网金融公司专门做中小企业贷款的金融业务,由于中小企业贷款涉及的数据更复杂,且行业数据在金融业都是比较特殊的类别,根据不同的情况,合同的类型和报表标准都不同,这给互联网公司的工作人员带来了很多专业上的问题。
大数据团队希望利用大数据分析建立一个全能的数据模型解决所有问题,但由于数据的复杂程度过高,大数据团队不仅没能成功建立预想的数据模型,反而花了大量的时间去清理所收集到的数据。
其他类似的例子还有许多,都反映了企业因低估大数据的复杂程度带来的数据处理难题。
除了在企业方面的数据处理困境,大数据在技术上也遇到了瓶颈。目前大数据的处理平台以Hadoop为主,但由于其体系缺乏多租户支持、多用户数据安全性能不够高、数据兼容困难等原因,很难成为公共云服务。
因此实现大数据处理平台的更新也成为了大数据处理的重要问题。
无论是从企业在大数据的分析应用方面,还是从大数据行业的技术突破方面来看,大数据在数据处理上都确实遇到了不小的困境,需要新的思维方式和技术手段帮助创新。
四、 实践应用障碍多
大数据行业发展至今,虽然给众多行业带来了从内至外的改变,但在实践运用上,理论技术和商业实践之间依然存在巨大的鸿沟。
在实践应用方面,主要有以下几个难点:

1.缺少专业数据分析人才
职业社交平台领英发布的《2016年中国互联网最热职位人才报告》显示,中国互联网职业中数据分析人才最为稀缺,其供给指数仅为0.05,属于高度稀缺类别。
根据上海CPDA授权中心市场运营总监Sherry的分析,在数据化已经成为趋势的市场中,数据分析将成为未来所有互联网员工最基本的职业技能,针对大数据分析的人才需求必会越来越大。
没有足够的人才,大数据行业也就不能得到充分发展。
2.现有数据模型相对陈旧
在大数据行业中,有许多成熟的数据模型得到了实际的应用,但这些模型由于是很久以前发布的,在技术上有许多不再适用的地方。
例如有些金融机构所用FICO评分模型是20世纪80年代提出的,是一种基于逻辑回归算法构建的评分体系。
因为逻辑回归算法只适用于处理线性数据,因此在面对实际场景中的非线性数据时,FICO评分模型不够准确。
在互联网技术日益成熟的今天,大数据模型如果仍旧沿用陈旧的体系必然会在实践应用中受到阻碍,这也是大数据在实现应用落地时遇到的难点之一。
3.数据建模对场景细分不够
由于大数据行业技术手段存在瓶颈,在大数据建模上只能模拟出一些较大的分类情况,如果运用在实际应用中,就会出现模型功能不够细化的问题。
曾有一家汽车制造商决定通过开展一个情感分析项目,将得到的结果运用在指导销售模式上。
情感分析调查项目进行了6个月,前后总共花费了1,000万美元。
项目结束之后,公司对调查结果进行了分析并分享给了经销商。然而在实践中,数据分析得出的营销模式却被证明是错误的。
项目失败的原因在于数据团队对经销商所面临的具体场景不够了解,对数据进行建模时场景设定得不够细致,从而导致实践应用中数据模型毫无价值。
北京宸信征信有限公司董事长张为斌在接受采访时表示,数据建模时“不仅仅需要引入自然科学建模,还需要引入基于社会科学的、人文历史的思考,把这些维度引入算法中”。
有些数据公司没有考虑实际应用场景,直接套用国外的大数据模型,往往会出现功能无法满足具体场景的情况,这对现有的大数据应用提出了非常大的挑战。
五、云管理失误多
云管理(Cloud Management)是借助云计算技术和其他相关技术(如移动互联网等),在云计算平台上建立集中式管理系统,通过严密的权限管理和安全技术手段实现数据和信息的管理。
随着企业数字化管理的推进,云管理也渐渐成为各大公司的新式管理手段。
但云管理在为企业带来便利的同时,也因为自身技术的颠覆性思维给企业带来了许多挑战。
首先管理和跟踪多个云环境是相当繁重的任务,尤其是为了适应日益增加的数据和处理能力需求,企业的云计算平台有着越来越高的性能要求;
其次对于企业而言,混合云的多云统一管理技术、计量计费方式和对运行环境的稳定性要求等都对企业的技术人员提出了新的挑战。
在面临挑战的同时,云管理的失误案例也给企业在应用大数据时带来了一些阴影。
微软Azuer的存储服务曾在半年内由于软件更新性能出现了两次大规模断电事故;
微软Office 365在一年的时间内持续出现用户邮件服务脱机的事件;
美国医改健康网站HealthCare.gov因为设计不良多次崩溃……
这些大规模的云管理失败案例出现的频率之高、带来的损失之大,都给大数据行业带来了进一步发展的阻力。
原本云计算的出现是大数据发展的重要助力,但云管理的失误却反过来阻碍了大数据发展。
大数据建立在云计算的基础上,通过云管理的手段进一步实现大数据的管理应用是必然的,但现实中屡屡发生的云管理失误案例让大数据行业在企业管理方面受到了质疑,如果没有新的技术手段来帮助大数据技术突破,大数据的发展将一直停留在现有的困境中。


