大数跨境
0
0

嗯?数据怎么不准确?

嗯?数据怎么不准确? 云上贵州大数据读本
2016-02-19
1
导读:在推广的过程中,有些问题并不能回避,那就是显示出的可视化数据有一定的误差值,这到底是咋回事呢?小编今天试着解释下哈。

嗯?数据怎么不准确?

最近,咱大贵州的大数据在应用方面频频出新,特别是基于移动通讯信号端抓取的人流热力分析,那是火爆的不得了。春运大数据分析报告,观山湖灯会时时人流信息抓取,贵州春节旅游大数据分析报告,连续三分基于此技术诞生的典型大数据具体应用获得了广泛推广和好评,但是,在推广的过程中,有些问题并不能回避,那就是显示出的可视化数据有一定的误差值,这到底是咋回事呢?小编今天试着解释下哈。

01

必须肯定的是基于移动通讯基站所抓取的手机数据本身肯定是精准的,不会出现任何的偏差。但是由于数据抓取都是基于各家服务商自身基站的信息,那么为了表现整体的数据信息,就必须通过统计学概率的原则对原始数据按服务商市场占比进行一定程度的扩容,同时在扩容中还要加上没有手机人群比例,一般来说扩容的比例在1.25至5之间。由于手机信号抓取的样本足够大,按科学方法扩容后,显示出来的数据应该是相当准确的,可是实际运用过程中还有问题。

02

按手机信号抓取数据的规则,一部手机到了设定好抓取范围内就被计数一次,这个范围可以小到一栋大楼,也可以大到整个世界。当手机离开这个被抓取范围后,在次进入该范围就会被再次计数。了解了这个原理后,我们的就可以清晰发现,实际上目前通过移动信号抓取技术,所获得的以基于贵州省全境内的流动数据会出现人流数大于真实数值的情况,原因有二,一是将过境旅客误认为目的地为贵州的旅客,二是重复记录居住在省界之间居民数据信号。

03

在大范围存在计数过大的问题,而在小范围内还有另外一种情况,就是数据可视化过程中数据延迟的问题。因为计算机按照事先设定好的程序,将信息转化为可视化数据的过程会出现数据迟滞的情况,导致显示界面的数据与真实数值出现偏差。简单说,就是在较长时间范围内,计数是准确无误的,而在较短的范围内,计数可能出现迟滞,显示出的结果就会看起来不准确。

04

现在我们来讨论解决问题的方法。首先是关于大范围计数重复和无法摈除过境旅客的情况,计数重复可以通过算法优化加以解决,而过境旅客被视为游客的情况,需要嫁接多维数据加以优化,比如嫁接交通数据、旅游景区数据等进行综合分析。其次关于迟滞的问题,解决起来一个字“钱”,通过花钱扩容服务器承载和计算能力,加快计算机处理可视化数据的进程,就能轻松搞定了。

长按识别二维码

关注更多精彩

【声明】内容源于网络
0
0
云上贵州大数据读本
打造最权威,最专业的大数据手机读本,通过建设读本,形成人人关注大数据,人人了解大数据,人人使用大数据,万众创新百舸争流的良好局面,从传递信息,舆论引导等方面,全力助推大数据电子信息产业在贵州的全面发展。
内容 144
粉丝 0
云上贵州大数据读本 打造最权威,最专业的大数据手机读本,通过建设读本,形成人人关注大数据,人人了解大数据,人人使用大数据,万众创新百舸争流的良好局面,从传递信息,舆论引导等方面,全力助推大数据电子信息产业在贵州的全面发展。
总阅读85
粉丝0
内容144