大数跨境
0
0

8月碎碎念-谈谈验证的重要性

8月碎碎念-谈谈验证的重要性 俊红的数据分析之路
2020-08-29
1
导读:如题。

总第238篇/张俊红

又到了每周发文的时刻了,干货文章最近有点写不动了。看了下时间,8月马上就结束了,所以就来写写这月的碎碎念。这一篇主要谈谈验证的重要性。这里面的验证主要是指数据分析工作中的一些验证。

验证主要分两种,一种是被动型,一种是主动型。被动型验证是指你做的东西被别人看出来有问题的时候,你需要去找问题,看看是哪一个环节出了问题,然后去改正;主动型验证是你自发主动的去验证你要做的这件事有没有可能哪里出问题。

比如你拿到一张数据库表的时候,你通过表名大概知道这是一张订单维度的表,而你现在想要获取某段时间的订单数,这个时候你是不是会觉得这个需求很简单,直接按照这张表里面的订单id计数不就好了么。常规情况下,这样做应该没啥问题。可是凡事不怕一万,就怕万一。有的时候,订单维度表里面的订单id是会重复的,有可能是bug,也有可能是业务逻辑来决定的,比如你在某宝9.1下了一单,然后9.3收到货完成了订单,这种场景下,相同的订单id是定会出现多次的。直接按照订单id计数,肯定是高估了订单数。

数据重复可能是比较常见、也是比较简单的一种情况,还有一些更加复杂的一些逻辑相关的问题。比如不同表之间应该如何关联。如果没有人事先告你,你也不做验证,那么你是怎么也不会知道会有这样那样的问题。可能只有当别人发现你数据结果有问题的时候,你才会去验证出来哪里有问题。

不仅需要对数据做验证,我们也需要对自己的代码做验证,先小数量级的去验证,你的代码有没有生成你理想的结果数据。比如最简单的一个例子,你想要获取每个日期对应的周几,获取周几在Python和Sql中都有对应的函数可以直接获取,但是不同函数的获取的结果是不一样的,有的函数是按照周日是一周的第一天计算的,有的函数是按照周一是一周的第一天计算的。那么你是想要哪个?结果是不是你想要的,这些都需要经过验证才能得到答案。

验证这个事情属于体力活,而且很多时候不验证可能也没啥问题,但是只要有可能发生,还是有必要去验证。因为如果不验证,恰好又出问题了,那就挺尴尬,毕竟做数据分析首先得保证数据是准确的情况下再分析。比如,本来每周日是订单高峰期,但是因为代码问题,有可能分析结果变成每周一是高峰期。

以上就是本月碎碎念,我们下月再见。


【声明】内容源于网络
0
0
俊红的数据分析之路
《对比Excel》系列图书作者、出版有Python数据分析、SQL数据分析、Python报表自动化多本畅销书,主要分享数据分析工具、数据分析理论、数据分析思维、数据分析实战相关内容。
内容 909
粉丝 0
俊红的数据分析之路 《对比Excel》系列图书作者、出版有Python数据分析、SQL数据分析、Python报表自动化多本畅销书,主要分享数据分析工具、数据分析理论、数据分析思维、数据分析实战相关内容。
总阅读46
粉丝0
内容909