

“大家好,我是李启方!今天跟大家简单地分享在平时的业务中需要如何处理数据。
虽然数仓的数据在到达分析师手上之前,已经经历过n次的重构和清洗,但难免还是会遇到因业务逻辑不清晰而产生的问题,这就要求数据分析师具备一定的数据清洗能力。那么如何进行数据清洗呢?
许多刚入行的小伙伴经常会陷入这个误区:项目开始就埋头苦干,按照自己的思路清洗分析后发现结论不对,很有可能是你的工作方法出了问题。
规范的清洗流程如下:
❶ 确定好业务背景。
清楚地认识到你到底要做什么:分析什么?公司哪条业务线的分析需求?这样才能有效的找到对应的底表,业务方不懂数据,很难给分析师提供相应的数据位置,如果不清楚业务背景,前期工作可谓大海捞针。
❷ 确定好口径。
明确要分析的指标是如何计算的,例如不同公司GMV、CTR、CVR的计算口径可能会有显著差别,盲目分析就会导致分析结论不可靠。
❸ 处理数据。
清洗过程中主要遇到三种问题:重复值、缺失值和异常值,处理的思路为:
-
【定位】到底有没有这种数据? -
【归因】这种数据是怎么产生的?是否合理? 【处理】小数据予以删除,大数据用均值、中位数等予以填充。
2023年最新整理的数据分析资料来啦!

扫描识别下方二维码后,
回复【2023】即可领取!

点击上方名片关注我
你点的每一个在看,都汇聚成数据之光!


