大数跨境
0
0

需要分析的数据缺失、混乱、重复怎么办?这份数据清洗指南帮你解决难题

需要分析的数据缺失、混乱、重复怎么办?这份数据清洗指南帮你解决难题 数据分析不是个事儿
2023-05-13
1



“大家好,我是李启方!今天跟大家简单地分享在平时的业务中需要如何处理数据。

公众号后台回复 “2023” 即可领取最新全套数据分析资料包!


虽然数仓的数据在到达分析师手上之前,已经经历过n次的重构和清洗,但难免还是会遇到因业务逻辑不清晰而产生的问题,这就要求数据分析师具备一定的数据清洗能力。那么如何进行数据清洗呢?

许多刚入行的小伙伴经常会陷入这个误区:项目开始就埋头苦干,按照自己的思路清洗分析后发现结论不对,很有可能是你的工作方法出了问题。

规范的清洗流程如下:

确定好业务背景。

清楚地认识到你到底要做什么:分析什么?公司哪条业务线的分析需求?这样才能有效的找到对应的底表,业务方不懂数据,很难给分析师提供相应的数据位置,如果不清楚业务背景,前期工作可谓大海捞针。

确定好口径。

明确要分析的指标是如何计算的,例如不同公司GMV、CTR、CVR的计算口径可能会有显著差别,盲目分析就会导致分析结论不可靠。

❸ 处理数据。

清洗过程中主要遇到三种问题:重复值、缺失值和异常值,处理的思路为:

  • 【定位】到底有没有这种数据?
  • 【归因】这种数据是怎么产生的?是否合理?
  • 【处理】小数据予以删除,大数据用均值、中位数等予以填充。


END

2023年最新整理的数据分析资料来啦!

扫描识别下方二维码后,

回复【2023】即可领取!

            

点击上方名片关注我

你点的每一个,都汇聚成数据之光!

【声明】内容源于网络
0
0
数据分析不是个事儿
分享数据人的干货!
内容 1307
粉丝 0
数据分析不是个事儿 分享数据人的干货!
总阅读215
粉丝0
内容1.3k