大数跨境
0
0

如何用mysql实现数据清洗?

如何用mysql实现数据清洗? CDA数据分析师
2023-08-02
0
导读:MySQL是常用的开源DBMS,因为开源,扩展性好,被广泛使用。在数据分析等实际工作中,由于数据量过大、数据

MySQL是常用的开源DBMS,因为开源,扩展性好,被广泛使用。在数据分析等实际工作中,由于数据量过大、数据冗余等原因,我们要先对数据库进行清理。要注意的原则有:提前做好数据备份、尽量不动原表格(可以生成新的表格)。通常要从以下三个方面来考察、处理:缺失值、异常值、重复值。
1、缺失值
在数据采集和存储过程中,往往会出现缺失值的情况。对于缺失值,可以使用MySQL的IFNULL()函数来进行填充。填充方法有:
  • 用固定值填充
  • 用均值填充
  • 用众数填充
  • 用上下数据进行填充
  • 用插值法填充

2、异常值
数据分析过程中,数据异常情况经常出现。需要我们通过异常值检测来剔除这些异常数据。可以借助统计学知识和专业工具来自动检测、剔除异常值,也可以从最基础的观测相关字段的最大值、最小值来判断。对于那些超出预期范畴的数据,我们应该及时进行处理,以保证数据的准确性和可靠性。
3、重复值
数据中可能存在大量的重复数据。这些重复数据不但会浪费我们的存储空间,还会对我们的数据分析带来困难。MySQL提供了DISTINCT关键字来去除重复数据。比如新建表如下:
Create table newtable as Select distinct * from oldtable;
扫码添加老师微信,一起了解更多内容:

【声明】内容源于网络
0
0
CDA数据分析师
🌸全国30万数据分析从业人员,有10万在CDA数据分析师 🌺CDA会员俱乐部有1000个数据库,成为持证人即可获得相关数据信息 🌹未来两样东西最有价值:一个是数据,一个是GPU
内容 9451
粉丝 0
CDA数据分析师 🌸全国30万数据分析从业人员,有10万在CDA数据分析师 🌺CDA会员俱乐部有1000个数据库,成为持证人即可获得相关数据信息 🌹未来两样东西最有价值:一个是数据,一个是GPU
总阅读2.4k
粉丝0
内容9.5k