← 返回首页
清洗数据
发表时间:2024-04-07 14:33:40
清洗数据

清洗数据

1.检测与处理重复值

分为记录重复和特征重复两种情况。

1).记录重复

2).特征重复

结合相关的数学和统计学知识,要去除连续的特征重复,可以利用特征间的相似度将两个相似度为1的特征去除其中一个。

在pandas中,相似度的计算方法为corr()。使用该方法计算相似度时,默认为pearson法,可以通过method参数进行调节,目前还支持spearman法和kendall法。

通过相似度矩阵去重存在一个弊端是只能对数值型重复特征去重,类别型特征之间无法通过计算相似系数来衡量相似度,因此无法根据相似度矩阵对其进行去重处理。

除了使用相似度矩阵进行特征去重之外,还可以通过equals()方法进行特征去重。

2.检测与处理缺失值

在数据中的某个或某些特征的值是不完整的,这些值称为缺失值。

pandas提供了识别缺失值的isnull()方法以及识别非缺失值的notnull()方法,这两种方法在使用时返回的都是布尔值,即True和False。

结合sum函数、isnull()方法和notnull()方法,可以检测数据中缺失值的分布以及数据中一共含有多少缺失值。 isnull()方法和notnull()方法的结果正好相反,因此使用其中任意一个都可以识别出数据是否存在缺失值。

处理缺失值常见有以下方式:

3.检测与处理异常值

有以下两种方式: