清洗数据 - 博客详情

清洗数据

1.检测与处理重复值

分为记录重复和特征重复两种情况。

1).记录重复

2).特征重复

结合相关的数学和统计学知识，要去除连续的特征重复，可以利用特征间的相似度将两个相似度为1的特征去除其中一个。

在pandas中，相似度的计算方法为corr()。使用该方法计算相似度时，默认为pearson法，可以通过method参数进行调节，目前还支持spearman法和kendall法。

通过相似度矩阵去重存在一个弊端是只能对数值型重复特征去重，类别型特征之间无法通过计算相似系数来衡量相似度，因此无法根据相似度矩阵对其进行去重处理。

除了使用相似度矩阵进行特征去重之外，还可以通过equals()方法进行特征去重。

在数据中的某个或某些特征的值是不完整的，这些值称为缺失值。

pandas提供了识别缺失值的isnull()方法以及识别非缺失值的notnull()方法，这两种方法在使用时返回的都是布尔值，即True和False。

结合sum函数、isnull()方法和notnull()方法，可以检测数据中缺失值的分布以及数据中一共含有多少缺失值。 isnull()方法和notnull()方法的结果正好相反，因此使用其中任意一个都可以识别出数据是否存在缺失值。

处理缺失值常见有以下方式：

有以下两种方式：