DataFrame的常用操作

DataFrame的常用操作。

1.查看DataFrame的常用属性

DataFrame的基础属性如下。 - values，可以获取元素； - index，可以获取索引； - column，可以获取列名； - dtypes，可以获取类型。

除了上述4个基本属性外，还可以通过size、ndim和shape属性获取DataFrame的元素个数、维度数和数据形状（行列数目）。

T属性能够实现DataFrame的转置（行列转换）。在某些特殊场景下，某些函数方法只能作用于列或行，此时即可试着用转置来解决这一问题。

数据库中最常使用的操作就是CRUD。DataFrame作为一种二维数据表结构，能够像数据库一样实现查改增删操作，如添加一行、删除一行、添加一列、删除一列、修改某一个值、某个区间的值替换等。

1).查看访问DataFrame中的数据

查看访问DataFrame中的数据主要有以下两种方式：

DataFrame的单列数据为一个Series。以字典访问某一个key的值的方式使用对应的列名，即可实现单列数据的访问，以字典访问某一个key的值的方式使用对应的列名，即可实现单列数据的访问。

DataFrame提供的方法head()和tail()也可以得到前5行和后5行数据，head()方法和tail()方法使用的都是默认参数，所以访问的是前、后5行。在方法后的“()”中输入访问行数，即可实现目标行数的查看。

DataFrame的数据查看与访问基本方法虽然能够基本满足数据查看要求，但是终究还是不够灵活。pandas提供了loc()和iloc()两种更加灵活的方法来实现数据访问。

loc()方法和iloc()方法基本使用格式如下:

DataFrame.loc[行索引名称或条件, 列索引名称]
DataFrame.iloc[行索引位置, 列索引位置]

2).更改DataFrame中的数据

3).DataFrame增添数据

为DataFrame添加一列的方法非常简单，只需要新建一个列索引，并对该索引下的数据进行赋值操作即可。如果新增的一列值是相同的，那么可以直接为其赋值一个常量。

4).删除某列或某行数据

删除某列或某行数据需要用到pandas提供的方法drop()。 drop()方法的基本使用格式如下:

DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

描述性统计是用于概括、表述事物整体状况，以及事物间关联、类属关系的统计方法。通过几个统计值可简捷地表示一组数据的集中趋势和离散程度等。

1).数值型特征的描述性统计

数值型特征的描述性统计主要包括了计算数值型数据的最小值、均值、中位数、最大值、四分位数、极差、标准差、方差、协方差和变异系数等。

在NumPy库中已经提到了为数不少的统计函数，为方便读者查看，将NumPy库简写为np，部分统计函数如下表。

作为专门为数据分析而生的Python库，pandas还提供了一个describe()方法，能够一次性得出数据框中所有数值型特征如下。

2).类别型特征的描述性统计

描述类别型特征的分布状况，可以使用频数统计。在pandas库中实现频数统计的方法为value_counts()。

除了使用value_counts()方法分析频率分布外，pandas提供了category类，可以使用astype()方法将目标特征的数据类型转换为category类型。

describe()方法除了支持传统数值型数据以外，还能够支持对category类型的数据进行描述性统计，4个统计量如下: