DataFrame的常用操作。
DataFrame的基础属性如下。 - values,可以获取元素; - index,可以获取索引; - column,可以获取列名; - dtypes,可以获取类型。
除了上述4个基本属性外,还可以通过size、ndim和shape属性获取DataFrame的元素个数、维度数和数据形状(行列数目)。
T属性能够实现DataFrame的转置(行列转换)。在某些特殊场景下,某些函数方法只能作用于列或行,此时即可试着用转置来解决这一问题。
数据库中最常使用的操作就是CRUD。DataFrame作为一种二维数据表结构,能够像数据库一样实现查改增删操作,如添加一行、删除一行、添加一列、删除一列、修改某一个值、某个区间的值替换等。
1).查看访问DataFrame中的数据
查看访问DataFrame中的数据主要有以下两种方式:
DataFrame的单列数据为一个Series。以字典访问某一个key的值的方式使用对应的列名,即可实现单列数据的访问,以字典访问某一个key的值的方式使用对应的列名,即可实现单列数据的访问。
DataFrame提供的方法head()和tail()也可以得到前5行和后5行数据,head()方法和tail()方法使用的都是默认参数,所以访问的是前、后5行。在方法后的“()”中输入访问行数,即可实现目标行数的查看。
DataFrame的数据查看与访问基本方法虽然能够基本满足数据查看要求,但是终究还是不够灵活。pandas提供了loc()和iloc()两种更加灵活的方法来实现数据访问。
loc()方法和iloc()方法基本使用格式如下:
DataFrame.loc[行索引名称或条件, 列索引名称]
DataFrame.iloc[行索引位置, 列索引位置]
2).更改DataFrame中的数据
3).DataFrame增添数据
为DataFrame添加一列的方法非常简单,只需要新建一个列索引,并对该索引下的数据进行赋值操作即可。如果新增的一列值是相同的,那么可以直接为其赋值一个常量。
4).删除某列或某行数据
删除某列或某行数据需要用到pandas提供的方法drop()。 drop()方法的基本使用格式如下:
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
描述性统计是用于概括、表述事物整体状况,以及事物间关联、类属关系的统计方法。通过几个统计值可简捷地表示一组数据的集中趋势和离散程度等。
1).数值型特征的描述性统计
数值型特征的描述性统计主要包括了计算数值型数据的最小值、均值、中位数、最大值、四分位数、极差、标准差、方差、协方差和变异系数等。
在NumPy库中已经提到了为数不少的统计函数,为方便读者查看,将NumPy库简写为np,部分统计函数如下表。

作为专门为数据分析而生的Python库,pandas还提供了一个describe()方法,能够一次性得出数据框中所有数值型特征如下。
2).类别型特征的描述性统计
描述类别型特征的分布状况,可以使用频数统计。在pandas库中实现频数统计的方法为value_counts()。
除了使用value_counts()方法分析频率分布外,pandas提供了category类,可以使用astype()方法将目标特征的数据类型转换为category类型。
describe()方法除了支持传统数值型数据以外,还能够支持对category类型的数据进行描述性统计,4个统计量如下: