pandas.read_csv接口用于读取CSV格式的数据文件,由于CSV文件使用非常频繁,功能强大,参数众多,因此在这里专门做详细介绍。
1.CSV文件
CSV 是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。CSV全称:逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),csv 文件是为了实现简单的数据存储,是一个纯文本的文件,因为是纯文本文件,能够兼容各类程序。不含必须像二进制数字那样被解读的数据。
2.pandas操作CSV
实例:
import pandas as pd
# 读取唐诗三百首csv文件
df = pd.read_csv('tangshi300.csv',encoding="gbk")
print(df.to_string())
#to_string() 用于返回 DataFrame 类型的数据,如果不使用该函数,则输出结果为数据的前面 5 行和末尾 5 行,中间部分以 ... 代替。
print(df)
#读取前面 5 行
print(df.head())
#读取前面 10 行
print(df.head(10))
#读取末尾 10 行
print(df.tail(10))
#info() 方法返回表格的一些基本信息
print(df.info())
我们也可以使用 to_csv() 方法将 DataFrame 存储为 csv 文件:
import pandas as pd
# 三个字段 name, site, age
nme = ["天猫", "淘宝", "京东", "苏宁易购"]
st = ["www.tmall.com", "www.taobao.com", "www.jd.com", "www.suning.com"]
ag = [95, 90, 98, 87]
# 字典
dict = {'name': nme, 'site': st, 'age': ag}
df = pd.DataFrame(dict)
# 保存 dataframe
df.to_csv('shopping-sits.csv')
pandas读取excel文件,转换为csv文件。
import pandas as pd
read_file = pd.read_excel("旅游景点.xlsx",skiprows=1)
# Write the dataframe object
# into csv file
read_file.to_csv("tourism.csv",
sep='\t',
index=None,
header=True)
# read csv file and convert
# into a dataframe object
df = pd.DataFrame(pd.read_csv("tourism.csv",sep='\t'))
# show the dataframe
print(df)