切换主题
csv 模块
CSV 文件又称为逗号分隔值文件,是一种通用的、相对简单的文件格式,用以存储表格数据,包括数字或者字符。CSV 是电子表格和数据库中最常见的输入、输出文件格式
通过爬虫将数据抓取的下来,然后把数据保存在文件,或者数据库中,这个过程称为数据的持久化存储。
CSV 文件写入
- csv.writer() csv 模块中的 writer 类可用于读写序列化的数据,其语法格式如下:
python
writer = csv.writer(file, dialect='excel', **fmtparams)
参数:
- file:必须是支持迭代(Iterator)的对象,可以是文件(file)对象或者列表(list)对象。
- dialect:编码风格,默认为 excel 的风格,也就是使用逗号,分隔
- fmtparams:格式化参数,用来覆盖之前 dialect 对象指定的编码风格。
示例:
python
import csv
with open('test.csv', 'w', newline='') as csvfile:
writer = csv.writer(csvfile, delimiter=' ', quotechar='|')
writer.writerow(['sunsetz']*5+['wtf'])
writer.writerow(['a', 'b', 'c'])
执行结果:
sunsetz sunsetz sunsetz sunsetz sunsetz |wtf|
|a|b|c
其中,quotechar 是引用符,当一段话中出现分隔符的时候,用引用符将这句话括起来,以能排除歧义。
如果想同时写入多行数据,需要使用 writerrows() 方法,代码如下所示:
python
import csv
with open('test.csv', 'w', newline='') as csvfile:
writer = csv.writer(csvfile, delimiter=' ', quotechar='|')
writer.writerow(['sunsetz']*5+['wtf'])
writer.writerows([['a', 'b', 'c'], ['d', 'e', 'f']])
执行结果:
sunsetz sunsetz sunsetz sunsetz sunsetz |wtf|
|a|b|c
|d|e|f
- csv.DictWriter() 当然也可使用 DictWriter 类以字典的形式读写数据,使用示例如下:
python
import csv
with open('names.csv', 'w', newline='') as csvfile:
#构建字段名称,也就是key
fieldnames = ['first_name', 'last_name']
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
# 写入字段名,当做表头
writer.writeheader()
# 多行写入
writer.writerows([{'first_name': 'Baked', 'last_name': 'Beans'},{'first_name': 'Lovely', 'last_name': 'Spam'}])
# 单行写入
writer.writerow({'first_name': 'Wonderful', 'last_name': 'Spam'})
执行结果:
first_name,last_name
Baked,Beans
Lovely,Spam
Wonderful,Spam
CSV 文件读取
- csv.reader() csv 模块中的 reader 类和 DictReader 类用于读取文件中的数据,其中 reader() 语法格式如下:
python
reader = csv.reader(file, dialect='excel', **fmtparams)
参数:
- file:必须是支持迭代(Iterator)的对象,可以是文件(file)对象或者列表(list)对象。
- dialect:编码风格,默认为 excel 的风格,也就是使用逗号,分隔
- fmtparams:格式化参数,用来覆盖之前 dialect 对象指定的编码风格。
示例:
python
import csv
with open('test.csv', 'r') as csvfile:
reader = csv.reader(csvfile, delimiter=' ', quotechar='|')
for row in reader:
print(row)
执行结果:
['sunsetz', 'sunsetz', 'sunsetz', 'sunsetz', 'sunsetz', 'wtf']
['a', 'b', 'c']
['d', 'e', 'f']
- csv.DictReader()
python
import csv
with open('names.csv', newline='') as csvfile:
reader = csv.DictReader(csvfile)
for row in reader:
print(row['first_name'], row['last_name'])
执行结果:
Baked Beans
Lovely Spam
Wonderful Spam