切换主题
第一个Python爬虫程序
下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意,urllib 库属于 Python 的标准库模块,无须单独安装,它是 Python 爬虫的常用模块。
py
import urllib.request
response = urllib.request.urlopen('http://www.baidu.com')
html = response.read().decode('utf-8')
print(html)
# 简化输出:<!DOCTYPE html><!--STATUS OK--> <html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><meta name="description" content="全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到...">...</html>
urllib库
常用方法
- urlopen(url, [timeout, ]) 打开一个 url 链接,返回一个 response 对象。
- Request(url,headers={}) 创建一个请求对象,可以设置请求头。
- html响应对象方法 read():读取网页内容 decode():解码网页内容 geturl():获取请求的 url getcode():获取请求的返回状态码 encode(): 编码内容