第一个Python爬虫程序

下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意，urllib 库属于 Python 的标准库模块，无须单独安装，它是 Python 爬虫的常用模块。

import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')
html = response.read().decode('utf-8')
print(html)

# 简化输出：<!DOCTYPE html><!--STATUS OK--> <html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><meta name="description" content="全球最大的中文搜索引擎、致力于让网民更便捷地获取信息，找到...">...</html>

urllib库

常用方法

urlopen(url, [timeout, ]) 打开一个 url 链接，返回一个 response 对象。
Request(url,headers={}) 创建一个请求对象，可以设置请求头。
html响应对象方法 read()：读取网页内容 decode()：解码网页内容 geturl()：获取请求的 url getcode()：获取请求的返回状态码 encode(): 编码内容

第一个Python爬虫程序 ​

urllib库 ​

第一个Python爬虫程序

urllib库