Skip to content

Python爬虫

爬虫程序与其他程序不同,它的的思维逻辑一般都是相似的, 所以无需我们在逻辑方面花费大量的时间。下面对 Python 编写爬虫程序的流程做简单地说明: 先由 urllib 模块的 request 方法打开 URL 得到网页 HTML 对象。 使用浏览器打开网页源代码分析网页结构以及元素节点。 通过 Beautiful Soup 或则正则表达式提取数据。 存储数据到本地磁盘或数据库。

当然也不局限于上述一种流程。编写爬虫程序,需要您具备较好的 Python 编程功底,这样在编写的过程中您才会得心应手。爬虫程序需要尽量伪装成人访问网站的样子,而非机器访问,否则就会被网站的反爬策略限制,甚至直接封杀 IP,相关知识会在后续内容介绍。