Tag通用爬虫

scrapy虫术 | 通用爬虫之站酷全站设计师资料爬取

s

我们写多几个爬虫就会发现,其实有很多相同的模块,比如翻页,比如网络错误重试等。scrapy内部已经有非常完美的处理模块,我们只需要简单配置即可使用,还是接上一节我们的爬虫,这一次我们将它封装地更加强大。这次,我们做一个通用爬虫,实现随机请求头和换ip功能,除此之外将实现可配置化爬虫,也就是说,我们要爬取一个站点,只需要写必要的链接筛选和解析规则即可,而无需像之前那样写很多冗余的代码块。黑喂狗\~ ### 工具环境 – 语言:python3.6 – 编辑器:Pycharm – 数据库:MongoDB – 框架:scrapy1.5.1 ### 温馨提示: 阅读此文可能需要对scrapy框架有基本的了解,对xpath解析有一个基本的了解 ### 爬取思路 爬取站点:[ ] 我们需要的是每一个设计师的资料页面的信息,如下所示: 逻辑其实很简单: 1...