-
安装组件
pip install scrapy_redis
-
创建一个工程
-
创建一个基于CrawlSpider的爬虫文件
-
修改当前爬虫文件
- 导包:
from scrapy_redis.spiders import RedisCrawlSpider
- 将start_urls和allowed_domains进行注释
- 添加一个新属性:redis_key = ‘列队名称’ (可以被共享的调度器队列的名称)
- 编写数据解析相关的操作
- 将当前爬虫类的父类修改为 RedisCrawlSpider
- 导包:
-
修改配置文件settings
-
指定使用可以被共享的管道
ITEM_PIPELINES = {'scrapy_redis.pipelines.ReadisPipeline': 400 东莞seo推广经典网站设计太原网络营销微信公众号定制长沙网站seo青岛网站维护php空间购买seo优化公司网站维护收费南京网页制作app开发东莞推广公司网站建设开发价格北京网站维护宁波做网站哪家公司好嘉兴seo企业网页制作企业类网站网站免费优化建网网络购物系统做网站爱长沙网站制作费用竞价单页湖南网络推广杭州手机网站建设公司温州seo优化济南网站优化智能建站软件app软件开发商城模板
-