scrapy安装及常用命令

2020-05-05 04:29:16

scrapy是python语言开发的爬虫框架,非常有名。想用这个做爬虫工具。这里记录一下使用方法和常用命令。

安装

pip3 install Scrapy

建项目

scrapy startproject news

创建爬虫

cd news
scrapy genspider tianya bbs.tianya.cn

运行爬虫

scrapy crawl tianya

单独运行爬虫文件

scrapy runspider tianya.py

调试scrapy

scrapy shell
或者加上请求的url

scrapy shell http://pgres.cn

进入控制台后,可以使用以下函数

fetch:可以请求url或者request对象。请求成功后,会修改当前作用域的request和response对象。

shelp:打印出帮助信息

spider:相应的spider对象

settings:获取项目配置信息


设置http缓存,下次相同url不再请求url

修改settings.py。

HTTPCACHE_ENABLED = True