精通Scrapy网络爬虫

查看Scrapy的源码,探究类的公共接口。

从“用”的角度来说,Scrapy被作者讲明白了。本书的主题有两个:一、常用类的公共接口(爬虫编写);二、中间件与插件(登录验证、动态加载、HTTP代理、数据存储、以及分布式)。

https://doc.scrapy.org/en/latest/_images/scrapy_architecture_02.png

Scrapy由6大组件(Engine、Scheduler、Downloader、Middleware、Spider、Pipeline)与3种数据对象(Request、Response、Item)构成。

作为一个用户,你须熟知ItemSpiderCrawlSpiderRuleLinkExtractorRequestFormRequestResponseSelectorItemLoaderPipeline等类的公共接口。