Python网络数据采集

Jul 16, 2019

爬虫，有趣的编程实践。

在这有趣的书里，作者讲解了与Python爬虫有关的各种知识，包括：代码编写与调试、数据存储、浏览器操控。当你运用所学知识，采集完一个小型网站时，就将获得一种成就感——用代码完成了靠手工难以完成的工作。

爬虫，其实就是使用HTTP协议通过网络访问服务器的资源。资源，主要分为静态文件和数据库中的记录，而用户主要使用HTTP的get与post方法访问URI（资源）。网页页面大都是通过模板引擎加载数据库中的记录生成的，爬虫则是对这个过程的逆向还原。

编写爬虫的要点在于模拟人的行为，可以使用Fiddler 抓包数据。IP地址是无法作假的，正常人类是不可能从某一个IP地址以超高频率访问网站的。为了应对网站所采取的反制手段（如：验证码），要么采用代理IP服务，要么就降低采集频率。