1. 爬虫的介绍
- 通过编写程序,模拟浏览器上网,然后让其去互联网上爬取数据的过程
2. 爬虫的分类
- 通用爬虫: 爬取整张页面的数据 -> 使用场景: 搜素引擎
- 聚焦爬虫: 爬取该页面的局部数据
- 增量式爬虫: 爬取该页面每次增加的新数据(如: 爬取新闻网中的每隔几分钟就会有新的新闻数据)
3. 反爬机制
- robots.txt 协议 -> 就是规定你允许爬虫哪些数据,可以遵从或不遵从 -> https://www.taobao.com/robots.txt
- User-Agent 检测(简称: UA 检测) -> 即: 检测请求头中的 User-Agent 参数(即: 请求载体)是否是浏览器
4. 反反爬策略
- robots.txt 协议: 不遵从即可
- User-Agent 伪装(简称: UA 伪装)-> 设置 User-Agent 请求头为浏览器请求,而不是爬虫工具请求