1. 爬虫的介绍

  • 通过编写程序,模拟浏览器上网,然后让其去互联网上爬取数据的过程

2. 爬虫的分类

  • 通用爬虫: 爬取整张页面的数据 -> 使用场景: 搜素引擎

  • 聚焦爬虫:  爬取该页面的局部数据

  • 增量式爬虫: 爬取该页面每次增加的新数据(如: 爬取新闻网中的每隔几分钟就会有新的新闻数据)

3. 反爬机制


  • User-Agent 检测(简称: UA 检测) -> 即: 检测请求头中的 User-Agent 参数(即: 请求载体)是否是浏览器

4. 爬策略

  • robots.txt 协议: 不遵从即可

  • User-Agent 伪装(简称: UA 伪装)-> 设置 User-Agent 请求头为浏览器请求,而不是爬虫工具请求