爬虫的介绍 | Kevin-Blog

1. 爬虫的介绍

通过编写程序，模拟浏览器上网，然后让其去互联网上爬取数据的过程

2. 爬虫的分类

通用爬虫: 爬取整张页面的数据 -> 使用场景: 搜素引擎

聚焦爬虫: 爬取该页面的局部数据

增量式爬虫: 爬取该页面每次增加的新数据（如: 爬取新闻网中的每隔几分钟就会有新的新闻数据）

3. 反爬机制

robots.txt 协议 -> 就是规定你允许爬虫哪些数据，可以遵从或不遵从 -> https://www.taobao.com/robots.txt

User-Agent 检测（简称: UA 检测） -> 即: 检测请求头中的 User-Agent 参数（即: 请求载体）是否是浏览器

4. 反反爬策略

robots.txt 协议: 不遵从即可

User-Agent 伪装（简称: UA 伪装）-> 设置 User-Agent 请求头为浏览器请求，而不是爬虫工具请求

← urllib 模块网址 →