百度爬虫模拟
用途:
- 搜索引擎索引与索引拒绝
- 冒充百度,优化爬虫效果
1. 百度爬虫UA汇总
Name of Products | User-agent |
---|---|
PC search | Baiduspider |
Mobile search | Baiduspider |
Image search | Baiduspider-image |
Video search | Baiduspider-video |
News search | Baiduspider-news |
Baidu bookmark | Baiduspider-favo |
Union baidu | Baiduspider-cpro |
Business search | Baiduspider-ads |
other search | Baiduspider |
如下:
1 | “Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)” |
设置user-agent是标识百度爬虫的一种基础方式。
如果平台以该方法验证爬虫,trick it !
2. 反向DNS查找
例(linux):
1 | host 123.125.66.120 |
百度爬虫来源IP,域名*.baidu.com or *.baidu.jp
如果平台以该方法验证爬虫,基本无解。
除非你能做到DNS污染
3. 关于robots.txt优化
君子协定
正规军的爬虫,会先爬去服务根路径下,该文件。
根据文件定义的规则,爬取网站
1 | ## 拒绝Baiduspider的所有访问 |