百度爬虫模拟

用途:

  • 搜索引擎索引与索引拒绝
  • 冒充百度,优化爬虫效果

1. 百度爬虫UA汇总

Name of Products User-agent
PC search Baiduspider
Mobile search Baiduspider
Image search Baiduspider-image
Video search Baiduspider-video
News search Baiduspider-news
Baidu bookmark Baiduspider-favo
Union baidu Baiduspider-cpro
Business search Baiduspider-ads
other search Baiduspider

如下:

1
“Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)”

设置user-agent是标识百度爬虫的一种基础方式。

如果平台以该方法验证爬虫,trick it !

2. 反向DNS查找

例(linux):

1
2
3
4
$ host 123.125.66.120

120.66.125.123.in-addr.arpa domain name pointer
Baiduspider-123-125-66-120.crawl.baidu.com.

百度爬虫来源IP,域名*.baidu.com or *.baidu.jp

如果平台以该方法验证爬虫,基本无解。

除非你能做到DNS污染

3. 关于robots.txt优化

君子协定

正规军的爬虫,会先爬去服务根路径下,该文件。

根据文件定义的规则,爬取网站

1
2
3
4
5
6
7
## 拒绝Baiduspider的所有访问
User-agent: Baiduspider
Disallow: /

## 允许Baiduspider-image访问路径/image/
User-agent: Baiduspider-image
Allow: /image/