主流搜索引擎蜘蛛抓取网站,都会自带UA特征,比如百度蜘蛛UA(Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)。
在网站的访问日志中也会相应记录,但UA是可以伪造的,目前越来越多伪造UA的扫描器或采集器都在伪造搜索引擎UA来迷惑管理员,造成无法判断是否是正规搜索引擎蜘蛛。
我们在不知道蜘蛛IP段的情况下,可以通过运行命令:nslookup 来判断真假蜘蛛。
首先以百度蜘蛛为例,在访问日志中找到带有UA记录的IP,如:220.181.108.* 在运行cmd命令输入 nslookup 220.181.108.* ,运行后结果中带有: baiduspider-220-181-108-*.crawl.baidu.com 字样,说明是真百度蜘蛛,反之如果没有则为假。