最近个一个小站装上了蜘蛛分析的插件,不装不知道,装完才发现,一些垃圾蜘蛛大大占用了服务器资源,包括但不限于AhrefsBot、MJ12bot、BLEXBot、SemrushBot这些营销蜘蛛。
他们来纯粹是为了爬数据,不会给你带来丝毫的流量,这种玩意,还是屏蔽的好,大家可以在网上搜索这些蜘蛛的名字就可以看到他们是干什么的。
来看看我的占用:
小站没啥流量,正经蜘蛛没爬几个页面,才几个小时功夫这些垃圾蜘蛛倒是把页面爬了个遍。
果断全部屏蔽。
使用robots协议即可屏蔽,这几个垃圾蜘蛛虽然不怎么样,但还是遵守这个协议的,以AhrefsBot、MJ12bot、BLEXBot、SemrushBot这些营销蜘蛛为例,在网站robots.txt文件里面加入如下代码即可:
User-agent: AhrefsBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: MJ12bot Disallow: / User-agent: SemrushBot Disallow: /
其他蜘蛛同理。
更新:昨天屏蔽了,但今天发现不少蜘蛛不讲武德,根本不遵循robots协议,所以还是服务器添加Nginx或者其他WEB规则来的舒坦,直接拒绝访问:
if ($http_user_agent ~* (YandexBot|spbot|DnyzBot|Researchscan|semrushbot|yahoo|AhrefsBot|DotBot|Uptimebot|MJ12bot|MegaIndex.ru|ZoominfoBot|Mail.Ru|SeznamBot|BLEXBot|ExtLinksBot|aiHitBot|Barkrowler)){ return 403; }
以上已经包含大部分营销蜘蛛,放在这里就行了:
有需要的可以弄一下,有些蜘蛛爬起来很疯狂,服务器差点都扛不住。