1. 心意SEO优化首页
  2. 网站搭建

robots协议如何设置网络爬虫来爬网站

设置robots.txt的方法:

可以设置robots.txt来禁止网络爬虫来爬网站。

首先,你先建一个空白本文档(记事本),然后命名为:robots.txt;

(1)禁止所有搜索引擎访问网站的任何部分。

User-agent: *
Disallow: /

robots协议

(2)允许所有的robots访问,无任何限制。

User-agent: *
Disallow:
或者
User-agent: *
Allow: /
还可以建立一个空文件robots.txt或者不建立robots.txt。

(3)仅禁止某个搜索引擎的访问(例如:百度baiduspider)

User-agent: BaiduSpider
Disallow:/

(4)允许某个搜索引擎的访问(还是百度)

User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /
这里需要注意,如果你还需要允许谷歌bot,那么也是在“User-agent: *”前面加上,而不是在“User-agent: *”后面。

(5)禁止Spider访问特定目录和特定文件(图片、压缩文件)。

User-agent: *
Disallow: /AAA.net/
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$

这样写之后,所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明,而不要写出“Disallow:/AAA.net/ /admin/”。

版权声明:本文作者:杭州SEO,如若转载请注明来源。来源:https://www.cxyseo.cn/435.html

发表评论

登录后才能评论

评论列表(2条)

点击这里给我发消息

微信二维码