robots在英语之中的意思是机器人,Robots协议(也称为爬虫协议、机器人协议等)全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。
当搜索引擎在访问一个站点时,首先检索的将是该站点根目录下面的robots.txt文件(如果没有我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可!),如果此文件存在,那么搜索引擎将率先访问并识别此文件的规则,它会按照此文件里面的规则进行爬取!下面详细叙述一下相关语法:
1、允许所有搜索引擎访问网站的所有部分:
User-agent:*
Disallow:
2、禁止所有搜索引擎访问网站的所有部分:
User-agent:*
Disallow:/
3、如果不需要某一个搜索引擎抓取的话,比如百度,禁止百度索引我们的网站
User-agent:Baiduspider
Disallow:/
注:如果我们需要禁止Google索引我们的网站,就把User-agent:蜘蛛名字改成 谷歌的Googlebot即可!
4、如果我们禁止除Google外的一切搜索引擎索引我们的网站
User-agent:Googlebot
Disallow:
User-agent:*
Disallow:/
5、如果我们需要禁止蜘蛛访问某一个目录,比如禁止login、newtravel等目录被索引
User-agent:*
Disallow:/login/
Disallow:/newtravel/
6、如果我们允许蜘蛛访问网站某个目录中的某些特定网址
User-agent:*
Allow:/login/my
Allow:/newtravel/html
Disallow:/login/
Disallow:/newtravel/
7、很多网站的robots.txt里的Disallow或者Allow里面会有很多的符号,比如星号、问 号什么的,如果使用“*”号,主要是限制访问某个后缀的域名,比如禁止访问/html/ 目录下的所有以“.htm”为后缀的URL(包含子目录)
User-agent:*
Disallow:/html/*.htm
8、使用“$”符号是仅允许访问某目录下某个后缀的文件
User-agent:*
Allow:.asp$
Disallow:/
9、如果是禁止搜索引擎索引网站中所用动态的页面(这里演示的是以“?”号为域名, 例如:index.asp?id=1)
User-agent:*
Disallow:/*?*
10、为了节省服务器资源,需要禁止各类蜘蛛来索引网站的图片,除了使用常见的 “Disallow:/images/”这样直接屏蔽图片文件夹的方式以外,还可以采取直接屏蔽图片 后缀名的方式。如果我们禁止百度搜索引擎索引我们网站的图片:
User-agent:Baiduspider
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
11、仅允许百度抓取网站上的“JPG”格式的文件
User-agent:baiduspider
Allow:.jpg$
Disallow:jpeg$
Disallow:gif$
Disallow:png$
12、仅仅禁止百度抓取网站上的“JPG”格式的文件
User-agent:Baiduspider
Disallow:.jpg$
更多详细帮助,参考阅读
赞
1
有一点帮助
0
没有帮助
参与评论