购物车中还没有商品,赶紧选购吧!

推荐阅读

运营专员 运营专员

robots.txt写法大全及语法的灵活运用

时间:2016-04-07 | 分类:功能说明
浏览:12556

robots在英语之中的意思是机器人,Robots协议(也称为爬虫协议、机器人协议等)全称是网络爬虫排除标准Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

当搜索引擎在访问一个站点时,首先检索的将是该站点根目录下面的robots.txt文件(如果没有我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可!),如果此文件存在,那么搜索引擎将率先访问并识别此文件的规则,它会按照此文件里面的规则进行爬取!下面详细叙述一下相关语法:

1、允许所有搜索引擎访问网站的所有部分:

User-agent*

Disallow

2、禁止所有搜索引擎访问网站的所有部分:

User-agent*

Disallow/

3、如果不需要某一个搜索引擎抓取的话,比如百度,禁止百度索引我们的网站

User-agentBaiduspider

Disallow/

注:如果我们需要禁止Google索引我们的网站,就把User-agent:蜘蛛名字改成 谷歌的Googlebot即可!

4、如果我们禁止除Google外的一切搜索引擎索引我们的网站

User-agentGooglebot

Disallow

User-agent*

Disallow/

5、如果我们需要禁止蜘蛛访问某一个目录,比如禁止loginnewtravel等目录被索引

User-agent*

Disallow/login/

Disallow/newtravel/

6、如果我们允许蜘蛛访问网站某个目录中的某些特定网址

User-agent*

Allow/login/my

Allow/newtravel/html

Disallow/login/

Disallow/newtravel/

7、很多网站的robots.txt里的Disallow或者Allow里面会有很多的符号,比如星号、问 号什么的,如果使用“*”号,主要是限制访问某个后缀的域名,比如禁止访问/html/ 目录下的所有以“.htm”为后缀的URL(包含子目录)

User-agent*

Disallow/html/*.htm

8、使用“$”符号是仅允许访问某目录下某个后缀的文件

User-agent*

Allow.asp$

Disallow/

9、如果是禁止搜索引擎索引网站中所用动态的页面(这里演示的是以“?”号为域名, 例如:index.asp?id=1

User-agent:*

Disallow/*?*

10、为了节省服务器资源,需要禁止各类蜘蛛来索引网站的图片,除了使用常见的 Disallow:/images/”这样直接屏蔽图片文件夹的方式以外,还可以采取直接屏蔽图片 后缀名的方式。如果我们禁止百度搜索引擎索引我们网站的图片:

User-agentBaiduspider

Disallow.jpg$

Disallow.jpeg$

Disallow.gif$

Disallow.png$

11、仅允许百度抓取网站上的“JPG”格式的文件

User-agent:baiduspider

Allow.jpg$

Disallow:jpeg$

Disallow:gif$

Disallow:png$

12、仅仅禁止百度抓取网站上的“JPG”格式的文件

User-agentBaiduspider

Disallow.jpg$

更多详细帮助,参考阅读


robots 360百科

说明

赞   1

有一点帮助   0

没有帮助  

参与评论

他们说...

积分获取更多
思途CMS系统更新动态
  • 2024-04-24
    1、补充后台应用公共文件
    2、【BUG修复】老版移动端登录js优化,解决变量被重定义问题
    3、【功能优化】优化CMS退款流程,支持梦旅程APP订单随时退和设置手续费功能
    4、【BUG优化】CMS系统后台售后文字修改
    5、【BUG修复】景点订单未读查询
查看更多

扫一扫官方微信号

加入微信
在线客服
微信咨询
微信咨询
现在咨询,获取演示账号
企业logo小米
立即扫码加我微信
电话咨询
咨询电话
028-61558715
预约演示