无标题文档
天璐网络-10年专注网站建设,网络营销,品牌推广,软件开发等服务!
行业资讯
当前位置:首页 >> 营销知识 >> 行业资讯

robot.txt是什么

2019年03月05日 来源:天璐网络 浏览:43

说起robot.txt文件相信站长朋友们应该不会陌生,几乎每个网站的根目录下都有这样一个文件,但是真正了解它的人却非常少,那么,robot.txt是什么?我们就一起通过文章内容了解下吧。

robot.txt是什么

robot.txt是什么?

robots.txt是一个协议,是搜索引擎访问网站时第一个要查看的文件,它存在的目的是告诉搜索引擎哪些页面能被抓取,哪些页面不能被抓取。

当spider访问一个站点时,会首先检查该站点根目录下是否存在robots.txt,如果存在,spider会按照文件中的内容来确定访问的范围;如果该文件不存在,所有的spider将能够访问网站上所有没有被口令保护的页面。

具体介绍:

1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中,如果有多条User-agent记录说明有多个robot会受到\robots.txt\的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在\robots.txt\文件中,\User-agent:*\这样的记录只能有一条。

360搜索支持user-agent命令,包括使用通配符的user-agent命令。

2、Disallow命令指定不建议收录的文件、目录。

Disallow值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。

3、Allow命令指定建议收录的文件、目录。

Allow值用于描述希望被访问的一组URL,它的值也可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。

User-agent: * 这里的*代表所有的搜索引擎种类,*是一个通配符,*也可以替换成其他的蜘蛛名称,例如:Googlebot、yisouspider,表示屏蔽特定搜索引擎的蜘蛛

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以\.htm\为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以\.htm\为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图,告诉爬虫这个页面是网站地图

了解了robot.txt是什么后相信大家也可以在日常工作中很好的利用。不过还有一些注意事项是需要大家引起重视的,以免出现错误。

TAG: