天璐网络-10年专注网站建设,网络营销,品牌推广,软件开发等服务!
行业资讯
当前位置:首页 >> 营销知识 >> 行业资讯

robots.txt怎么写

2019年03月05日 来源:天璐网络 浏览:437

相信大部分人听了robots.txt文件都会一脸懵,没有听说过,也没有接触过。所以当需要用到的时候就开始慌乱,各种找案例去了解。下面文章内容就为大家简单介绍一下robots.txt怎么写,希望能够帮助到大家。

robots.txt怎么写

什么是robots.txt文件

我们从这个文件名来看,它是.txt后缀名的,大家也应该知道这是一个文本文件,也就是记事本。seo优化技巧搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。学习搜索引擎优化SEO,必须先了解什么是搜索引擎。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。robots,懂点英语的人应该都人士,是机器人的意思,对我们而言这个机器人代表的就是搜索引擎机器人,从名字上就可以猜到这个文件是我们专门写给蜘蛛看的。它的作用就是告诉蜘蛛,那些栏目或者是那些页面不需要抓取,当然也可以直接屏蔽掉某个蜘蛛的访问。注意,这个文件是放在网站根目录下的,这样才能保证蜘蛛可以在第一时间读取文件内容。

robots文件的作用

其实robots文件最常被我们用到的就是屏蔽网站内的死链接。大家应该知道一个网站死链接多了会影响网站的权重。但是网站死链接清理虽然说不上是麻烦,还是需要花上不少时间的,特别是如果站内死链接较多的情况下,清理起来很费劲,这时候robots文件的用处就体现出来了,我们可以直接将这些死链接按照格式写入文件中阻止蜘蛛抓取,想清理的或以后在慢慢清理。有些网站内容中包含一些站长不想让蜘蛛抓取的url或文件,也可以直接屏蔽。对于屏蔽蜘蛛,用到的一般都比较少。

robots.txt怎么写

这一点应该是比较重要的了。如果写错了想屏蔽的没成功,想被抓取的却写进去自己不能及时发现可就亏大了。首先我们要知道两个标签,Allow和Disallow,一个是允许,一个是不允许,它的作用相比大家也都能理解。

User-agent: *

Disallow:

或者

User-agent: *

Allow:

这两段内容表示的都是允许抓取所有,实际上屏蔽url和文件用到的是Disallow标签,除非你的网站只有几条想要被抓取采用Allow标签。这个User-agent:后面跟的就是蜘蛛名称,大家对主流的搜索引擎蜘蛛名称应该比较熟悉。下面以搜搜蜘蛛为例:Sosospider。

当我们想屏蔽搜搜蜘蛛的时候:

User-agent: sosospider

Disallow: /

大家可以发现这个屏蔽蜘蛛跟上面允许相比只是多了一个“/”,其含义就起了翻天覆地的变化,所以在书写的时候要千万注意,可不能因为多写个斜杠屏蔽了蜘蛛自己却不知道。网站SEO包含站外SEO和站内SEO两方面;SEO是指为了从搜索引擎中获得更多的免费流量,从网站结构、内容建设方案、用户互动传播、页面等角度进行合理规划,使网站更适合搜索引擎的索引原则的行为;使网站更适合搜索引擎的索引原则又被称为对搜索引擎优化,对搜索引擎优化不仅能够提高SEO的效果,还会使搜索引擎中显示的网站相关信息对用户来说更具有吸引力。网站SEO搜索引擎优化是一种利用搜索引擎的搜索规则来提高目前网站在有关搜索引擎内的自然排名的方式。SEO的目的理解是:为网站提供生态式的自我营销解决方案,让网站在行业内占据领先地位,从而获得品牌收益。还有就是在user-agent:后边不屑固定蜘蛛名称跟的如果是“*”表示是针对所有蜘蛛的。

禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下:

User-agent: *

Disallow: /目录/

注意,这里如果是阻止抓取某目录的话目录名字一定要注意“/”,不带“/”表示的是阻止访问这个目录页面和目录下的页面,而带上“/”则表示进阻止目录下的内容页面,这两点要分清楚。如果是想屏蔽多个目录就需要采用

User-agent: *

Disallow: /目录1/

Disallow: /目录2/

这样的形式,不能采用 /目录1/目录2/ 这样的形式。

如果是阻止蜘蛛访问某一类型的文件,例如阻止抓取.jpg格式的图片可以设置成:

User-agent: *

Disallow: .jpg$

了解了robots.txt怎么写后,相信大家对此也不再陌生。当我们在平时的工作中遇到类似的问题,大家就可以通过自己的了解去进行针对性的解决。

TAG: