robots 是什么?

robots 是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果网站上没有 robots 文件,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots 文件的作用

robots 文件的作用就是告诉搜索引擎蜘蛛,整个网站中,哪些文件是需要访问,并需要抓取收录排名的,哪些文件是不需要访问的,也不需要抓取收录排名的,这样,我们的网站中,一些不需要排名的内容,就可以告诉搜索引擎不去访问和抓取收录排名

这里需要注意的是,如果robots文件中错误的命令禁止了搜索引擎抓取,这样会造成我们怎么优化,都不会有收录,以为,搜索引擎蜘蛛根本无法访问。因此,我们需要正确规范书写 robots 文件命令。

robots 文件命令的规范写法:

在电脑桌面中,我们新建一个txt文档,命名为:robots.txt

我们容许所有搜索引擎进行对网站文件的访问的规范写法:

User-agent: *

Disallow:

User-agent 中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

User-agent 在 robots 文件中是指搜索引擎的类型

* 符号是通配符,在 robots 文件中,写在 User-agent:之后的是指所有类型的搜索引擎,这里的类型就是指搜索引擎名称,比如,百度搜索引擎、谷歌搜索引擎、搜狗搜索引擎、360搜索引擎等等。

Disallow 在字典中是这样定义的“舍弃”(deny)这个词的拒绝,谢绝同意,不接受的意思,在网络中的意思就是告诉搜索引擎蜘蛛都有哪些文件不被抓取,也成为禁止抓取。

robots 文件在容许所有文件被抓取的时候,在 Disallow:之后不设置任何内容,意思就是不禁止任何文件,相反就是告诉搜索引擎,任何文件都可以抓取。

我们不容许所有搜索引擎访问网站

User-agent: *

Disallow: /

这样书写,就是告诉所有类型的搜索引擎不容许访问我们的网站。这样禁止搜索引擎之后,我们网站的所有内容都不会被搜索引擎蜘蛛爬行、抓取和收录,更无从谈起排名。因此,这样书写禁止命令是在网站全部内容不需要排名的情况下设置。

在 robots 文件中 User-agent: * 这样书写是通知所有类型的搜索引擎

robots 文件 Disallow: / 这样书写是禁止所有文件的意思,在这里的 / 意思是网站根目录下的所有文件。

我们需要某一个或某几个搜索引擎进行网站访问,其他搜索引擎不容许访问

User-agent: baiduspider

Disallow: User-agent: *Disallow: /

这两个语句,意思是容许百度搜索引擎抓取,禁止其他搜索引擎访问网站任何内容。

部分搜索引擎名称:

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

360蜘蛛:360Spider

SOSO蜘蛛:Sosospider

雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!

有道蜘蛛:YoudaoBot,YodaoBot

搜狗蜘蛛:Sogou News Spider

MSN蜘蛛:msnbot,msnbot-media(只见到msnbot-media在狂爬……)

必应蜘蛛:bingbot

一搜蜘蛛:YisouSpider

Alexa蜘蛛:ia_archiver

宜sou蜘蛛:EasouSpider

即刻蜘蛛:JikeSpider

一淘网蜘蛛:EtaoSpider

以上这些是列举了部分搜索引擎蜘蛛的名称,我们可以根据自己网站的特点和需要排名的搜索引擎来进行 robots 文件设置。或者容许某个,或者禁止某个蜘蛛来赚钱。

禁止搜索引擎蜘蛛访问某个文件

在很多情况下,我们网站有相当一部分内容是不希望搜索引擎蜘蛛来抓取的,这样我们就需要在 robots 文件命令中设置哪些文件是不容许所有搜索引擎蜘蛛进行爬去的文件,来防止不希望被访问的内容进行抓取。

比如我们在网站中的后台目录是不希望蜘蛛抓取的,那么我们就要进行对后台目录的设置,来禁止搜索引擎蜘蛛的访问。

比如在网站根目录下,后台文件名称为 dede 文件名,那么禁止命令就写:

Disallow: /dede/

如果我们写成 Disallow: /dede 这种含义是,只要是 dede这个文件名,包括这个文件夹下的所有文件将不容许访问。

如果我们需要搜索引擎蜘蛛不访问某个页面,那么我们只禁止某个页面就可以

Disallow: /dede/index.php

如果我们需要搜索引擎蜘蛛禁止访问某类型文件,那么写法是:

Disallow: /*.php*

这样就可以静止访问 .php后缀和含有 .php 后缀的所有页面。

robots 是什么

我们在网站上进行设置 robots 文件,目的就是为了告诉搜索引擎蜘蛛,在我们网站上面哪些内容是需要访问的,哪些内容是不需要访问的,这样,搜索引擎蜘蛛来到我们网站,首先访问的是网站的 robots 文件,然后根据robots 文件命令所容许的文件进行访问、抓取、收录和排名。这样是非常有利于我们网站为用户提供真正有价值的内容,而那些没有价值的辅助内容,就不用展现给用户。






作者:新疆SEO_老路 发布日期:2017-08-17 19:29 文章来源:老路整理编辑 阅读人数: