Robots.txt要怎么写 Robots.txt的写法问题

  • 6,103 views

Robots.txt要怎么写 阐述Robots.txt的写法问题

今天发现公司网站一个用来测试的站竟然被大量收录,而我们的本意是不希望其被收录的,因为之前那是程序用来测试的,不用优化所以也就没告诉我,现在我发现了,而且是测试过后就将很多数据删除了,这会影响到主站,因为测试的是一个主站的耳机域名,绑定是一个二级目录。于是我着手针对此站写了一个robots协议:

User-agent: *
Disallow: /

Robots.txt要怎么写 阐述Robots.txt的写法问题

当然,robots协议并非是上面写的那么简单,上面是告诉任何搜索引擎不要收录的我网站内容而已,而很多情况下我们是不会这么做的,只是不希望某一部分不被收录和建立索引而已!那么,就牵扯到了robots.txt的写法问题,这里就借助王发利博客一起来看看robots协议的一些具体写法!

定义:什么是robots?

Robots.txt是一个文件,是用来告诉搜索引擎那些网页可以收录,那些不可以,是规范搜索引擎蜘蛛在索引网站时的索引范围。更好地保护那些我们不想被别人看见的隐私,私密文件! 这个很重要哦,看看曾经有人还为此打官司了,详文见《Robots协议案:百度败诉于360 法院判为自由竞争》!

Robots.txt文件建立注意事项:

1. 文件必须放在网站根目录下。

2. 文件名称必须全部用小写。

3. 即使你允许全部的网站内容均可被抓取,建议还是建一个空的robots文件最好。

4. Robots.txt虽然禁止了收录,但是有时候还是会出现在搜索结果中,比如非常热门和用户急需的某些信息,如果要完全禁止,建议写 Meta Robotx属性。例如:

<meta name="robots" content="index,follow">;
<meta name="robots" content="noindex,follow">;
<meta name="robots" content="index,nofollow">;
<meta name="robots" content="noindex,nofollow">;
怎么使用Robots Meta标签?

当content需要包含多个属性的时候需要用英文逗号隔离,注意同种属性正反两个方面(例如:index与noindex)不能同时出现在content之中。

通常content属性里面的包含的标签有:

NOINDEX -不索引当前页面

NOFOLLOW -不跟踪当前页面中所有的链接

NOARCHIVE -在搜索结果中不保存当前页面的快照

NOSNIPPET - 在搜索结果中不采用当前页面的头部描述信息,且不保存当前页面的快照

NOODP -搜索结果中不使用

DMOZ中的描述信息,Yahoo、MSN也支持此类标签。

NONE -不索引当前页面以及其中的所有链接,跟“NOINDEX, NOFOLLOW” 含义相同

5. Robots只是一种规则,需要搜索引擎的配合。如若搜索引擎不遵守则无意义。

Robots.txt标准写法例举:

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 允许所有的robot访问网站的任何部分

User-agent: *

Disallow:

例3. 禁止spider访问特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /data/

注意事项:1.三个目录要分别写。2.请注意最后要带斜杠。3.带斜杠与不带斜杠的区别 (带斜杠/ 表示禁止某个目录下的所有文件被索引,不带斜杠/表示只禁止该该目录,如不带斜杠时wangfali.com/marketing-news 会不被收录,但是wangfali.com/marketing-news/3608.html 还是会正常收录)

例4. 允许访问特定目录中的部分url

假如王发利博客只需要seo-course目录下的3491.html允许访问即可,那就写:

User-agent: *

Allow: /seo-course/3491.html

Disallow: /seo-course/

注意事项:允许收录优先级要高于禁止收录。Disallow: /a/ 必须写在 Allow: /seo-course/3491.html 之后。其他目录以此类推,只需要将seo-course和3491替换成自己对于的目录和url即可!

例5. 通配符的使用例举,通配符包括("$" 结束符;"*"任意符)

User-agent: *

Disallow: /*?* (?表示含动态的url)

例6. 禁止搜索引擎抓取网站上所有图片

User-agent: *

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

如果还有其他文件格式,照着加上即可,具体情况具体分析,掌握这些语法规则以及通配符的使用大多数情况是可以帮你解决问题的!

例7. 仅禁止某一个搜索引擎蜘蛛的访问例举

——禁止百度访问您的网站:

User-agent: Baiduspider

Disallow: /

——禁止谷歌访问您的网站:

User-agent: Googlebot

Disallow: /

注意事项:这里只是将User-agent: * 中的星号 * 换成了具体的搜索引擎蜘蛛名称,*代表任意!其规则是:

User-agent: 蜘蛛名称

Disallow: /不允许访问的部分

allow: /允许访问的部分

常识补充:常见的搜索引擎蜘蛛名称:

百度:Baiduspider ;Vista:Scooter ; Alexa:ia_archiver ;谷歌:Googlebot ; Fast:FAST-WebCrawler ; Msn:MSNBOT ; 360:360Spider ; 搜狗:Sogou News Spider ; SOSO:Sosospider ; 必应:bingbot ; 雅虎:“Yahoo! Slurp China”或者Yahoo! ; 有道:YoudaoBot,YodaoBot ; 即刻:JikeSpider 等!还要一些其他的一般用不到,如需要自己去查询了,这里就不再赘述了!

本文综述:对于Robots.txt要怎么写以及Robots.txt的写法问题就到此为止吧!更加详细的内容你还可以去看看百度官方的解释:http://help.baidu.com/question?prod_en=search&;class=499 不管你是否知道这个robots.txt 是什么意思,robots.txt怎么写都没关系,本文也许可以帮您解惑,还要就是实在自己懒得写可以百度一下robots在线生成,网上有很多生成工具!

weinxin
我的微信
分享SEO优化、SEM营销、新媒体知识,交流营销运营经验,提供网站制作、SEO、竞价托管和公众号代运营服务。
王发利
  • 本文由 发表于 2014 年 9 月 10 日
  • 转载请务必保留本文链接:http://wangfali.com/seo/3838.html
如何进入暗网,看百度暗网抓取技术浅析 SEO知识

如何进入暗网,看百度暗网抓取技术浅析

如何进入暗网,看百度暗网抓取技术浅析 暗网,按照网络上的说就是那些深藏于表面网络的隐藏网络,一般暗网的数据量要比表面网络大好几个数量级,特点是深藏于网络数据库当中,一般不能通过超链接直接访问,而需要动...
搜索引擎自然排名机制概述 SEO知识

搜索引擎自然排名机制概述

我们的网站为什么会在百度上能搜索到,百度是怎么抓取我们的网站内容的,网站为什么有以搜索结果的形式展现出来,下面借助王发利SEO博客分享搜索引擎自然排名机制,让你明白网站为什么会出现在搜索结果页。 搜索...
百度抓取诊断工具:SEO又一利器 互联网资讯

百度抓取诊断工具:SEO又一利器

百度抓取诊断工具:SEO又一利器 2014.3.11日站长平台发布网站网页的抓取诊断工具,想必大家都知道了。个人感觉不错啊,对于那些需要重点优化的页面可以做一个检测,对于定时检测自己的网站是否被加了黒...
蜘蛛陷阱是什么? SEO知识

蜘蛛陷阱是什么?

蜘蛛陷阱是什么? 有一些网站设计技术对搜索引擎来说是很不友好的,不利于蜘蛛爬行和抓取,这些技术被就称为蜘蛛陷阱。在从事西安SEO优化中根据SEO经验列举以下8大蜘蛛陷阱: 1.flash。 搜索引擎不...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:9   其中:访客  9   博主  0
    • 友崎亚希 友崎亚希 0

      [天然呆]18岁以下禁止围观→ http://sebi.club

      • 群伟伟博客 群伟伟博客 1

        不错不错,作者辛苦了,感谢分享,如果大家还没看够也不要紧,可以到我博客看看,绝对让你看个够!!! <img src="” />

        • 唐江财哥 唐江财哥 0

          学习学习了,长见识了!呵呵

          • 易晓曦 易晓曦 5

            不错,基本都全面了

            • pptv官方下载 www.ipptvs.com pptv官方下载 www.ipptvs.com 3

              学习了 robots设置需要注意 别设置错了 把蜘蛛给拦截了

              • 泪风SEO www.968068.com 泪风SEO www.968068.com 1

                学习了,今天刚建一个新站!

                • 黄艺强博客 黄艺强博客 0

                  robots.txt设置要注意下,我当初就是设置不对,一直苦等收录哈