robots.txt写法,规范,作用

来源:百度文库 编辑:神马文学网 时间:2024/03/29 14:37:36

        Robots.txt是存放在网站根目录下的一个文件,通常情况下,搜索引擎会对所有的网站页面进行抓取分析,如果一个网站管理员不想让搜索引擎抓取一些页面,比如网站管理后台,网站次要目录或者涉及到不愿被搜索引擎抓取公开的内容等,则通过创建该文件来引导各大搜索引擎抓取。当搜索引擎抓取一个站点时,会首先检查其根目录下是否有robots.txt存在。如果存在,则会按照文件中所规定的抓取范围,若不存在,则会按照正常的方法进行抓取。

        首先是了解各大搜索引擎spider名称。

        Baiduspider[baidu]    Scooter[altavista]    ia_archiver[alexa]    Googlebot[google]    FAST-WebCrawler[alltheweb]     MSNBOT[MSN]

        SEO中国的robots.txt的写法:

        User-agent: *
        Disallow: /dir/admin/

        User-agent是指定搜索引擎robot的名字,即若针对baidu则会对应的值是Baiduspider,google对应的是Googlebot等。如果针对所有搜索引擎均有效,则保留为*值。

        Disallow是规定让搜索引擎忽略抓取的目录。例如,http://www.cn-seo.net/dir为SEO中国的分类目录地址,而其管理地址是对搜索引擎抓取没有任何意义的目录,则该例中,/dir/admin/为所有搜索引擎所禁止抓取。

        Disallow书写方法:默认从根目录出发,指定忽略的目录,末尾加上/
        指定多个目录:
        Disallow: /dir/admin/
        Disallow: /a/
        Disallow: /b/

        以上是针对网站目录抓取情况进行处理,如何进行单个文件处理呢?采用Robots Meta方法。

        和其他的meta,如description.keywords等相同,书写到之间

       
        SEO中国,搜索引擎优化,网站优化,网站SEO研究
       
       
       
       

        则规定了该页的抓取方法:正常抓取,顺序抓取。

        与之对应的是:"noindex,nofollow"。Robots则可以指定为各大单个搜索引擎spider名称。另外,Googlebot还制定了archive用于规定网页快照的保留与否。 article from: http://www.cn-seo.net/post/robots-txt.html