robots协议如何正确的书写
SEO基础建站教程精华版将要接近尾声,我们还需要学习一个非常重要的设置,就是robosts协议的书写。当百度蜘蛛在爬取网站的时候,会先搜索读取网站根目录下的 robosts.txt 文件内容,按照上面的说明,有规矩的抓取网站的内容,这里先声明一个事实,并不是所有的搜索引擎都会遵守robosts协议,如果你网站部分信息非常的关键,建议大家可以直接屏蔽掉少数不常用的搜索引擎。下面就详细讲解一下robosts协议如何书写。
一、robosts协议注意事项
robots协议一般都是通过记事本的方式去书写的,书写格式有特定一些英文词汇,这里要非常注意几个问题。
第一:注意英文的大小写,绝对不能出错。
第二:注意输入法的切换,标点符号,一定都要使用英文的符号。
第三:书写完一条规则,要记得换行,一行一条。
robosts文件中任何一条出现以上错误,这一条协议规则就不会生效,这点要格外注意,以免酿成不必要的后果。
二、robosts协议格式词汇解析
User-agent:——用户代理,定义搜索引擎类型,该词汇只用于描述搜索引擎 robosts 的名字。
Disallow:——不希望被访问的一组URL,定义禁止抓取收录该地址。
Allow:——希望被访问的一组URL,定义允许抓取收录该地址。
robosts协议中使用特定符号
*——使用它可以代替该路径的字母,后面加* 就是这个文件拒绝,一般用于动态路径
$——结束符,在这里进行终结,一般用于动态路径。
读到这里,有些同学有了解一些robosts协议,书写的规则更是五花八门,然后把自己都绕糊涂了,也不知道自己书写的规则能不能生效,其实也没有复杂的,下面我们就详细的讲解一下。
我们都知道百度蜘蛛来抓取网站的内容,是根据网站的 URL链接来顺着爬取的。私塾班里面详细的讲解到,有关 URL路径的优化规则,在网站优化到中后期,起到了非常重要作用。URL路径可以分为三种:静态路径、动态路径、伪静态路径。有些程序 URL路径是静态的,有些程序 URL是动态路径。我们也可以通过一个简单的设置,将动态路径改为静态路径,这种设置叫做伪静态。
三、那什么是动态路径,什么是动态路径?
动态路径是通过函数(? ¥ = & ),字母,数字组成的链接(如下图),关于动态路径的作用大家可以自行百度。
例如:http://seo200.cn/?p=123
静态 URL路径是有 “/”组成的链接叫做静态路径,到单页面以 .html结尾,关于静态路径优化网站的好处大家可以自行百度,这里就不多做介绍了。
例如:http://seo200.cn/jianzhan/140.htlm
URL路径大家都清楚了,路径是从首页到单页面,robosts协议也是要根据路径的抓取规则来书写。
robosts协议的书写规则
1.屏蔽搜索引擎
User-agent:* (屏蔽所有的搜索引擎)
User-agent:Baiduspider (屏蔽百度搜索引擎)
这里要选择书写各个搜索引擎蜘蛛的英文全称,主要大小写以官方为准。
2.静态路径robosts书写
举个例子:http://seo200.cn/jianzhan/dedejz/151.html,在这个URL链接有两个目录:建站 》织梦建站》文章,那如果我想屏蔽掉这篇文章不要被搜索引擎抓取,robots
Disallow:/jianjian/dedejz/151.html(允许抓抓取 jianzhan;dedejz栏目页面内容,不允许抓取151.html 这一篇文章)
Disallow:/jianjian/dedejz/(允许抓取 jianzhan;dedejz栏目页面内容,不允许抓取 dedejz 目录下所有文章)
Disallow:/jianjian/dedejz(允许抓取 jianzhan栏目页面内容,不允许抓取dedecms栏目的内容)
Disallow:/jianjian/(允许抓取 jianzhan栏目页面,不允许抓取 jianjian以下的所有内容)
Disallow:/jianjian(不允许抓取 jianzhan栏目页面,不允许抓取jianzhan以下的所有内容)
Disallow 和Allow一般是搭配结合书写
Disallow:/jianjian/dedejz
Allow:/jianjian/dedejz/151.html(允许抓取 jianzhan栏目页面,不允许抓取dedecms栏目页面,又允许抓取151.html这篇文章)
Disallow:/jianjian
Allow:/jianjian/dedejz(不允许抓取 jianzhan的内容,允许抓取dedej栏目这个页面)
Disallow:/jianjian
Allow:/jianjian/dedejz/(不允许jianzhan栏目内容,允许抓取dedejz栏目下的所有文章)
大家试着慢慢去体会一下格式的含义的重要性,这里我为让大家更好的理解我是小范围往大范围书写的,你们在书写范围值一定要从大到小排列去书写。
3.动态路径robosts书写
Disallow: /*.css$
Disallow: /*jpg.$ (屏蔽js和css书写格式)
你的动态链接是这样子,http://www.jiixangseo.com/?cat=1
Disallow: /?*
你的动态链接是这样子,http://www.jiixangseo.com/goods.php?id=284
Disallow: /*?*
动态路径是非常有局限性的,robosts协议书写可以试着寻找一下动态链接的规则,在适当的字母或者函数,用“*”来代替。这里还是建议大家使用静态路径,大家快去根据自己网站内容,去书写robosts协议吧。