为什么要有robots协定robots协定写法Robots协定的检查Robots协定书写留神事项
说到robots咱们先看一个例子:
 
说到百度跟 淘宝,不得不提一件事,2008年,马云做了个异样霸气的决议,那就是淘宝在robots.txt协定中屏蔽百度蜘蛛的抓取,这也就是为什么淘宝店铺无奈通过百度搜寻引起取得流量的起因,对此马云的说明是百度带来的流量都是垃圾流量,不转化率,不外真的是这样的吗?
 
百度在2008年很高调的推出了百度有啊购物平台,破志成为最好的电商平台,成了淘宝的直接对手,面对如此强盛的对手,马云必需在其扩展之前毁灭他,屏蔽百度收录淘宝能够导致花费者在购物之前不会在百度中搜寻产品类名称,比方牛仔裤、休闲裤、连衣裙等,由于淘宝已经强盛到让花费者把淘宝跟 网购这两个词等同的田地,当用户不再百度上面搜寻产品名称,那么百度就将失去网购这块市场。事实证实马云的这招很胜利,让百度失去了网购市场,战胜了百度有啊,百度有啊未几就濒临封闭状况了。
 
淘宝的robots协定:
 
User-agent: BaiduspiderDisallow: /
User-agent: baiduspider
Disallow: /
百度百科对robots的定义:Robots协定(也称为爬虫协定、机器人协定等)的全称是“网络爬虫消除尺度”(Robots Exclusion Protocol),网站通过Robots协定告知搜寻引擎哪些页面能够抓取,哪些页面不能抓取。简略来说就是网站跟 搜寻引擎签订的一个协定,协定里面的路径不要抓取收录。
 
为什么要有robots协定
Robots协定也就是robots.txt文本文件,当一个搜寻蜘蛛拜访一个站点时,它会首先检查该站点根目录下是否存在robots.txt。假如存在,搜寻爬虫就会依照该文件中的内容来断定拜访的范畴;假如robots.txt文件不存在,搜寻爬虫将会抓取网站上所有不被口令维护的页面。
 
网站里面有低品质、死链接内容这样的倡议屏蔽,百度假如抓取你的好多低品质页面会拉低网站的品质下降权重影响搜寻引擎对你网站的印象,比方男女开端谈对象都会把不好的一面藏起来,还有网站后盾会员隐衷个别都屏蔽。
 
robots协定写法
User-agent:该项的值用于描写搜寻引擎robot的名字。在"robots.txt"文件中,假如有多条User-agent记载,解释有多个robot会受到"robots.txt"的限度,对该文件来说,至少要有一条User-agent记载。假如该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记载只能有一条。
 
Disallow:该项的值用于描写不盼望被拜访的一组URL,这个值能够是一条完全的路径,也能够是路径的非空前缀,以Disallow项的值开头的URL不会被 robot拜访。
 
Allow:该项的值用于描写盼望被拜访的一组URL,与Disallow项类似,这个值能够是一条完全的路径,也能够是路径的前缀,以Allow项的值开头的URL 是容许robot拜访的。
 
"*" 通配符,匹配0或多个任意字符。
 
"$"匹配行停止符。
 
Sitemap 网站舆图路径
 
百度会严厉遵照robots的相干协定,请留神辨别你不想被抓取或收录的目录的大小写,百度会对robots中所写的文件跟 你不想被抓取跟 收录的目录做准确匹配,否则robots协定无奈生效。
 
举例解释
 
例1:制止所有搜寻引擎拜访网站的任何局部
 
User-agent: *
 
Disallow: /
 
例2:容许所有的蜘蛛拜访网站任何局部你也能够树立一个空文件robots.txt
 
User-agent: *
 
Allow: /
 
例3:只制止某一个蜘蛛拜访你的网站
 
User-agent: Baiduspider
 
Disallow: /
 
例4:只容许某一个蜘蛛拜访你的网站
 
User-agent: Baiduspider
 
Allow: /
 
User-agent: *
 
Disallow: /
 
例6:制止蜘蛛抓取特定的路径
 
User-agent: *
 
Disallow: /aaa/              制止所有蜘蛛拜访"aaa"路径下的文件
 
Disallow: /bbb/             制止所有蜘蛛拜访"bbb"路径下的文件
 
Disallow: /aaa/ccc/       制止所有蜘蛛拜访"aaa"下面的ccc路径
 
Disallow: /aaa/*.html    制止拜访aaa路径下的所有带.html为后缀的路径
 
Disallow: /*?*                 制止拜访网站中所有的带问号路径即动态页面
 
Disallow: /*?$                 制止拜访网站以问号结尾的任何路径
 
Disallow: /*.php$          制止拜访以.php为结尾的任何路径
 
例7:仅容许拜访某个特定的路径
 
User-agent: *
 
Disallow: /
 
Allow: /*.html              只容许拜访网站以 .html 为后缀的路径
 
例8:制止抓取某种格局图片
 
User-agent: *
 
Disallow: /*.jpg$
 
Disallow: /*.gif$
 
Disallow: /*.png$
 
Robots协定的检查
网站的robots协定是一个txt文本文件,robots.txt文件写好后要放到网站的根目录,能够通过拜访路径:你的域名/robots.txt来检查准确性,能够在百度的站长平台检查协定准确与否,同时把网站舆图路径加进去最好,有利于蜘蛛爬去跟 收录你的网页。
 
 
Robots协定书写留神事项
robots协定里的面首字母要大写,字母后面的冒号必需是英文状况;
冒号后面"/"之前还有空格,在"/"后面假如只是屏蔽某个特定路径,千万不要再有空格,否则搜寻引擎就会以为你是屏蔽全部网站。
假如你盼望搜寻引擎收录网站上所有内容,请勿树立robots.txt文件。
这里差别一下“Disallow: /aaa/'跟 "Disallow: /aaa",前者这是屏蔽了aaa后面的路径不被蜘蛛抓取到,而后者则表现连同aaa这个路径也被屏蔽掉。
 
织梦的默认写法:
 
User-agent: *Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.phpDisallow: /plus/car.php
Disallow: /plus/carbuyaction.phpDisallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.phpDisallow: /plus/posttocar.php
Disallow: /plus/disdls.phpDisallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.phpDisallow: /plus/rss.php
Disallow: /plus/search.phpDisallow: /plus/recommend.php
Disallow: /plus/stow.phpDisallow: /plus/count.php
Disallow: /includeDisallow: /templets