专注互联网营销推广
服务热线:0577-86997785

robots.txt用途及写法详解

原创2019-04-16 11:29温州网站排名
robots.txt是引导搜索引擎Spider收录网站的协议文件,合理地使用robots.txt可以防止网站内隐私页面被百度索引和公布,还可以屏蔽网站内不重要的页面抓取,只让搜索引擎抓取和收录能够带来流量和排名的网页。
seo

要不要使用robots.txt

只有在需要禁止抓取网页内容时,robots.txt才有价值,Robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题,robots文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这有可能使搜索引擎错误解读robots.txt文件信息,所以建议就算允许抓取所有内容,也要设置一个空的robots.txt文件,放在网站根目录。

robots.txt主要用途

一般来说可以使用robots.txt文件来屏蔽不想被搜索引擎抓取的页面,但是这些"不想被抓取的页面"有哪些,下面举几个简单的例子。
1.网站改版或因为某种原因删除了大量网页,众所周知,网站突然出现大量死链接对关键词排名是不利的。虽然现在可以直接向百度提交死链接,但是还不如直接屏蔽百度对死链接的抓取。
2.多版本URL的情况下,非主显URL的其他版本。比如网站链接伪静态后就不希望搜索引擎抓取动态路径了,这是就可以使用robots.txt屏蔽站内所有动态链接。
3.如果网站有大量的交叉组合查询所生成的页面,可定有大量页面是没有内容的,对于没有内容的空页面可以单独设置一个URL版本,然后使用robots.txt进行屏蔽,以防被搜索引擎判定为垃圾网页。
4.不想被搜索引擎索引的内容,比如隐私数据、用户信息、管理后台等都可以使用robots.txt进行屏蔽。

robots.txt详细写法

robots.txt文件由记录组成,记录之间以空行分开,格式如下:
<域>:<可选空格><域值><可选空格>
最简单的robots.txt文件:
User-agent: *
Disallow: /
上面这个robots文件禁止所有搜索引擎抓取任何内容
User-agent:指定下面的规则适用于哪个蜘蛛,通配符*代表所有搜索引擎,如需单独设置:
User-agent: Baiduspider   适用于百度蜘蛛
User-agent: Googlebot    适用于百度蜘蛛
Disallow:告诉蜘蛛不要抓取某些目录或文件,例如下面的代码将阻止所有蜘蛛抓取/images/和/about/两个目录下面的内容:
User-agent: *
Disallow: /images/
Disallow: /about/
Disallow:命令必须分开写,每个一行
下面的代码允许所有搜索引擎抓取所有内容
User-agent: *
Disallow: 
下面的代码禁止除百度以外其他搜索引擎抓取任何内容:
User-agent: Baiduspider
Disallow: 
User-agent: *
Disallow: /
主流搜索引擎都遵守robots文件协议,robots禁止抓取的内容搜索引擎将不会访问、不抓取。但要注意的是,只要有导入链接指向这个URL,被robots屏蔽的URL有可能展现在搜索结果中。
相关推荐
服务热线:0577-86997785 移动电话:131 5770 6995 公司地址:浙江省温州经济技术开发区滨海园区海汇中心3幢802

版权所有 © 2010-2020 温州雷特加网络科技有限公司ICP备案:浙ICP备18046138号-2

在线客服