18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 建站知识 > Robots.txt的作用和使用方法

Robots.txt的作用和使用方法

时间:2022-08-06 10:12:01 | 来源:建站知识

时间:2022-08-06 10:12:01 来源:建站知识

一、Robots.txt的由来

Robots是一个网站和搜索引擎的第三方协议(早期用于隐私的保护)。

屏蔽解释:屏蔽是指不让搜索引擎放出来。百度生效会比较慢,好像就是一个老人,他已经是一个老年人了,他反映特别的慢,谷歌很快。谷歌只要你提交了,他马上抓取,24小时生效,你直接在谷歌站长管理工具里面看到屏蔽被拦截的页面。但百度不行,百度反映非常的慢。

百度经验:jingyan.baidu.com

二、Robots.txt的作用

我们的网站有很多不可抗拒性因素而导致我们的网页质量整体下降。

1、屏蔽一些无内容的页面。

登录页: /login_c.jsp

Disallow: /login_c.jsp

注册页:/register_p.jsp

Disallow: /register_p.jsp

留言页……【签到页/论坛的签到页面属于无内容页面】

这点在于不管我们的网站是论坛、商城、博客、企业站都好,现在这些页面都需要我们处理和操作的,我们只能屏蔽,不能删除。我们的目的就是为了能够实现某个功能便于用户找寻,更加好的理解我们网站。

比如我们搜索某一个词,他也会出现这样的内容。还有提示页面[搜索无结果页面]、错误页面、404页面(如果你做了的话)。你会发现我们要屏蔽的东西越来越多了。而这些东西我们都是要处理的。

2、屏蔽一些重复页面。

如评论页、dz论坛的简写版本(ative)、wordpress的RSS,这些重复的页面是我们需要进行处理的。有些重复页面是我们不得不去做的,这是没办法的事了。

3、屏蔽一些死链接页面。

我们只屏蔽那些带有普遍特征的页面。蜘蛛爬不到页面,就会显示一个404页面,就会形成死链接。

蜘蛛他爬不到并不意味着他抓取不到地址。

能否抓取到地址跟能否抓取到是2个概念。

抓取地址,我中需要一个提供地址的源头就行了。比如说我的一个页面里面,我不小心写错了一个地址,而这个超链接是不存在的,蜘蛛就会抓取不到,显示404代码,而死链接就出现了。(无中生有)

我们的网站页面原来是存在的,现在改版了,地址不存在了,而搜索引擎抓到了,现在抓不到了,而形成死链接。(原先有现在没了)

错误链接的比例达到一定程度的时候,搜索引擎就会认为你的网站不及格,给予你较低的评分,开始你的收录会下降,排名会下降。只要死链接的比例比较小,对网站的影响就不大,因为这个是无法避免的。

有的死链接是可以屏蔽的,有些死链接是不可能屏蔽的。

可以进行处理的死链接,是不需要屏蔽的。是由我们站内自己所造成的错误,我们是可以改正的。而有些不是我们造成的死链接,我们就要屏蔽,可以在IIS日志里面显示出来。

百度经验:jingyan.baidu.com

三、Robots.txt的使用

1、Robots.txt的建立

Robots.txt是一个记事本文件。

2、Robots.txt放在什么地方。

用flashFXP上传到根目录上面。

常规的根目录一般是wwwroot和web

3、常见的语法

User-agent定义搜索引擎爬取程序的(指定搜索引擎的爬取程序),他不能单独使用,要配合其它2个语法中的一个使用。

Disallow:/ 禁止允许

Allow: /

Allow要和Disallow一起使用。

常见的爬取程序

Baiduspider 百度蜘蛛谷歌机器人

Googlebot

User-agent:Baiduspider

Disallow:/admin/

我现在要指定百度搜索引擎不要抓取我的admin目录

如果robots.txt文件里面什么都没有写,那就代表着所有搜索引擎可以来抓取。默认的就是允许的。(冒号后面要有空格)

User-agent: Baiduspider

Disallow: /admin

指定百度搜索引擎不要来抓取我们的admin目录和含有以admin开头的网址。后面有斜杠的,会收录/admin.php因为这个是在根目录下的。

Allow:

他必须要和禁止一起使用的,一般来说是不会单独使用的,他和禁止语法一起使用的目的便于目录的屏蔽灵活的应用,最终的目的是为了减少代码的使用。

关键词:使用,方法,作用

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭