18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 建站知识 > 我们为什么需要robots在线制作

我们为什么需要robots在线制作

时间:2022-07-05 14:57:01 | 来源:建站知识

时间:2022-07-05 14:57:01 来源:建站知识

最近看到我拉网(55.la)主页上新增了一个在线制作robots的功能,用户打开robots.55.la后,把不允许被搜索引擎访问的部分输入到Disallow: 后,点击“生成robots.txt文件”,便能立即生成。这是一个实用快捷的站长工具。

也许很多站长对robots.txt已经很熟悉了,但对于一些新人来说,它或许有些模糊,下面我就来说说有关robots的一些相关内容。

1、什么是robots?它的作用?

搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。

可以在你的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。其实也就是通过robots.txt可以控制SE收录内容,告诉蜘蛛哪些文件和目录可以收录,哪些不可以收录。

2、为什么要设置robots.txt?

恰当地设置robots.txt,可以更好地维护Web 服务器,提高网站的综合性能。

①相关研究表明,如果网站采用了自定义的404错误页面,那么Spider将会把其视作robots.txt——虽然其并非一个纯粹的文本文件——这将给Spider索引网站带来很大的困扰,影响搜索引擎对网站页面的收录。

②robots.txt可以制止不必要的搜索引擎占用服务器的宝贵带宽,如image strippers,对于大多数非图形类网站来说其也没有太大意义,但却耗用大量带宽。

③robots.txt可以制止搜索引擎对非公开页面的爬行与索引。

④对于内容丰富、页面数量较多的网站来说,配置robots.txt可以阻止洪水般的Spider访问,如果不加控制,甚至会影响网站的正常访问。

从SEO的角度,robots.txt文件是一定要设置的,原因:

①网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。

②网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。

③一些没有关键词的页面,屏蔽掉更好。

④一般情况下,站内的搜索结果页面屏蔽掉更好。

3、几种情况需要注意:

①robots.txt应用小写的,它的文件要放在网站根目录下。

举个例子,当robots访问一个网站(比如)时,搜索机器人(搜索蜘蛛)首先会检查该网站中是否存在. 55.la /robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

②Disallow:

该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html。

③任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,那说明该网站是开放的,所有的内容都可以被搜索机器人搜索到。

4、用几个最常见的情况,直接举例说明:

①允许所有SE收录本站:robots.txt为空就可以,什么都不要写。

②禁止所有SE收录网站的某些目录:

User-agent: *

Disallow: /目录名1/

Disallow: /目录名2/

Disallow: /目录名3/

③禁止某个SE收录本站,例如禁止百度:

User-agent: Baiduspider

Disallow: /

④禁止所有SE收录本站:

User-agent: *

Disallow: /

⑤加入sitemap.xml路径,例如:

Sitemap:

关键词:

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭