18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 从搜索引擎蜘蛛访问日志 看蜘蛛访问规律

从搜索引擎蜘蛛访问日志 看蜘蛛访问规律

时间:2023-03-08 12:10:01 | 来源:电子商务

时间:2023-03-08 12:10:01 来源:电子商务

为了更好的观察网站被蜘蛛爬行的规律,我租用的服务器又没有提供访问日志,不得已,花了不少时间编写了一个基于PHP的专门分析蜘蛛爬行纪录的程序,经过三个月的对几个目标网站的观察,得出以下几个小经验给大家分享,当然,因研究有限,肯定有不足的或错误的地方,请大家不要向我扔砖头啊。

一、百度蜘蛛

这期间我上了两个新网站,发现,百度蜘蛛一般一到三天就可以爬行到首页,开始更新很猛,大约会持续两天到一个星期,三天后就可以在百度中site到首页,虽然百度蜘蛛爬行了上万个页面,但往往只会收录几个页面,两个星期之后,百度将每天只抓取一两次首页,其它页面很少抓取,这个过程会持续一段时间,长的是几个月,短的几天。但百度在这段时间里收录量会有所增加。这段时间 可能是考察期吧。在这段时间里,我的一个站被百度K了,蜘蛛也就不来了。过了这个时间段后,百度蜘蛛访问将趋于稳定,我有两个站百度每天都只来抓取200到300次,收录量变化不大。而我另一个站 shop.hhbmw.com 可能因为外链较多,百度蜘蛛来得相对较勤,近一个月来,每天来访2万到8万次左右,波动比较大,不过,site一下,百度收录量并不高,这可能要到下次百度大更新时才能反应结果。

百度蜘蛛访问目标网页时,会把URL中的汉字编码字符转换成汉字,(如 会变成 陆建军88/6c318ea2660bcc4b73b220e16edf96b3.htm ,即“%E9%99%86%E5%BB%BA%E5%86%9B88” 转换成了“陆建军88”),这样就会出现一个问题了,如果主机对中文URL支持不好,可能会影响百度的收录。

百度蜘蛛访问某个站点时,其访问也有一定的规律,不少都是按汉字的音序来访问的。

二、谷歌蜘蛛

谷歌蜘蛛对新网站发现的速度很快,但收录相对平稳,每天的抓取的页面数也比较稳定,PR越高,外链越多的网站更新越快。反之,GOOGLE PR低的网站更新较慢。

三、搜捭、搜狗、有道蜘蛛

更新比较快,但不太稳定,每天的访问波动也比较大,比百度更难捉摸,我有个站被搜搜和搜狗都K得只剩首页了。

四、雅虎、MSN

雅虎的更新快,但收录少,MSN的更新极慢。

对于robots.txt的支持,百度、谷歌、搜捭、搜狗、雅虎、MSN等的蜘蛛支持度比较好,对robots的Crawl-delay 语法也能很好的支持。

而有道蜘蛛基本上不理会robots.txt 的Crawl-delay 语法。

附今天的访问日志截图:

关键词:访问,蜘蛛,规律,日志,索引

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭