18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 搜索引擎抓取网页原理学习笔记

搜索引擎抓取网页原理学习笔记

时间:2023-03-08 00:38:01 | 来源:电子商务

时间:2023-03-08 00:38:01 来源:电子商务

做正规seo技术必会的搜索引擎抓取网页原理应该是很复杂的。可以写洋洋洒洒的长篇论文。这里就将我自己学习到的网页抓取原理记录一下。笔记应该不够完整只将重要过程做个介绍

首先抓取页面的工作需要分配个搜索引擎蜘蛛。也就是机器人了。每个搜索引擎都有大量的蜘蛛供其差遣。在如今这个信息更新极快得年代每个蜘蛛都不会闲着。搜索引擎给每只蜘蛛分配了大量网址。确保大家的工作不重复。每个网址有且只有固定的蜘蛛负责爬行

当蜘蛛领取了任务来到目标网站时候会有两种策略来爬行。分别为深度优先和广度优先

深度优先是一路走到底。发现一个链接就爬向它。好比下图的红色数字顺序。来到电脑页。看到第一个链接是台式电脑就进入台式机网页。该页第一个链接是戴尔台式机那么继续进入该网页。这时候戴尔台式机网页没了链接就返回到台式电脑页面去爬行第二个链接联想台式机

这样的爬行缺点是不能按照重要顺序来收录网页。台式电脑笔记本电脑平板电脑都属于栏目重要性和更新频率应该远大于戴尔台式机等等。因此需要优先爬行栏目。

所以广度优先成了搜索引擎收录的主要策略。即来到电脑首页后发现了三个连接,先将后两个链接存入工作任务表里,然后对第一个是台式机页收录内容。并将其中的子链接比如戴尔台式机和联想台式机地址记录下来也保存到工作计划表里计划过会来抓。

处理完台式机栏目接下来进入笔记本电脑页。同样抓取内容后将其中链接保持在计划表里。最后来到平板电脑页收录里面内容再将链接存入表里

将栏目页全部收录完毕后就从计划表里抽出之前存入的地址。这里是依次是戴尔台式机联想台式机。惠普笔记本华硕笔记本和ipad。以此类推

如下图蓝色数字顺序

 

当然对于大多数网站来说每个页面都有相同的头尾,就是用于显示栏目和友情链接的位置,因此大量页面头尾相同指向一样的链接就会被蜘蛛忽略,这时候正文中的链接将成为其记录和爬行的目标

当然收录后的网页已经不是完整的页面。而是将其中内容抽取去重复无意义词等等之后的高质量内容,然后再将这些筛选后的内容添加到分析系统得出文章关键词等等

您转载本文那我真是受宠若惊,希望能保留原始地址:作为激励

,也欢迎您的评论!

关键词:原理,学习,笔记,索引

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭