百度搜索引擎的工作原理

2019年11月17日17:34:01 评论 328

如果只熟悉搜索引擎,却不知道搜索引擎的工作原理,那就不是真正认识搜索引擎。掌握搜索引擎工作原理的相关内容,其重要程度不亚于上面提到的问题。

百度搜索引擎
搜索引擎远不像想象的那样简单。每一条搜索结果从产生到被搜索引擎展现给计算机用户,都需要经过爬行和索引、检索和排名、评估网页内容这三个过程。下面对这些过程分别进行介绍。

一、爬行和索引
搜索引擎的爬行和索引,就好像我们选择食物。例如,想吃海鲜,需要有已经抓来的海鲜可供食用,这可以理解为爬行。其次每个人会选择不同的海鲜,需要用户挑选,为了方便挑选,提取了一些关键字,这就是索引了。同样地,搜索引擎在完成爬行和索引这一系列工作的过程中,也需要完成类似的工作。但是,它们这个抓取的执行者是一种被称为“蜘蛛”的程序。不要上当,此“蜘蛛”非彼蜘蛛也。下面介绍搜索引擎蜘蛛及其相关内容。
1. 什么是搜索引擎蜘蛛
关于搜索引擎蜘蛛,需要通过几个概念来了解它。
首先,搜索引擎蜘蛛可以归类为程序的一种,是搜索引擎的一个自动应用程序。程序形式通过模仿蜘蛛织网后的爬行、遍历爬行而展开。其次,通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。搜索引擎的计算过程会参考某个网站在历史中的表现,比如内容是否足够优质,是否存在对用户不友好的设置(例如采用“欺骗”手段,将用户转移到其他网页),是否存在过度的搜索引擎优化行为等。爬行和抓取是搜索引擎工作的第一步,它完成真正意义上的数据收集任务。
下面,认识爬行与遍历爬行。爬行是搜索引擎的一种行为,遍历爬行是搜索引擎的一种爬行方法。通过遍历爬行,实现蜘蛛在网上遍历的目的。

2. 过程:爬行和索引
我们去一个目的地,需要通过走路或者坐车等方式。同理,蜘蛛从一个网站去往另一个网站,这就是爬行。如果想知道蜘蛛,可通过代码发现。方法是在日志文件中搜索“spider”这个词,如果搜索到下列内容,说明有蜘蛛在网站爬行。
⑴ google 蜘蛛:googlebot。
⑵ 百度蜘蛛:baiduspider。
⑶ yahoo蜘蛛:slurp。
⑷ soso 蜘蛛:sosospider。
⑸ msn 蜘蛛:msnbot。
⑹ 有道蜘蛛:YodaoBot 和 OutfoxBot。
⑺ 搜狗蜘蛛:sougouspider。

下面认识索引,它和爬行最大的区别就是,索引不是一个特定URL,而是页面中的很多个URL。假如,蜘蛛爬行过程中抓取的网页若有重复内容,将不会被重复索引。
3. 如何进行抓取
蜘蛛先抓取内容,然后再根据抓取的内容予以索引,这是蜘蛛工作的意义。网站更新后,产生了新的内容。这时,搜索引擎蜘蛛会通过互联网中某个指向该页面的链接进行访问和抓取,如果没有设置任何外部链接指向网站中的新增内容,蜘蛛将不会给予抓取处理。因此,及时更新网站的内容和有较广泛的外部链接非常重要。把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。举例说明,我们可以把搜索引擎蜘蛛当作一个用户,这个用户来访问我们的网站,然后再把我们网站的内容保存到自己的电脑上!

二、检索和排名
在检索和排名这一阶段,需要完成过滤和建立索引的工作,具体内容包括以下几方面。
1. 过滤
如果说,所谓的蜘蛛爬行是“撒网捕鱼”,那么接下来我们需要做的就是,将捕上来的东西进行归类,因为在网里的不一定都是能吃的鱼,也有可能是废渣(如一些明显的欺骗用户的网页、死链接、空白内容页面等),这就又是一项浩大的工程。其实,对于搜索引擎来说,它的过滤工作就是处理搜索引擎蜘蛛抓取回来的网页,我们可将其看作类似的“过滤网”。
2. 建立索引
所谓的建立索引,是搜索引擎对网页的tagtitle、metadescripiton、网页外链及描述、抓取记录等添加标记的行为。这个过程中,还将对网页中的关键词信息进行识别和储存,这样做的目的在于匹配用户可能会搜索的内容。
3. 输出结果

搜索引擎通过分析用户输入的关键词,参照得出的结果,在索引的结果中,查找出用户需要的网页。然后,把用户需要的内容,以一定的方式展示出来,也是最终搜索引擎花如此多的时间的目的。下图所示内容就是用百度搜索引擎搜索“计算机”一词之后,所给出的结果。

三、评估网页内容
放在互联网上的一个网站,需要有好的网页质量,才能被更多的用户浏览。怎样的网页才是搜索引擎认为好的,用户认为好的?搜索引擎和用户对评估网页有各自的标准。下面分别进行介绍。
1. 搜索引擎评估网页内容
搜索引擎对网页中的内容给予不同的权重。但是,想要获得高权重,内容的质量一定得经得住搜索引擎爬取过程中的分析,最终搜索引擎才会决定是否给予页面高权重。分析页面内容,搜索引擎会从以下几方面考虑。
⑴ 页面内容与查询的语义关系是否匹配
用户进行查询时会输入关键词,搜索引擎通过这些输入的内容,来判断该内容是否可以出现在用户的查询结果中。搜索引擎通过分析页面中的词、词组,来掌握页面的内容,并建立相互之间的关系,从而掌握页面内容是否与用户的查询有关系。
⑵ 通过判断内容的价值

搜索引擎用于爬取页面的蜘蛛,会忽略代码里的很多内容,但是蜘蛛最感兴趣的却是代码里的文字内容。所以,页面的文字部分,是比较容易讨得搜索引擎喜欢的东西。下图所示的是网页的源代码,蜘蛛对于框选的文字,会比其他代码更有兴趣。

2. 用户评估网页内容
用户会根据搜索结果是否能够帮助找到想要的信息,来评价网页的内容。这里将用户的评估标准总结为如下几部分。
⑴ 相关性
相关性是指网页的内容与用户的搜索相匹配。例如,用户想知道“阈”字怎么发音,通过搜索,搜索引擎会给出搜索结果。如左下图和右下图所示,都是用户能够获取的结果,但很明显右下图的相关性没有左下图的高。

weinxin
欢迎加营销微信群
微信扫一扫,免费领取一份网络营销干货!
广告也精彩

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: