您的位置: 知识科普>搜索引擎的HITS算法原理分析
搜索引擎的HITS算法原理分析
发布时间:2019年2月24日 作者/来源:汉义云商

分析链接是常见的搜索引擎分析网页结构的一种方式,一般是搜索引擎根据相关的链接分析算法,然后对与网页相关的外链和内链进行详细的数据整理和分析,并且根据这些链接的特点,再对网页进行一个评分和排序,当就用户搜索某个关键词的时候,搜索引擎就会对与该关键词相关主题的网页中的这些链接进行一个合理分析,然后排序,最后就得到了排名的结构,在本文中,网站优化要跟大家讨论的主题是HITS,而HITS算法是链接分析算法中比较有代表性的一种。

HITS算法在应用中,一般都是利用HUB页(网页中很多链接,并且都是指向权威的页面,一般都是导航或者目录网页)和Authority(就是被大量链接指向的网页,也就是权威型的网页)页面之间指向链接的互相加强关系来对网页给予分值计算,也就是说该算法的实施过程中是将搜索引擎从互联网上抓去到全部网页分为HUB页面和Authority页面,在搜索引擎看来,好的Hub网页应该是指向很多的权威型的网页,而权威值高的网页应该是拥有很多指向Hub网页的链接,所以我们由此而得出了HITS算法的核心思想:

首先,我们知道HITS算法是基于主题查询的搜索引擎算法,所以当用户向搜索引擎提交主题查询时,搜索引擎根据用户的检索词进行关键词匹配查询,同时返回若干项与主题高度相关的网页集合S,在这些相关性的网页集合中,网页之间会有大量和网页相关的链接,所以此时搜索引擎算法HITS算法就根据网页上链接的特点将网页集合S进行拓展,即将集合网页上的链接,网页引用的链接,和被其他页面的引用的链接都加入到该集合中,形成一个新的集合T,同时我们对集合T的要求是:

1、T中都是和集合中网页相关的页面

2、T中的集合页面都要于主题高度相关

3、T中要包含大量的HUB页面和Authority页面

在了解了HITS算法的核心思想之后,我们需要了解的就是如何根据该算法所给出的思想进行计算网页集合中的网页的权重来对搜索结果进行排序,那么下面笔者通过http://www.dguo.cn这个网站的操作方式对HITS算法进行进一步的解剖:我们可以将拓展出来的网页集合T看做一个集合矩阵,同时将中的所有HUB网页看做为顶点集A,将集合中包含的所有权威型的网页看做是顶点集B,其中A中的网页到B中的网页的超链接为边集E,形成一个二分有向图SG=(A,B,E)。对HUB集合A中的任一个顶点a,用h(a)表示网页a的Hub值,对B中的顶点b,用a(b)表示网页的Authority值。开始时h(a)=a(b)=1,对b执行I操作修改它的a(b),对a执行O操作修改它的h(a),然后规范化a(b),h(a),如此不断的重复计算下面的操作I,O,直到a(b),h(a)收敛。(证明此算法收敛可见)

I操作:(1)   O操作:(2)

分析:从以上算法思想中我们可以探讨出很多问题,

1、比如如果用户向搜索引擎提交查询主题之后,搜索引擎要想为用户提供精准的搜索结果时就必须对搜索结果进行拓展,而从简单的搜索结果进行丰富拓展时需要大量的时间去分析,延长了用户请求的响应时间,所以对搜索引擎来说不能在最短的时间内为用户提供搜索结果就证明该算法是失败的、不科学的。

2、一个网页中包含了许多链接,比如导航链接、广告链接、以及程序自动生成的链接,而这些链接的存在势必会对搜索结果产生影响,在HITS算法中将搜索结果中出现的网页链接都进行了分析,所以在搜索结果中可能会出现这些无效链接引用的网页。

3、HITS算法对网页集合的拓展也会导致新的问题出现,因为是对搜索结果进行再次生成,所以在对集合进行扩展的时候不可避免的要增加很多页面,有时这些页面是和搜索结果中网页有着些许的关系,只不过是被集合中的网页引用了,所以一旦搜索结果中存在大量的这样网页的话,那么通过HITS算法的来的结果就会使得我们基于主题的查询变宽泛了,也就是说我们可能得不到准确的搜索结果了。

4、HITS算法是基于主题查询的,也就是说返回的结果是根据关键词完全匹配的,注重的是与主题高度相关的主社区,而对于那些有着不太相关的链接是很少能够顾及到的,所以很容易在搜索结果中导致主题漂移问题,然而这个问题该算法暂时也无法解决,这点事最大的不足。

关键词: 搜索引擎算法
给我们留言

公司地址:北京市东城区和平里东街11号院航星科技园8号楼6层

邮箱:hyys@mwagroup.cn

联系电话:400-606-2616

留言