SEO深度解读之HITS链接分析算法

news/2024/5/9 6:44:08/文章来源:https://blog.csdn.net/weixin_33698043/article/details/85214630

HITS(Hyperlink - Induced Topic Search)链接分析算法诞生在1997年,该算法是由康奈尔大学中的一位博士提出,并且该算法沿用于全球多个搜索引擎当中。当然,不同的搜索引擎针对于该算法的侧重点和内部公式都有不一的算法结构调整,并且HITS算法也是链接分析中最为重要的基础算法之一。

对于目前国内的整体搜索引擎而言,百度作为国内的搜索引擎领头羊,我会带着HITS的公开文档针对百度搜索引擎进行多元化的角度和实验来深度解析HITS在SEO中的实战应用。

首先,我们先来了解一下什么是HITS算法,包括他的计算公式和算法原理以及他优缺点。深刻的理解了这些含义以后,然后我们借助一些特定的实验来验证HITS的效果和实用性。

在HITS链接分析算法当中,阐述最多的两个点就是Hub页面与Authority页面。

一、什么是Authority页面(权威页面)

简单来说Authority页面(权威页面)是指在某一个领域范围内或者某一个相关主题范围内的高质量网页。比如招聘领域,前程无忧网站的首页就是该领域的一个高质量优质网页。比如淘宝首页就是电商领域的优质网页。

二、什么是Hub页面(枢纽页面)

而Hub页面(枢纽页面)通常就是它页面本身包含了很多高质量的Authority页面的链接,比如360网址导航首页就是一个非常好的Hub页面(枢纽页面)。因为在360网址导航的站点页面里面聚合了众多的不同类型的权威站点集合,比如新闻板块聚集了新浪、腾讯等权威站点。视频板块聚集了搜狐视频、优酷视频等权威站点。这个点和大家经常发布的一些分类目录网站外链有点类似(所以为何网站目录外链还存在一定的效果,正是因为搜索引擎本身有自己特有的算法才会影响到你的排名)。

三、HITS算法意义

之所以存在HITS算法,是因为搜索引擎需要在全球所抓取的网页文档集合当中找到与用户搜索请求查询词匹配度与之相关最高的页面进行符合匹配,而这里的匹配度相关最高的则是一些高质量的“Authority”页面和“Hub”页面,而不是大家常常理解的站内文章优质原创等因素。尤其是一些权威页面,搜索引擎更加亲耐,因为这类站点页面的内容会更加满足用户查询的内容。

有很多朋友可能会问到一个问题,如何成为权威页面或者枢纽页面呢?

其实枢纽页面在前面从概念意义上解释来说已经告诉了大家如何去成为枢纽页面。比如360导航网站的某一个站点类型的聚合页面,再比如网站分类目录站点的某一个站点类型的聚合页面,这些都属于枢纽页面,但是枢纽页面也会分为高质量枢纽页面和一般性枢纽页面。比如360导航网站首页不仅是枢纽页面并且还是导航站点的权威页面。

那么又如何成为权威页面呢?

这里就会提到大家想要理解的一个深层次的东西了,所谓的高权重外链其实可以理解为高权威外链,即权重=权威。搜索引擎针对每一个站点和该站点的每一个页面都有一系列的网页评分,而这类评分决定着页面的链接是否为有效的信任度。而权威页面往往会有几个特点:

1、品牌属性

不管是某一种类型的站点,一旦要想成为行业的权威,品牌属性必定浓厚,这点大家可以从百度搜索引擎的知心算法可以得知。如当用户搜索网上商城会联想到京东、天猫;再如当用户搜索空调会联想到海尔、格力、美的等知名品牌。正是因为这类品牌属性,可以让这类品牌官网站点在某一个行业领域形成独特的权威度。但是,对于搜索引擎而言,这类品牌属性搜索引擎是感观不到的,而用户却可以知晓。因为对于用户而言,用户可以通过报刊,电视等多媒体方式了解到这些品牌的循环曝光,从而积累品牌的印象程度。那么搜索引擎是如何计算出这些品牌属性的权威程度呢?针对搜索引擎来说,搜索引擎会通过全网抓取技术检索全球所有网页集合,根据文档检索模型计算出词频,而词频计算出来的相关词频次结合度最高的一类词就是一个主题的符合度。通常情况下,是行业产品词+品牌词检索。

2、历史属性

历史属性我们可以称之为信任度属性,何为信任度属性,简单的理解就是一个权威的站点必定是本身的页面存在一定的真实性、可靠性的价值信任信息,就如百度百科的词条会有对应的参考资料来作为参考佐证,从而针对内容进行信任度提升。所以即使内容不是原创,如果页面满足了信任度属性,你的内容一样非常有价值,也利于搜索引擎优化。信任度属性除了信息价值信任之外还有一点就是历史数据积累,这点在老域名站点体现的非常明显。越老的站点信任度属性就体现的越明显,比如做一些灰色产业或者做医疗的SEO人员就非常喜欢采用使用过的并且干净底子的老域名进行优化效果最佳。

3、曝光属性

权威页面除了品牌属性和历史数据积累等属性还有一点就是曝光属性,这类曝光属性会包含两个大类,其中是站内曝光属性和站外曝光属性。站内曝光属性可以理解为页面收录量,一般情况下,当一个域名使用了10多年,每天都在充实着一些主题非常一致的优质枢纽页面的时候,那么自然而然他的曝光也会放的很大。而站外曝光属性就是在整个互联网站点文档集合里面所体现出你品牌属性的词频集合和关键词主题一致的文档数量,比如阐述淘宝的网页相关结果数有X亿个网页。而X亿张网页集合里面和淘宝相关度最密切的是关于电商、商城、网购等主题行业词汇。那么通过历史属性的数据积累,淘宝站点在电商领域归属于权威站点。

四、HITS算法缺陷

每个搜索引擎算法都有自己的优势和缺陷,HITS也不例外,在HITS算法当中,有4个最常见的缺陷,其中包含了计算效率低、主题漂移、容易作弊和结构不稳定。

由于HITS算法是与之查询相关的算法,所以不能先计算,而必须是用户请求了某一个搜索词以后才能去计算该词的一些站点文档匹配度(链接评分板块),加上HITS算法的计算属性需要通过多次的计算迭代才能最终计算出检索结果的文档链接的推荐度投票,所以导致计算效率比较低下。

而主题漂移问题则是大家常常可以看到了一些现象,即使我交换的链接和我站点主题没有一条相关,但是也会促进我的页面关键词排名提升。而这种现象正是因为HITS的特殊算法结构才出现了给与这些无关网页很高的排名。最终导致了搜索结果发生了主题漂移,而这种现象也称为“紧密链接社区现象”。

之所以容易用来作弊是因为HITS强调的比较多的还是枢纽页面和权威页面之间的一种相互增强关系。作弊者可以通过建立新页面的形式,并且在新建立的网页中加入了很多高质量的权威页面链接,自身页面就会形成了一个很好的枢纽页面,然后作弊者可以通过该页面的一个权威枢纽性,再指向作弊网页链接,从而给与作弊网页增加权威页面得分。如下图所示:


SEO深度解读之HITS链接分析算法 经验心得 第1张


上图所示的页面文档集合里面包含了4个导出链接,假设该页面是阐述视频网站排行榜的相关内容信息,而4个导出链接均包含了不同的4个独立的视频站点,其中三个为已知的权威站点,第二个站点为我们作弊的站点。而此方式可以用来增加链接的投票推荐度。

最后一个HITS的缺陷在于它的结构不稳定,何为结构不稳定?简单来说就是在原来的网页文档集合里面,如果新增或删除网页链接,那么就会对HITS算法排名有着非常大的改变。比如大家都知道交换的链接除了相关性还需要讲究稳定性,却不知道稳定性这个概念正是因为HITS的缺陷而导致的,如果链接一旦不稳定,包括链接位置变动、链接被删除等都会影响算法结构的重新计算。从而影响了自身站点的关键词排名。

五、HITS算法实战应用(实验)

现在我们到了SEO实验阶段了,说千道万不如实战验证。由于文章的特殊性,所以本文只发布和分析一个案例。首先我们来了解下实验步骤!

步骤:

第一步:实验假设

假设一:枢纽页面与权威页面均成立(存在这种现象/说法);

假设二:假设一个网站在不操作任何外链、站内更新、站内布局调整的情况通过HITS算法的逻辑提升排名;

第二步:准备实验站点(记录实验时间和站点快照时间)

1、首先我们准备了一个地区SEO词排名在23位的站点,该站点的该词排名稳定23位超过1一个月(因为不排除其他外链、内容更新影响排名的下降或者提升),所以该站排名23位空档稳定一个月+最好。

2、然后我们记录好站点的快照时间以及最后更新文章的时间节点,保证页面没有被蜘蛛抓取更新过和页面做过内容变动(达到实验的最佳效果),如下图所示:


SEO深度解读之HITS链接分析算法 经验心得 第2张


快照时间:2017年02月03日 11:42:34

第三步:HITS算法验证(记录实验时间和站点快照时间)

1、验证方式:Hub枢纽页面验证

2、验证详细步骤:首先我们知道一个好的枢纽页面里面肯定会包含一些权威页面或者包含了一些好的枢纽页面,那么我们是不可能去加一些百度、新浪这种链接给自己做导出的,因为并不符合相关性逻辑。那么我们添加的其实就是排名首页的太原SEO站点,如下图所示:


SEO深度解读之HITS链接分析算法 经验心得 第3张


上图是实验站点添加的7个排名在首页的太原SEO网站站点,并且为了防止页面权重流失,均添加了Nofollow。那么肯定就会有一个问题,为何我们要添加首页的而不是排名第三页或者第五页的太原SEO的站点。其实如果大家往回去思考这个Hits算法就不难发现hits所强调的hub页面在某一个点(领域)上肯定是有权威性的,并且搜索引擎的目的是为了用户需求而产生检索结果。如果你把排名前10位的站点容纳在一个站点上面,就已经告诉了用户,我的这个站可以找到你想要的内容。并且我这个站的主题也是“太原SEO”,那么可以更加符合用户检索结果。

第四步:排名统计(记录实验时间和站点快照时间)

我们在来看一下添加加了Nofollow以后的单向链接的快照,如下图所示:


SEO深度解读之HITS链接分析算法 经验心得 第4张


快照更新时间:2017年02月08日 21:45:06

虽然快照更新。但是排名记录23位,这个时候需要有耐心,因为快照更新不代表排名会更新,需要时间等待,我们用工具每天记录了该站点“太原SEO”的排名,如下图所示:


SEO深度解读之HITS链接分析算法 经验心得 第5张


我们可以通过5118大数据平台看到从2月4日修改链接以后直到2月8日快照更新排名都没有提升过,直到快照更新后的5天时间,排名发生了变化,并且中途出现过排名波动退档到原来的位置。然后我们在来看一张排名截图,如下图所示:


SEO深度解读之HITS链接分析算法 经验心得 第6张


从2月20日排名回档在到恢复以后直到目前文章截稿位置排名一直稳定第二页。说明整个实验操作过程排名提升了10个位置左右。

第五步:效果评估与总结(记录实验时间)

通过整个的算法原理分析、实验认证,大家可以很清晰的看到利用一些搜索引擎算法去做到一些事情。当然这里面可能有会有人提出质疑,一个实验会不会是巧合,由于类似实验我操作过不下数十次,成功率基本上高达90%,所以几乎不存在所谓的巧合。但是并不是每个朋友都可以去这么操作,因为里面有很多需要注意的细节。

1、为何我要选择一个站点排名在23位去做实验,而不是100后的站点?因为从Hits算法本身来说,如果你去采用一个100以后也就是没有排名的站点去做实验操作明显是有问题的,因为并不满足Hub的要求。搜索引擎认可一个站点需要一定的时间和信任度,在你网站没有任何信任度的情况下你去加一些很好的Hub链接放到自己的网站上面并不能产生很大的效果。

2、之所以在有排名的情况下去操作是因为这种微调效果非常好,并且记得加上Nofollow,利于防止权重流失。

3、如果你的域名是老域名(使用过的老域名站点),那么及时在没有排名的情况也可以去进行这类实验操作,因为老域名站点本身就具备一定的信任度,无需让搜索引擎长时间的去评定页面的质量(包含了信任度评分、页面价值评分等)。

总体来说,在搜索引擎里面,算法其实有非常多,包括公开的链接分析算法就有Hits算法、HillTop算法、SALSA算法、PageRank算法等等,在比如还有文档检索模型(包含向量空间模型、概率模型、布尔模型等),在比如还有倒排索引、TF-IDF等,其实这类算法在百度上都可以找到他们对应的透明的计算公式(涉及到高等数学),如果你能够前行研读和深究的话不难发现一些SEO排名的奥秘所在。

本文作者:SEO算法研究微信号/QQ号:1013240126 独家原创首发卢松松博客

来源:卢松松博客,欢迎分享,(QQ/微信:13340454)


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_749115.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux smb 远程,测试过程、扩展研究 - Linux系统下用smbclient命令来访问Windows共享_Linux教程_Linux公社-Linux系统门户网站...

基本测试过程如下:1、 访问c$共享:[rootrh root]# smbclient //192.168.60.188/c$ -U cmwPassword:smb: \> cd winntsmb: \winnt\>2、 访问temp共享(启用guest帐户)[rootrh root]# smbclient //192.168.60.188/tempPassword:(未输入任何密码)smb: …

《网站情感化设计与内容策略》一1.6 情感和记忆

本节书摘来自异步社区《网站情感化设计与内容策略》一书中的第1章,第1.6节,作者 【美】Aarron Walter , Erin Kissane,更多章节内容可以访问云栖社区“异步社区”公众号查看 1.6 情感和记忆 情感体验在我们的长期记忆中会留下深刻的印记。我…

网站的第一印象

个人觉得商业网站的风格还是简洁点好,看起来舒服,就可以了,没必要去追求什么视觉冲击力。如果是个人主页做得个性点,要求视觉冲击力,可以让人留下深刻的印象,不过要求视觉冲击力的个人主页,一般…

百度网站收录教程(个人版)

让百度搜索到有两种方法,一种是等百度主动来爬取你的网站,还有一种是你自己主动提交给百度告诉它来爬取。第一种周期太过漫长,所以本文就讲第二种 1.准备网站 首先,想要做SEO的同学,需要考虑清楚所选择的前端框架。现在…

超神奇的四个在线网站,万万没想到他们竟然这么好用!

说起一下在线网站我们多多少少能够知道一些比较好用的网站,但是今天小编要分享的这些网站要比我们之前介绍的一些网站还要好用!你们准备好了吗? 一.放大图片 网址:http://waifu2x.udp.jp/index.zh-CN.html 图片太小?想…

c语言 界面编程 毕业设计,《C语言程序设计》课程网站的设计与实现(ASP.NET,SQL)...

《C语言程序设计》课程网站的设计与实现(asp.NET,SQL)(毕业论文12000字,程序代码,SQLserver数据库)本课程网站采用C#语言和asp.net技术并利用SqlSever数据库进行开发,结合了B/S框架技术,实现课程教学管理新方式,主要是针对管理员,…

网站截图工具EyeWitness

2019独角兽企业重金招聘Python工程师标准>>> 网站截图工具EyeWitness 在网页分析和取证中,往往需要大批量的网站截图。Kali Linux提供了一款网站批量截图工具EyeWitness。该工具不仅支持网址列表文件,还支持Nmap和Nessus报告文件。在Web请求的…

php qq授权_网站接入QQ登录(PHP版)【最新教程 05.14更新】,亲身失败百次的总结...

开发阶段(偏前端的同学可以查看 JS版 教程)3.1. QQ互联 官网提供了 SDK 以及对应的 示例代码,但是为了帮助同学们更好理解,我进行了部分删减,力求最简单的方法实现目的。官方SDK3.2. 因为是写教程,所以代码就尽量简单明了一点。实…

服务器网站首页被被修改,为什么网站首页被降权 原因和解决方法分析

小小课堂seo:最近看到不少人再说网站首页被百度搜索引擎降权,到底为什么首页会被降权?我们可以做哪些调整来恢复网站首页权重?今天,小小课堂网为大家带来的是网站首页被降权的原因和解决方法。小小课堂seo希望对大家有所帮助。一、为什么网…

好资源网站

正文字体大小:大 中 小好资源网站 (2011-01-06 11:31:17) 转载▼标签: it 分类: 电子商务1.酷网代码;http://www.5icool.org非常不错 网页特效---焦点幻灯图片特效 导航菜单 广告代码 在线客服 表单按钮 其它特效 网页教程----HTML CSS Jav…

高斯模糊java代码_“网站变灰”背后的代码实现

在刚刚过去的几个月里,我们的国家经历了非常惨痛的时刻,很多英雄在救助和保护他人的路上倒下。前天(4月4日),清明节,全国降半旗,10点全国默哀三分钟,以致敬英雄和缅怀逝去的同胞们。当天一切公共娱乐活动也…

基于WebSphere与Domino的电子商务网站构架分析

转载于:https://blog.51cto.com/chenguang/470852

我记录网站综合系统 -- 技术原理解析[4:我记录框架 路由系统]

源代码位置:wojilu.Web.Mvc.Processors:RouteProcessor.cs:wojilu.Web.Mvc.Routes :RouteTool.cs 客户端向服务器发送请求,主要是通过 url 链接的形式,是 url 告诉了服务器,应该返回什么样的…

用access作为.net网站的数据库,在windows2003上配置出现,出错不能访问。

最近在将做好的毕业设计挂在服务器上浏览,总是出现错误,无法访问。网上查了很多方法,感觉都没有很好的答案,发表一下,和大家一起共享一下。希望大家多多提建议。 我的数据库是access2007,首先,由…

asp.net mvc 2.0+Silverlight播放器开发的TeamVideo视频播放网站--系列2

这几天抽空写第二部分。很高兴今天能够和大家分享下。我这是个asp.net mvc的新手。。。希望各位提出宝贵的意见。 你可以在这里查看第一部分的内容。http://www.cnblogs.com/n-pei/archive/2010/08/30/1812981.html 按照之前计划,这一部分的内容如下: 1.…

锦绣蓝图:怎样规划令人流连忘返的网站(第2版)(全彩印刷,信息架构之父R. S. Wurman隆重推荐)...

锦绣蓝图:怎样规划令人流连忘返的网站(第2版)(全彩印刷,信息架构之父R. S. Wurman隆重推荐)【原 书 名】 Information Architecture: Blueprints for the Web (2nd Edition) 【原出版社】 New Riders Press 【作  者】(美)Christina Wodt…

网站(bs系统)怎样实现即时消息思路总结

为什么80%的码农都做不了架构师?>>> 1.ajax刷新 2.flashsocket(推荐,网页游戏多用这个) 3.DWR用来做即时通讯很方便 4.Comet 有时也称反向 Ajax 或服务器端推技术(server-side push),这个东西其实就是长连接&#xff…

手机php网站不显示图片,javascript,_手机页面用innerHTML拼接的图片不显示,javascript - phpStudy...

手机页面用innerHTML拼接的图片不显示测试代码input,button{height:35px;}add function addEmotion(t){alert(t);}var addfunction(){var prefixhttp://192.168.1.100:88/emotion/images/;var emotion[hi,yes,good];var html[];for(var i0;ihtml.push("");}document.…

计算机的电子邮件地址怎么看,电脑使用小技巧:如何找出网站上隐藏的电子邮件地址?...

当访问有些网站时,有时我们需要与网站进行联系,可是点击网站上的“联系我们”时,并没有出现详细的联系信息,比如:地址,邮件,电话等,电脑反而弹出outlook邮件客户端程序。如果我们平时…

dwz框架在网站群项目中的应用(3)—html拓展之控件组件篇

每个页面中由不同的控件和组件提供不同的功能,在“dwz框架”下应用框架的规则只要写简单的html代码就可以写出实用的控件或组件,在项目中用的比较多的有:文本框、日历控件、combox组件、分页组件,下面将继续以项目中的实例介绍这些…