个人博客 SEO 优化(1):搜索引擎原理介绍

news/2024/4/29 11:13:58/文章来源:https://blog.csdn.net/weixin_34413065/article/details/88854284
文章首发于我的博客:个人博客 SEO 优化(1):搜索引擎原理介绍

写在文章前面:
前段时间接到一个 SEO 优化的私活。为了完成这个活,只能赶鸭子上架,从零开始系统地去学习 SEO 知识。经过几天的学习后,也算是入了门。才意识到 SEO 它的意义与重要性,觉得 SEO 对于做个人站点(博客也算是个人站点)的意义与重要性不言而喻。可能有人会反驳在如今自媒体、微信公众号及知乎、掘金、sf等各种垂直网站盛行的年代,再去研究 SEO,对博客做 SEO 是否有必要。我的看法是,如果你想长期坚持维护自己的博客,那么学习必要的 SEO 知识的收益是一件半衰期很长的事情,是一件坚持就会事半功倍的事情。

因为你只需花费不多的精力对博客进行站内优化,然后保持一定的文章更新频率(如果有需要的话,还可以进行站外优化)。就能提高你的博客在搜索引擎排名,为自己的博客带来更多的访问量。无论你是想提高知名度还是想让你的文章能够帮助到更多的人,访问量多了才能到达你的目的。

接下来的内容完全是一个 SEO 初学者的学习总结,如果 SEO 大神看到,请轻喷,还望指出不足之处。

搜索引擎

可能有些人还不了解什么是 SEO。所谓 SEO 指 Search Engine Optimization(搜索引擎优化)。通过对网站进行优化,来提高网站在搜索引擎中的排名,为网站带来更多的访问。
在介绍 SEO 优化要素及技巧之前,我们需要先对搜索引擎的工作原理有个了解。才能更好的理解 SEO 具体操作的意义。

基本原理简介

搜索引擎过程非常复杂,我们这里只能以最简单的流程来介绍搜索引擎是怎么实现网页排名的。
搜索引擎的工作过程大体可以分为三个阶段:

  1. 爬行和抓取:搜索引擎通过跟踪链接访问网页、获得页面 HTML 代码并存入数据库。
  2. 预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。
  3. 排名:用户输入关键词后,排名程序调用索引数据库,计算相关性,然后按照一个的格式生成搜索结果页面。

第一步:爬行和抓取

爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。

spider

搜索引擎用来爬行和抓取页面的程序叫做也就是我们熟知的蜘蛛(spider),也称为机器人(bot)。spider访问网站页面类似于普通用户使用的浏览器。spider 发出页面访问请求后,服务器返回 HTML 代码,spider 把收到的程序存入原始页面数据库。为了提高爬行和抓取速度,搜索引擎通常或多个spider并行爬行。

spider 访问任何一个网站时,都会先访问该网站根目录下的 rotbots.txt 文件。该文件可以告诉 spider 哪些文件或目录可以抓取或者禁止抓取。
和不同的浏览器 UA 不同一样,不同厂商的 spider 也带有特定代理的名称。

跟踪链接

为了抓取网上尽可能多的页面,spider 会跟踪网页上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行一样。
爬行遍历有两种策略:

  • 深度优先:spider 沿着页面的链接一直爬取,直到该页面没有其他链接为止
  • 广度优先:spider 在一个页面发现多个链接,先把这页面的所有第一层链接都遍历完,再继续第二层链接遍历

程序猿肯定对这两个遍历算法很熟悉啦。
理论上无论是深度优先还是广度优先,只要给 spider 足够的时间,总是能把互联网上所有的页面链接都爬取完。但实际情况并不是这样,由于各种资源的限制,搜索引擎也只是爬行和收录互联网的一部分。

所以通常 spider 都是深度优先和广度优先混合使用

吸引蜘蛛

通过上面的介绍可以知道,spider 不可能将所有的页面都收录,因此 SEO 就是要通过各种手段,吸引 spider 爬行收录自己网站更多的页面。既然不能所有页面都收录,那么 spider 肯定是尽量抓取重要页面。那么 spider 是如何判断哪些页面重要?有几个影响因素:

  • 网站和页面权重。质量高,资格老的网站权重高。
  • 页面更新度。更新频率高的网站权重高。
  • 导入的链接。无论是外部链接还是内部链接,要被 spider 抓取,就必须要有导入链接进入页面。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。
  • 与首页的点击距离。一般来说,网站最高的权重就是首页,大部分外链都是指向首页,spider 访问最频繁的也是首页。所以离首页越近的页面,权重也相对更高,被 spider 爬行的机会也越大。
地址库

为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。通过地址库会有几个来源:

  • 人工录入的种子网站
  • spider 爬取页面后,解析出网址,与地址库对比。如果不存在,则存入
  • 站长通过搜索引擎网页提交网址(一般个人博客或网站都采用这种方式)
文件存储

spider 抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的 HTML 是完全一样。

爬行时的复制内容检测

检测并删除复制内容是在预处理的步骤处理掉。不过 spider 在爬行的时候也会进行一定程度的复制内容检测。权重低,而大量抄袭复制内容的网站,spider 可能就不再继续爬行了。这也是为什么说一个网站需要原创内容的原因。

第二步:预处理

预处理有时候也称为索引。因为索引是预处理中最主要的步骤。预处理有几个步骤:

  1. 提取文字。搜索引擎会提取页面的可见文字以及特殊的包含文字信息的代码,如 Meta 标签、图片Alt属性、超链接锚文字等。
  2. 分词,不同的语言有不同的分词如中文分词,英文分词。对第一步提取的文字进行分词。不同的搜索引擎使用的分词算法不同,会有差异。
  3. 去停止词。无论中文还是英文,都会有一些频率高,对内容没有影响的词。如语气词、感叹词,介词、副词等。搜索引擎会在索引页面之前去除这些词。
  4. 消除噪声。绝大部分页面还有一部分内容对页面主题也没有贡献。比如版权声明文字,导航条等。以博客为例,每个页面几乎都会有的文章分类,历史导航等信息,都是与页面主题无关的。这些都是属于噪音,需要消除掉。
  5. 去重。同一篇文章经常会重复出现在不同的网站及同一个网站的不同网址,搜索引擎并不喜欢这种重复的内容,所以搜索引擎会对这部分内容进行去重。
  6. 正向索引。也称索引。经过前面文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的,能反映页面主体内容,以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置。然后把这些页面及关键词形成的结构存储进索引库。
  7. 倒排索引。正向索引还不能直接用于关键词排名。搜索引擎还需要把正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件映射。这样在搜索关键词的时候,排序程序就在倒排索引中定位到这个关键词,就可以马上找出这个关键词所有的文件。
  8. 链接关系计算。链接关系计算也是预处理重要的一部分。搜索引擎在抓取页面内容后,必须事前计算出:页面上有哪些链接指向哪些其他页面,每个页面都有哪些导入链接,链接使用了什么锚文字。这些复杂的链接指向关系形成了网站和页面的链接权重。Google PR 值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似技术,虽然并不称为 PR。
  9. 特殊文件计算。除了 HTML 文件之外,搜索引擎还能爬取抓取和索引以文字为基础的多种文件类型,如 PDF,Word,PPT,TXT等。

第三步:排名

到了这一步就是处理用户输入,然后根据用户输入的关键词,排名程序调用索引程序,计算排名,显示给用户。
这个过程也分为下面几个步骤:

搜索词处理

对用户输入的关键词进行分词、去停止词、指令处理等处理。

文件匹配

根据关键词找出所有匹配关键字的文件。

初始子集选择

由于文件匹配阶段出来的文件数量巨大,不可能全部显示。因此需要根据页面权重计算出一个子集。

相关性计算

选完子集后,就需要对子集中的页面进行相关性介绍。计算相关性是排名过程最重要的一步。
影响相关性主要因素有几点:

  1. 关键词常用程度。越常用的词对搜索词的意义贡献越小。越不常用则越大。
  2. 词频与密度。在没有堆积关键词的情况下,页面的关键词出现次数越多,密度越高,则相关性也越大。不过该因素的重要程序越来越低了。
  3. 关键词的位置与形式。在前面索引提到的,页面的标题标签,黑体,H1都是比较重要的位置。
  4. 关键词的距离。切分后的关键词完整匹配地出现,说明与搜索匹配最相关。比如你搜索 hexo博客SEO,如果在页面上连续完整出现 hexo博客SEO,说明相关性最高。
  5. 链接分析与页面权重。除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关性,其中最重要的就是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。
排名过滤及调整

经过上面的步骤之后,已经得到大体的排名。之后搜索引擎可能还会有一些过滤算法,对排序进行轻微调整,其中最重要的过滤就是施加惩罚。一些有作弊的页面会被降低权重。

排名显示

所有排名确定后,排名程序就调用原始页面的标题、Description Meta 等信息显示在页面上。

搜索缓存

用户搜索很大一部分是由重复的。所以有一部分的搜索是会被缓存下来的。

查询及点击日志

搜用用户的 IP 地址,搜索的关键词、搜索时间,以及点击了哪些结果页面,搜索引擎都记录形成日志,形成搜索统计日志。这些日志信息对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等都有重要意义。

通过上面的三个步骤,你就能对搜索引擎的工作原理有了更深的理解。这对接下来要写的站内优化内容及博客优化实践能更好的理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_724190.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一步步构建大型网站架构

之前我简单向大家介绍了各个知名大型网站的架构, 亿万用户网站MySpace的成功秘密 、 Flickr架构 、 YouTube网站架构 、 PlentyOfFish 网站架构学习 、 WikiPedia技术架构学习笔记 。这几个都很典型,我们可以从中获取很多有关网…

网站被黑了被挂马篡改后我是如何解决网站被挂马!

1、发现被黑,网站被黑的症状 两年前自己用wordpress搭了一个网站,平时没事写写文章玩玩。但是前些日子,突然发现网站的流量突然变小,site了一下百度收录,发现出了大问题,网站被黑了。大多数百度抓取收录的页…

JAVA爬需要账号登录的网_Java 爬虫遇到需要登录的网站,该怎么办?

Java 爬虫遇到需要登录的网站,该怎么办?-1.jpg (32.2 KB, 下载次数: 0)2020-11-17 07:54 上传这是 Java 网络爬虫系列博文的第二篇,在上一篇Java 网络爬虫,就是这么的简单中,我们简单的学习了一下如何利用 Java 进行网…

Mysql在大型网站的应用架构演变

为什么80%的码农都做不了架构师?>>> 写在最前: 本文主要描述在网站的不同的并发访问量级下,Mysql架构的演变。 可扩展性 架构的可扩展性往往和并发是息息相关,没有并发的增长,也就没有必要做高可扩展性…

知名网站的技术发展历程

互联网已经发展多年,其中不乏脱颖而出者,这些网站多数都已存在了接近10年或10年以上,在如此长时间的发展过程中,除了业务上面临的挑战,在技术上也面临了很多的挑战。我挑选了一些Alexa排名较前的网站(排名截…

eyoucms 分享一下网站内容建设技巧有哪些

网站制作中有句话“内容为王”。由此可以得出网站的内容对网站的制作是多么重要,网站内容是网站的核心,也是网站进行SEO优化的重点。所以,不管是网站的制作还是网站的SEO优化,网站内容都要做好,并且要更新一些有特色的…

从搞网站蹭灰产,终于又回到了自媒体

写下这篇文章,也借此回忆了这些年经历网络创业艰辛的岁月、时光,建过网站,接触过灰产,后来还是走上了自媒体厮杀一片红海中,自由网络创业的路艰难而又漫长,其中也有几点心得与君共享。曾经记得高中语文老师…

如何做好大数据时代的SEO?

榜首步:淘取SEO中心关键词SEO中心关键词是指能给网站带来80%流量的关键词。一个企业的中心关键词要达到50-100个之间。怎样去选择呢?办法许多,比方经过联想办法,或者是下拉办法,还有经过百度指数的办法等。还有一个最直…

jsp网站ico图标设置

版权声明&#xff1a;转载请注明作者及出处&#xff0c;否则将追究法律责任。 https://blog.csdn.net/q2158798/article/details/83350974 学习记录&#xff1a;小技巧 web项目中设置ico图标 ico图标放在webapp下 在jsp页面中引入(ps:每个jsp都要引入) <!-- 网站图标 -->…

美国物理学会Physics网站公布“年度亮点”工作,AlphaFold和潘建伟团队成果等入选

凭借詹姆斯韦伯太空望远镜拍摄的令人惊叹的图像、激光聚变的突破、升级后的大型强子对撞机的启动以及小行星防御系统的首次测试&#xff0c;2022 年提供了大量的宏伟成果。 在生物、量子和凝聚态物理学方面也有重要的小规模努力&#xff0c;以及在多样性、公平性和包容性方面的…

基于LAMP平台的网站架构(或Web系统架构)

1.网站架构的前提&#xff08;或者说需求&#xff09; 我们公司是一电子商务的网站&#xff0c;因为线下家具建材项目的推广需求&#xff0c;从而有了我们公司的这个线上网站&#xff0c;在这里我贴一张公司的网站架构图。 总体来说网站规模不是太大&#xff0c;注册人数在150万…

ASP.NET网站部署

1、安装WebDeploymentSetup_2008插件。 2、安装完成后&#xff0c;右键需要发布的网站&#xff0c;点击”Add Web Deploymenet project ”选项&#xff0c;如图1.1.1 图1.1.1 3、 点击该选项并输入发布生成文件目录地址&#xff0c;确定后&#xff0c;项目中会出现如图1.1.2项…

电商实例、业务并发、网站并发及解决办法

电商实例、业务并发、网站并发及解决方法 一、怎么防止多用户同一时间抢购同一商品&#xff0c;防止高并发同时下单同一商品 最近在做抢购系统&#xff0c;但头疼的是&#xff0c;在多用户高并发的情况下经常会库存出现问题。排查到&#xff0c;在同一时间内多用户同时下单导致…

整理了一周的Python资料,包含各阶段所需网站、项目,收藏了慢慢来

这周应该有不少学校已经开学了&#xff0c;那么同学们都该动起来了&#xff0c;把家里面的那些懒习惯给扔掉了可以。 不知怎么的&#xff0c;最近不少关注我的读者都开始私信我怎么学好python&#xff1f;零基础转行是不是合适&#xff0c;还有希望吗&#xff1f;今年30了&…

推荐一个下载源码的网站

我想下载javax.validation:validation-api的源码&#xff0c;但是从搜索引擎里搜了半天也没有找到下载地址。 后来我找到了一个网站&#xff0c;可以搜索、可以下载jar包、也可以下载源码包&#xff0c;就非常棒。就这个&#xff1a;Maven中央搜索库 搜索javax-validation&am…

url模糊匹配优化_网站优化需要掌握的方法和技巧

一个网站建设好之后如果不进行优化那么这个网站想要发展起来是非常困难的&#xff0c;但是网站优化又不是一件简单的事情&#xff0c;其中需要掌握的方法以及技巧还是挺多的&#xff0c;那么今天就来为大家介绍一下网站优化需要掌握的方法和技巧吧!一、网站的结构1.一个网站在优…

Struts2结合sitemesh3制作网站母版页面

上一篇文章介绍了sitemesh3的使用&#xff0c;这篇文章来介绍如何结合struts2来配置和使用sitemesh&#xff0c;具体的如何使用sitemesh3我就不讲解了&#xff0c;这个你们可以看看我的上一篇博客。 首先你要添加struts和sitemesh相关的jar包&#xff1a; 添加完毕后&#xff0…

windows server2008 iis 7部署及网站部署完整步骤

windows server2008 iis 7部署及网站部署完整步骤windows2008下的iis7安装部署&#xff0c;web 网站的配置&#xff0c;不是很熟练&#xff0c;每次都得google。下面整理一个完整步骤&#xff0c;以备使用1&#xff09; iis7安装&#xff1a;默认系统装完之后&#xff0c;是不会…

NodeJs Express MySQL 搭建电影网站:第一期(搭建Express项目、路由构建、jade 页面构建和模拟数据)

效果展示&#xff1a; 首页&#xff1a; 详情页面: 后台&#xff1a;电影添加页面 后台&#xff1a;电影列表 第一步&#xff1a;创建movie 应用 express movie 第二步&#xff1a;movie应用依赖第三方模块&#xff08;MySQL body-parser&#xff09; cnpm install mysql …

NodeJs Express MySQL 搭建电影网站:第二期(MySQL 数据增删改查操作)

第一步&#xff1a;编辑相关页面路由信息&#xff0c;使用MySQL填充数据 编辑movie/routes/index.js 文件 var express require(express); var router express.Router();var dbrequire(./../db.js); // 引入自定义DB 模块 var bodyParserrequire("body-parser");…