全文搜索引擎有哪些?_搜索引擎工作原理是什么?seo蜘蛛抓取会受到哪些因素影响?...

news/2024/5/8 13:56:28/文章来源:https://blog.csdn.net/weixin_39797381/article/details/110842578

seo优化就是搜索引擎优化,就是对网站进行各方面调整,使其更符合搜索引擎的算法要求,从而得到更多的流量及转化,所以做seo必须要多搜索引擎有更多的认识和了解。搜索引擎有哪些功能模块?它的工作原理是什么?搜索引擎蜘蛛抓取会受到哪些因素影响?

搜索引擎功能模块:

1,蜘蛛,即Spider,类似浏览器的程序,专门用来下载web页面

2,爬虫,即Crawler,用来自动跟踪所有页面中的链接

3,索引,即Indexer,专门用来分析蜘蛛和爬虫下载下来的web页面

4,数据库,存储下载的页面信息和处理过的页面信息

5,结果引擎,从数据库中抽取出搜索结果

6,Web服务器,用来处理用户的搜索交互请求的web服务器

百度蜘蛛类型

般我们根据百度蜘蛛的爬取特点,可以将其分为三类: 批量型Spider、增量型Spider和垂直型Spider.

1、批量型Spider

般具有明显的抓取范围和目标,设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等。当Spider的作业达到预先设置的目标会停止。普通站长和SEO人员使用的采集工具或程序,所派出的Spider 大都属于批量型Spider,般只抓取固定网站的固定内容,或者设置对某资源的固定目标数据量,当抓取的数据或者时间达到设置限制后会自动停止,这种Spider是很典型的批量型Spider.

2、增量型Spider

增量型Spider 也可以称之为通用爬虫。般可以称为搜索引擎的网站或程序,使用的都是增量型Spider,但是站内搜索引擎除外,自有站内搜索引擎般是不需要Spider的。增量型Spider和批量型Spider 不同,没有固定目标、范围和时间限制,般会无休止地抓取下去,直到把全网的数据抓完为止。增量型Spider 不仅仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚在定时间之后该页面会被删除,优秀的增量型Spider 需要及时发现这种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度、Google 网页搜索等全文搜索引擎的Spider,般都是增量型Spider.

3、垂直型Spider

垂直型Spider 也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,般都会聚焦在某个限制范围内进行增量型的抓取。此类型的Spider 不像增量型Spider样追求大而广的覆盖面,而是在增量型Spider 上增加个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。对于网页级别纯文本内容方面的识别,现在的搜索引擎Spider还不能地进行准确分类,并且垂直型Spider 也不能像增量型Spider 那样进行全互联网爬取,因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型Spider,那么会利用增量型Spider 以站点为单位进行内容分类,然后再派出垂直型Spider 抓取符合自己内容要求的站点: 没有增量型Spider 作为基础的垂直搜索引擎,般会采用人工添加抓取站点的方式来引导垂直型Spider 作业。当然在同个站点内也会存在不同的内容,此时垂直型Spider 也需要进行内容判断,但是工作量相对来说已经缩减优化了很多。

影响搜索引擎抓取的因素

1、抓取友好性

互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。

2、用抓取返回码示意

简单介绍几种百度支持的返回码:

1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;

2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。

3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。

4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

3、取优先级调配

由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等

4、取反作弊

spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统

总结:SEO成功之路,首先需要解决的是流量问题,并且是持续稳定的流量,仍然有诸多细节,上述内容,仅供参考,以上是小编个人经验所总结,都是日常工作中,点滴的积累,以及随机应变,而上述内容,仅供参考。下面是小编总结出来的,录制的一些核心SEO教程视频,大家可以仔细的观看哦,希望能帮助大家更快的把SEO技术早日学习好,有什么seo方面的问题,欢迎留言。

网站SEO排名核心课【基础到行业网站优化】SEO算法快排篇_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com
b4e46149b92736c04123d767f5023698.png

c9bfd924ec91f4da07a86aa10866a117.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_702082.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

作者免费分享自己论文也不行,知名学术社交网站被判侵权,此前已下架20万余篇论文...

萧箫 发自 凹非寺量子位 | 公众号 QbitAI这场关于“开放获取”的官司,最终还是出版商们打赢了。知名学术社交网站ResearchGate被判下架50篇受版权保护的论文,并被要求对侵权内容负责。起因是爱思唯尔和ACS(美国化学学会)发现&…

网站 java php_做网站用java还是php

做网站用java还是php?做网站用PHP会更合适, 因为php主要就是用于web网站开发方面,开发比较快速。1,PHP适合于快速开发,中小型应用系统,开发成本低,能够对变动的需求作出快速的反应。而Java适合于…

最大日漫网站崩了/ 马斯克星链要搞手机业务/ PS5涨价…今日更多新鲜事在此

日报君 发自 凹非寺量子位 | 公众号 QbitAI大家好,今天是8月26日,周五了~今天科技圈都有什么大事?来跟日报君一起看看吧。今日大新闻索尼宣布PS5涨价,国行版上调400元索尼的PS5涨价了,中国大陆国行PS5数字版…

虚拟机复制后需要改什么_网站改版后为什么需要每月运营维护?

我们都知道购买新车的陈词滥调,一旦您开了一些时间后,它的价值就会下降。尽管这可能是正确的,但您至少会放心,因为知道在最初几年出现任何问题时,保修将为您提供保护。如果您的发动机卡住了或您的变速器出现故障&#…

python实现简单爬虫功能(网站图片)

转自http://www.cnblogs.com/fnng/p/3576154.html 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。 我们最常规的做法就是通过鼠标右键&…

几个不错的java类、jar包及其依赖查找网站。。。

为什么80%的码农都做不了架构师?>>> 开发过程中有时需要查找类对应的jar包及其依赖,并且要能够下载。。。 之前都是用的以下两个(第一个还是不错,第二个比较垃圾,很多都查不到- -!) http://www…

四、管理网站(一) Using the command line interface

Orchard为许多在管理面板中可用的和不可用的功能的命令行接口。命令行工具名称是 “orchard.exe”,在网站根目录下bin目录中。 Using Commands 要查看可用的命令,输入help commands。 orchard> help commands List of available commands: ----------…

记一次网站服务器搬迁实录

这是一篇记录在日志里面的文章,今儿趁有时间整理整理。这篇文章记录了整个服务器切换的具体步骤和实施细则,一些小网站的搬迁和服务器的迁移可以做个参考。同时也记录下,方便自己的查阅。这是一个phpmysql写的网站,前期用的window…

经典网页设计:20个与众不同的 Flash 网站设计作品

如果你正在为你的 Flash 网站设计项目寻找灵感和新思路,那么这篇文章推荐的20个非常有创意的 Flash 网站设计作品相信能帮助到你。Flash 网站页面美观,互动性强,可以声形并茂,实现普通的 HTML 网站不能制造出的质感和动作&#xf…

curl网站开发指南

转载 http://www.ruanyifeng.com/blog/2011/09/curl.html 我一向以为,curl只是一个编程用的函数库。最近才发现,这个命令本身,就是一个无比有用的网站开发工具,请看我整理的它的用法。curl网站开发指南阮一峰 整理curl是一种命令行…

我是如何将网站全站启用Https的?-记录博客安装配置SSL证书全过程

评论 文章目录 为什么要Https如何选择Https安装部署SSL证书平滑过渡Https搜索引擎的响应启用Https小结正如大家所看到的,部落全站已经启用了Https访问了,连续几天的网站安装和调试SSL终于可以告一段落了。曾经看到身边不少的朋友纷纷启用Https&#xff…

网站无法显示logo?

那是因为你没有配置favicon.ico,每个网站根目录都会有一个favicon.ico,因为每个服务器都会请求根目录下的它。 转载于:https://www.cnblogs.com/cisum/p/8743722.html

html优化网站的方法,利用HTML优化加快网页速度方法介绍

减少web页面下载时间的关键就是设法减小文件大小。当多个页面共用一些成分内容时,就可以考虑将这些公用部分单独分离出来。比如:我们可以将多个HTML页面都用到的脚本程序编写成独立存在的。js文件,然后再在页面中按如下方式调用它&#xff1a…

优化网站设计(七):避免在CSS中使用表达式

前言 网站设计的优化是一个很大的话题,有一些通用的原则,也有针对不同开发平台的一些建议。这方面的研究一直没有停止过,我在不同的场合也分享过这样的话题。 作为通用的原则,雅虎的工程师团队曾经给出过35个最佳实践。这个列表请参考 Best Practices fo…

让你的网站拥有微博(weibo.com)关注图标

最近在做开发的过程中,有一个需求是在网站里面添加新浪微博(http://weibo.com)的关注图标。 先来看看我的运行效果,一下是四种不同的格式,实现都很简单: 操作步骤如下: 第一步:你需要申请一个微博(weibo.com)的账号 如…

php网站开发案例教程ppt,php网站开发案例教程》课件.ppt

php网站开发案例教程》课件.ppt还剩178页未读,继续阅读下载文档到电脑,马上远离加班熬夜!亲,很抱歉,此页已超出免费预览范围啦!如果喜欢就下载吧,价低环保!内容要点:PHP网…

大型网站系统架构分析--转

大型网站系统架构分析 原文地址:http://www.cnblogs.com/Mainz/archive/2009/04/28/1445424.html 千万级的注册用户,千万级的帖子,nTB级的附件,还有巨大的日访问量,大型网站采用什么系统架构保证性能和稳定性&#xf…

Nginx反向代理实现HTTPS网站

1、环境设置 这次是在windows环境下实现的,linux环境下步骤差不多 openssl的windows版本 下载地址: http://slproweb.com/products/Win32OpenSSL.html Nginx的windows版本 下载地址: http://nginx.org/en/download.html 网站使用python的to…

为什么说企业做网站不要选择或找低价便宜的网站建设制作公司?

本人曾经做过这样多次调研,发现存在一个普遍性的问题,那就是当企业在决定做一网站之前,一般都会对市场上的建站服务商进行一次统一的咨询与调查,了解建站服务商的价格和实力问题,其中,感触最深的当然还是价…

10款在线网站原型设计工具 总有一款适合你

2019独角兽企业重金招聘Python工程师标准>>> 现在,基于云端的软件渐渐成为主流,而网站原型设计工具当然也不例外。在线原型工具相比于桌面版有得天独厚的优势,它不需要安装、不限制地点、不限制操作系统,无论你使用的L…