安居客检测到网页抓取_原创内容不收录 解决网站抓取异常的有效分析方法

news/2024/5/19 21:56:25/文章来源:https://blog.csdn.net/weixin_39744512/article/details/111110517

有的网站明明内容优质原创,用户可以正常访问,但偏偏网络蜘蛛无法正常访问抓取导致无法被收录,搜索结果覆盖率偏低,对搜索引擎和网站都是一种损失,这种情况就是抓取异常。对于大量内容无法正常抓取的网站,搜索引擎会以为网站存在用户体验上的缺陷,并降低对其的评价,在抓取、索引、排序上必然受到一定的负面影响,最终影响到网站从搜索引擎获取的流量。下面,小编总结了一些常见导致搜索引擎蜘蛛抓取异常的原因,供大家参考。

545ec552fb09786bfc8285fdff4e6cef.png

一.服务器连接异常

服务器连接异常一般有两种:一种是暂时无法连接,另一种是一直无法连接。对于用户来说,一个连接异常的服务器是他们是不会逗留的,网络蜘蛛同样如此,服务器连接异常的网站会被网络蜘蛛判断排除,导致抓取异常。造成服务器连接异常的原因通常是网站服务器过大,超负荷运转,通过检查浏览器是否正常访问。服务器异常会导致蜘蛛无法连接网站服务器,导致出现抓取失败。。网站和主机还可能阻止了网络蜘蛛的访问,需要检查网站和主机的防火墙。选择一款安全稳定,性能好的服务器是网站优化的根本前提。

091fbf46e2e3a89ac678f4342cc80db6.png

二.抓取超时

网站页面的加载速度一直是不可忽视的重点,对用户和搜索引擎的体验有着举足轻重的影响。用户访问页面时如果不能在第一时间打开页面,那么就会丧失兴趣,而跳到其他网站上去。而蜘蛛呢?同样如此,如果无法第一时间抓取,就会出现抓取超时问题了。 抓取超时,往往是因为带宽不足,以及页面太大而导致的。因此设计页面时应该对网页上的图片进行压缩;减少一些脚本的使用;控制页面长度和内链数量,可以在一定程度上缩减页面,减少服务器上的负担,缓解服务器过载的情况。

三. 网络运营商异常

国内主要的网络运营商有电信和联通。如果网络蜘蛛无法通过电信或联通的网络访问网站,则需要与网络运营商联系,购买拥有双线服务的空间,或者购买CDN服务。

四. DNS异常

当网络蜘蛛无法解析网站的IP地址,会出现DNS异常,这可能是由网址出现了IP地址错误,或者域名服务商将网络蜘蛛封禁的其中一种情况导致的。可以使用WHOIS或者host查询网站IP地址是否正确且可解析,如果不正确或无法解析,应与域名注册商联系,更新IP地址。

1959999ce17d3fa6fb186f04bcc67cbd.png

五. 设置错误

包括IP封禁和UA封禁。IP禁封是指限制网络的出口IP地址,禁止该IP段的使用者进行内容访问。而UA禁封则是针对服务器通过UA(用户代理)识别身份后的用户进行指定的跳转。这两种封禁都会导致网络蜘蛛无法正常到访抓取。应该识别设置是否误添加了相关搜索引擎网络蜘蛛的封禁。

六. 死链

死链就是页面已经无效,无法对用户提供任何有价值信息的页面,包括协议死链和内容死链两种形式:一种是协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。另一种内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。目前内容死链召回存在召回率的风险,所以建议各位站长尽量使用协议死链,以保证平台工具更好地发挥其作用。死链可通过死链工具提交给搜索引擎,减速死链造成的负面影响。

七.网站被挂马

网站被挂马也可能导致抓取异。查询挂马文件在哪里并删除,恢复网站,做好安全防范措施,防止下次被挂马。

216d2e1c4edb97e45dcdc703d2f662a1.png

各位站长平时要多多查看自己网站的网络蜘蛛抓取情况。如果发现偶尔抓取失败,则属于正常情况,不会对网站的正常抓取和收录造成影响。但如果抓取失败出现持续性的,则要引起注意了,根据网站出现抓取异常的具体原因做上述具体的分析。各位如果对网络蜘蛛抓取异常还存在其他疑问可以咨询【中网网络客】。

之后文章将会持续更新,为大家提供有质量的文章,尽情关注【中网网络客】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_704529.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快速排名系统询火星推荐_搜狗网站快速排名系统 - 新站权重如何快速提升

原出处:超级排名系统原文链接:http://www.chaojipaiming.com搜狗网站快速排名系统注册地址 seo.chaojipaiming.com 网站关键词快速排名优化,7-15天关键词排名到首页,PC端和移动端都可以优化,支持百度、搜狗、360、神马…

php网站添加cnzz,cnzz代码添加元素到页面

搜索热词首先在cnzz上注册账号后,他会给你以下代码:document.write(unescape("%3Cspan idcnzz_stat_icon_xxxxxxxxxx%3E%3C/span%3E%3Cscript src" cnzz_protocol "s19.cnzz.com/z_stat.PHP%3Fid%3D1252929438%26show%3Dpic1 typetext/…

Gradle自动化之自动打包并上传到fir测试网站

前言 每个项目都需要测试,没有测试的项目是无法发布到线上的 而由于安卓的碎片化,公司里测试需要测几种不同版本的系统和不同厂商(型号)的手机,所以我平时发的测试包必须放到某个服务器或网站上,通过二维码的方式给测试,这样才能让测试流程更方便 之前的流程都是,先打包,然后…

华为云服务的购买和建站

1、购买华为云服务(选择centos7.6)其他设置默认 2、去控制台先关机然后重置密码 3、设置安全组(相当于门卫) 4、常见端口 使用SSH SecureShell Client建站 使用Xshell6和Xftp6建站(推荐)

网站可以正常访问但ping不通

原因: 网站服务器为了防止DoS攻击,通常在防火墙里设置拦截ICMP报文,而ping报文正是ICMP报文的一种,当然ping不通了。 名称解析: DoS攻击:DoS是Denial of Service的简称,即拒绝服务&#xff0…

大型网站架构改进历程:存储的瓶颈(上)

大型网站架构改进历程:存储的瓶颈(上) width"22" height"16" src"http://hits.sinajs.cn/A1/weiboshare.html?urlhttp%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-01-22%2F2823669%2F1&t…

大型网站架构演变和知识体系--转

之前也有一些介绍大型网站架构演变的文章,例如LiveJournal的、ebay的,都是非常值得参考的,不过感觉他们讲的更多的是每次演变的结果,而没有很详细的讲为什么需要做这样的演变,再加上近来感觉有不少同学都很难明白为什么…

白话Elasticsearch48-深入聚合数据分析之 Percentiles Aggregation-percentiles百分比算法以及网站访问时延统计及Percentiles优化

文章目录概述官方说明示例Percentiles优化 compression概述 继续跟中华石杉老师学习ES,第48篇 课程地址: https://www.roncoo.com/view/55 官方说明 Percentiles Aggregation: 戳这里 示例 需求: 网站访问时延统计 为了演示…

白话Elasticsearch49-深入聚合数据分析之 Percentile Ranks Aggregation-percentiles rank以及网站访问时延SLA统计

文章目录概述官方说明案例概述 继续跟中华石杉老师学习ES,第49篇 课程地址: https://www.roncoo.com/view/55 官方说明 Percentiles Ranks Aggregation:戳这里 更多请参考官网 案例 需求:在200ms以内的,有百分之多少…

怎么取html网页中的样式,从建站到拿站 -- HTML和CSS基础

总有人会陪你在慌乱无序的生活里同步前行。。。---- 网易云热评一、简介HTML指的是超文本标记语言,使用标记标签来描述网页,标签是由尖括号和关键词组成,并且是成对出现,例如。二、一个完整的html网页周杰伦《说好不哭》词&#…

如何在时间紧迫情况下进行机器学习:构建标记的新闻 数据 库 开发 标记 网站 阅读1629 原文:How we built Tagger News: machine learning on a

如何在时间紧迫情况下进行机器学习:构建标记的新闻 数据 库 开发 标记 网站阅读1629 原文:How we built Tagger News: machine learning on a tight schedule 作者:David Robinson 翻译:Diwei 译者注:本文介绍了作者和…

织梦网站被黑客生成html,dedecms网站被挂马怎么处理

dedecms被批量挂马后如何处理?我们知道一般站长选择织梦系统是因为其支持生成静态页面以便于seo优化。但是根据西部数码west263.com开发工程师刘工介绍,一般被挂马的网站不单单是一个页面,目前的织梦挂马已经逐步演变呈多个目录,根…

jvm性能调优实战 - 61常用的JVM调优网站

文章目录线程Dump日志分析堆Dump可视化分析GC日志分析Alibaba ArthasAliabba jvmGeneratePerfMaPerfMa - XXFox (Java虚拟机参数分析)PerfMa - XSheepdog (Java线程Dump分析)PerfMa - XElephant (Java内存Dump分析)线程Dump日志分析 https://fastthread…

高并发高流量网站架构详解--转载

原文地址:http://www.ha97.com/818.html Web2.0的兴起,掀起了互联网新一轮的网络创业大潮。以用户为导 向的新网站建设概念,细分了网站功能和用户群,不仅成功的造就了一大批新生的网站,也极大的方便了上网的人们。但We…

零基础,最完整的WordPress建站教程

网站域名空间和数据库网站程序模板 1准备材料 【域名】 网址就相当于家的住址,记住和找到家的位置。可在阿里云,新网,爱名网或其它IDC商购买注册。 【空间和数据库】 就是盖房子的地基。同样可在阿里云,新网,爱名网…

微软新冠: 数据分析网站 COVID Insights

洞察疫情,微软推出新冠数据分析网站 COVID Insights COVID Insights 网站功能亮点 持续数月的新冠疫情一路肆虐、席卷全球,世界各地的科研人员都在为此奋战,希望通过最先进的技术逐步揭开新冠病毒的神秘面纱。 近日,微软亚洲研…

大型网站架构演化历程

http://www.hollischuang.com/archives/728 本文内容大部分来自《大型网站技术架构》,这本书很值得一看,强烈推荐。 大型网站系统的特点 高并发,大流量 需要面对高并发用户,大流量访问。Google 日均 PV 35 亿,日 IP 访问数 3 亿&a…

大型网站架构技术一览

http://www.hollischuang.com/archives/1132 本文内容大部分来自《大型网站技术架构》,这本书很值得一看,强烈推荐。 网站系统架构层次如下图所示: 1.前端架构 前端指用户请求到达网站应用服务器之前经历的环节,通常不包含网站业务逻辑&#…

Lambda架构与推荐在电商网站实践

王富平 现为1号店搜索与精准化部门架构师,之前在百度从事数据挖掘相关工作,对实时处理有着深刻的研究。一直从事大数据相关研发工作,2013年开发了一款SQL实时处理框架,致力于建设高可用的大数据业务系统。一、Lambda架构Lambda架构…

【数据分析】Python :视频网站数据清洗整理和结论研究

视频网站数据清洗整理和结论研究 要求: 1、数据清洗 - 去除空值 要求:创建函数提示:fillna方法填充缺失数据,注意inplace参数 2、数据清洗 - 时间标签转化 要求: ① 将时间字段改为时间标签 ② 创建函数提示&#…