网站的SEO以及它和站长工具的之间秘密(转)

news/2024/5/8 12:17:16/文章来源:https://blog.csdn.net/weixin_33698043/article/details/94691535

博客迁移没有注意 URL 地址的变化,导致百度和 google 这两只爬虫引擎短时间内找不到路。近段时间研究了下国内最大搜索引擎百度和国际最大搜索引擎google的站长工具,说下感受。

  • 百度的站长工具地址:http://zhanzhang.baidu.com/dashboard/index
  • google 的站长工具地址: https://www.google.com/webmasters/tools/home

最近墙的比较厉害,google 不一定能访问进去(我平时用的 GreenVPN,还挺不错的,速度快,支持的国家也多)。

站长工具的作用是为了辅助开发者,针对自己的网站做出更加合理的网页布局和代码优化,以便让 spider 更好地理解网页,从而将最准确的信息送达到用户的荧屏上。它对搜索引擎和开发者是双赢的。

Web 发展极快,由于客户端厂商纷纭加之开发者没把重点放在 web 标准上,直到 2014 年的 10 月底才有了统一的标准。用户输入关键词,搜索引擎要在 0.1s 内将网络上的资源汇聚起来,这个过程中计算的开销、数据整合的开销是极大的,如果我们开发的网页不能让 spider 准确理解,最后的结果就是,写的东西很难出现在用户面前。

搜索引擎对网页的理解

摸索两个站长工具,感触最深的是结构化数据(Structured Data),结构化数据不是把文章段落分清楚、标题写清楚,实际上你文章段落分的再清晰,爬虫机器也不知道你在表达什么,所以数据结构化是给爬虫看而不是给人看的。HTML 标签的数量很有限,有限的几个标签没办法表达网页上每一个元素的含义,比如一个小的图标、一个广告位、一个蒙层等,于是网页上出现了很多 class 名、id 名来标记一个元素。这些内容的统一让爬虫理解的略微透彻了一些,比如:

复制代码
.banner: 一张banner广告位
.sidebar: 侧边导航栏
.nav: 主导航
.icon: 页面小图标
.post: 一篇文章
.post-title: 文章标题
复制代码

在一个需要表达的块上加上 itemscope 属性和一个 itemtype 属性,itemtype 是有固定值的,具体可以参阅 schema.org 的说明。然后在块内添加详细的说明,使用 itemprop 标注。整个操作十分简单,略微麻烦的是需要对照 schema 的官方网站填写规定的 itemprop 字段。然而搜索引擎聚合的网页太多,当这些五花八门的 class 出来之后,它又开始迷茫了,难以较好的聚合分类。所以出现一个叫做 Schema 的东西,它用来表示一个结构化数据结构,可以看下面一个 schema 示例:

复制代码
<div itemscope itemtype="http://schema.org/Person">   <span itemprop="name">李靖</span> <img src="http://barretlee.com/avatar.png" itemprop="image" /> <span itemprop="jobTitle">攻城师</span> <div itemprop="address" itemscope itemtype="http://schema.org/PostalAddress"> <span itemprop="streetAddress">文一西路969号</span> <span itemprop="addressLocality">浙江杭州</span> <span itemprop="postalCode">310000</span> </div> <span itemprop="telephone">(0571) 123-4567</span> <a href="mailto:barret.china@gmail.com" itemprop="email">barret.china@gmail.com</a> 李靖的主页: <a href="http://barretlee.com" itemprop="url">barretlee.com</a> </div>
复制代码

结构化数据,通常也可以称之为元数据,这些数据附着在网页文本信息内,厘清了页面上每个部件的功能、属性和意义。当机器进入网页的时候,能够像人一样,一眼瞄出要表达的内容。关于 schema ,以前翻译过一篇文章 SEO:让搜索引擎对你的网站更有亲和力。

SEO和站长工具的之间秘密

除非搜索引擎能够猜到你要搜索的具体的 URL 地址,一般地,它都会从自己的数据索引库中扒拉数据。对于权重高、更新频率高、原创内容多的网站,搜索引擎会十分勤快的爬最新内容。那么,如何让搜索引擎知道网站上有多少网页便成了一件重要的事情。

我们经常会听到一个叫做”网站地图”的东西。有些网站会在自己的站点中添加一个页面,这个页面包括了整站的重要入口,那么这个页面就是该页面的网站地图。这些地图是给人看的,如果只想给爬虫引擎看,可以将所有的链接按照一定的格式放到 sitemap.xml 文件中,然后把这个文件放到网站的根目录下,如 http://www.barretlee.com/sitemap.xml。

而最重要的还是 robots.txt 这个文件,它是所有引擎约定俗成的一个文件,比如我的网站中用到的 http://www.barretlee.com/robots.txt ,其内容为:

Sitemap: http://www.barretlee.com/sitemap.xml
User-agent: *
Allow: /

SEO上,站长工具主要分为两个方面,一个是对网页的抓取,一个是对网页的分析。它告诉搜索引擎,网站地址的位置、允许蜘蛛爬取的内容等,它是一个协议。最近,貌似还多了一个 humans.txt,也是一个比较有意思的文件,可以在这里了解它:http://www.humanstxt.org.cn/,它可以描述一些站点和团队的故事。

网页的抓取在百度站长工具中体现的比较多,而网页的分析,诸如数据标注、结构化数据等,百度做的还比较搓,目前还在内测阶段,需要发送邮件才能申请权限。看到百度站长工具页面上的几个数据标注示意图,揣测应该比 google 弱一百倍,所以我还是重点说说 google 的吧。

网页的抓取

这块上,两个站长工具都是强调让开发者把网站地图显式的暴露给搜索引擎,提供了各种分析网站地图准确性合理性的工具,搜索引擎如果发现你的网站上一个地址时有时无,就会觉得你不可信有点飘渺。所以一旦网页因为改造或迁移导致页面链接丢失,可以在站长工具中填写这些死链。

不要贪婪的让搜索引擎不停的爬取你的网站,如果它多次过来发现内容是一样的,它也会很伤心的离开。而如果它发现每次过来爬你的内容都能找到很有意思的、从来没发现过的东西,它会对你越来越感兴趣,甚至日久天长它会给你定型、定位,然后权重会越来越高。在站长工具上都是可以设置的。

网页的分析

google 的数据化标记做的实在是太赞了!输入网址,它会打开你的网页,设置你要标记的类型,比如文章。选中页面上的元素然后标记。比如选中文章的标题,选中之后有一个菜单,在菜单上选择 title,选中作者名字,然后菜单上选择 author,一个页面标记完了之后,他会分析整站的所有页面,如果结构相似,也会自动标记其他页面。

整个标记完成之后,google 就知道你整个网站的信息架构了,下次要做的就是对这些信息内容做匹配和分类。所以我们可以看到,个人博客在 google 中的搜索是极其靠前的,因为页面的信息结构简单,即便你不去标记,它爬取多次之后也能自己理解。

对比百度和 google ,两者如同屌丝和高富帅。不过高富帅总是要越墙才能看到,所以我平时使用的依然是百度分析。百度分析和百度站长工具还是不一样的。百度对网页流量的分析和搜索词汇的分析还是挺精准,也很有参考价值。

小结

本文对 SEO 相关的东西做了一个简要的概述,同时也概括了搜索引擎做的一些工作,知识量有限,难以面面俱到,如有错误还请斧正。

转载于:https://www.cnblogs.com/softidea/p/4822107.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_749133.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大型网站技术架构(八)网站的安全架构

2019独角兽企业重金招聘Python工程师标准>>> 从互联网诞生起&#xff0c;安全威胁就一直伴随着网站的发展&#xff0c;各种Web攻击和信息泄露也从未停止。常见的攻击手段有XSS攻击、SQL注入、CSRF、Session劫持等。 1、XSS攻击 XSS攻击即跨站点脚本攻击&#xff08;…

Nodejs建站笔记-注册登录流程的简单实现

1. 使用Backbone实现前端hash路由 登录注册页面如下&#xff1a; 初步设想将注册和登录作为两个不同的url实现&#xff0c;但登录和注册功能的差距只有form表单部分&#xff0c;用两个url实现显然开销过大&#xff0c;所以最终方案为使用hash作为前端路由&#xff0c;根据url的…

搜索引擎优化(SEO)解决方案

搜索引擎优化&#xff08;SEO&#xff09;解决方案 在此之前&#xff0c;希望大家能重新审视搜索引擎&#xff0c;通俗来讲就是我们日常所用的百度、谷歌、搜狗、雅虎等。磨刀不误砍柴工&#xff0c;知己知彼&#xff0c;百战不殆&#xff01; 一、搜索引擎是什么&#xff1f; …

关于大型网站技术演进的思考(一)--存储的瓶颈(1)

转自&#xff1a;http://www.cnblogs.com/sharpxiajun/p/4237704.html 前不久公司请来了位互联网界的技术大牛跟我们做了一次大型网站架构的培训&#xff0c;两天12个小时信息量非常大&#xff0c;知识的广度和难度也非常大&#xff0c;培训完后我很难完整理出全部听到的知识&a…

怎样高效利用PPT模板网站找到适合自己的PPT模板

我相信许多人喜欢在需要制作PPT时制作PPT。虽然我已经学到了很多PPT制作技巧&#xff0c;但我也收集了很多图片&#xff0c;图标&#xff0c;PPT模板等&#xff0c;但是当我真正使用它时&#xff0c;我仍然不知道该怎么做&#xff0c;然后我只是用了模板直接&#xff0c;节省时…

电子商务网站比较常用的缓存策略架构

缓存是分布式系统中的重要组件&#xff0c;主要解决高并发&#xff0c;大数据场景下&#xff0c;热点数据访问的性能问题。提供高性能的数据快速访问。 这次主要是分享下自己觉得比较通用的一个缓存策略的架构方案,也是比较 容易理解的.欢迎吐槽. 有更牛逼的也欢迎大家说下: 缓…

Cookie注入靶场:模拟公司网站

靶场 这是一个靶场的样子 随意点击一个连接&#xff0c;发现是有id号的&#xff0c;但是id前面有shownews.asp这个东西。这个就是典型的Cookie注入标志 Cookie注入标志 有着如同.asp?idxxx的url通常我们先去掉前面的?idxxx 看它是否显示正常&#xff0c;如果不正常&#x…

css 背景透明_想给网站换个背景图?这个神器提供超多免费素材

网页比较少有背景图需求&#xff0c;多半都是以单色为主&#xff0c;如果觉得略显单调&#xff0c;也能使用纹理材质或渐层色做为背景&#xff0c;例如 Paper-co 就有许多日系的纸张纹理材质可用做背景&#xff0c;不仅看起来可以提升质感&#xff0c;也不会影响阅读造成负担&a…

python检测端口是否被占用_「查看端口占用」Windows下如何查看某个端口被谁占用并强制关闭 - seo实验室...

查看端口占用一、查看那个端口被调用我告诉大家一个方法&#xff0c;^_^。1、 开始—->运行—->cmd&#xff0c;或者是windowR组合键&#xff0c;调出命令窗口&#xff1b;2、输入命令&#xff1a;netstat -ano&#xff0c;列出所有端口的情况。在列表中我们观察被占用的…

SEO深度解读之HITS链接分析算法

HITS(Hyperlink - Induced Topic Search)链接分析算法诞生在1997年&#xff0c;该算法是由康奈尔大学中的一位博士提出&#xff0c;并且该算法沿用于全球多个搜索引擎当中。当然&#xff0c;不同的搜索引擎针对于该算法的侧重点和内部公式都有不一的算法结构调整&#xff0c;并…

linux smb 远程,测试过程、扩展研究 - Linux系统下用smbclient命令来访问Windows共享_Linux教程_Linux公社-Linux系统门户网站...

基本测试过程如下&#xff1a;1、 访问c$共享&#xff1a;[rootrh root]# smbclient //192.168.60.188/c$ -U cmwPassword:smb: \> cd winntsmb: \winnt\>2、 访问temp共享(启用guest帐户)[rootrh root]# smbclient //192.168.60.188/tempPassword:(未输入任何密码)smb: …

《网站情感化设计与内容策略》一1.6 情感和记忆

本节书摘来自异步社区《网站情感化设计与内容策略》一书中的第1章&#xff0c;第1.6节&#xff0c;作者 【美】Aarron Walter , Erin Kissane&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看 1.6 情感和记忆 情感体验在我们的长期记忆中会留下深刻的印记。我…

网站的第一印象

个人觉得商业网站的风格还是简洁点好&#xff0c;看起来舒服&#xff0c;就可以了&#xff0c;没必要去追求什么视觉冲击力。如果是个人主页做得个性点&#xff0c;要求视觉冲击力&#xff0c;可以让人留下深刻的印象&#xff0c;不过要求视觉冲击力的个人主页&#xff0c;一般…

百度网站收录教程(个人版)

让百度搜索到有两种方法&#xff0c;一种是等百度主动来爬取你的网站&#xff0c;还有一种是你自己主动提交给百度告诉它来爬取。第一种周期太过漫长&#xff0c;所以本文就讲第二种 1.准备网站 首先&#xff0c;想要做SEO的同学&#xff0c;需要考虑清楚所选择的前端框架。现在…

超神奇的四个在线网站,万万没想到他们竟然这么好用!

说起一下在线网站我们多多少少能够知道一些比较好用的网站&#xff0c;但是今天小编要分享的这些网站要比我们之前介绍的一些网站还要好用&#xff01;你们准备好了吗&#xff1f; 一.放大图片 网址&#xff1a;http://waifu2x.udp.jp/index.zh-CN.html 图片太小&#xff1f;想…

c语言 界面编程 毕业设计,《C语言程序设计》课程网站的设计与实现(ASP.NET,SQL)...

《C语言程序设计》课程网站的设计与实现(asp.NET,SQL)(毕业论文12000字,程序代码,SQLserver数据库)本课程网站采用C#语言和asp.net技术并利用SqlSever数据库进行开发&#xff0c;结合了B/S框架技术&#xff0c;实现课程教学管理新方式&#xff0c;主要是针对管理员&#xff0c;…

网站截图工具EyeWitness

2019独角兽企业重金招聘Python工程师标准>>> 网站截图工具EyeWitness 在网页分析和取证中&#xff0c;往往需要大批量的网站截图。Kali Linux提供了一款网站批量截图工具EyeWitness。该工具不仅支持网址列表文件&#xff0c;还支持Nmap和Nessus报告文件。在Web请求的…

php qq授权_网站接入QQ登录(PHP版)【最新教程 05.14更新】,亲身失败百次的总结...

开发阶段(偏前端的同学可以查看 JS版 教程)3.1. QQ互联 官网提供了 SDK 以及对应的 示例代码&#xff0c;但是为了帮助同学们更好理解&#xff0c;我进行了部分删减&#xff0c;力求最简单的方法实现目的。官方SDK3.2. 因为是写教程&#xff0c;所以代码就尽量简单明了一点。实…

服务器网站首页被被修改,为什么网站首页被降权 原因和解决方法分析

小小课堂seo&#xff1a;最近看到不少人再说网站首页被百度搜索引擎降权&#xff0c;到底为什么首页会被降权?我们可以做哪些调整来恢复网站首页权重?今天&#xff0c;小小课堂网为大家带来的是网站首页被降权的原因和解决方法。小小课堂seo希望对大家有所帮助。一、为什么网…

好资源网站

正文字体大小&#xff1a;大 中 小好资源网站 (2011-01-06 11:31:17) 转载▼标签&#xff1a; it 分类&#xff1a; 电子商务1.酷网代码;http://www.5icool.org非常不错 网页特效---焦点幻灯图片特效 导航菜单 广告代码 在线客服 表单按钮 其它特效 网页教程----HTML CSS Jav…