SEO优化之浅谈蜘蛛日志

news/2024/4/27 8:49:13/文章来源:https://blog.csdn.net/weixin_34092370/article/details/88806550

  很多时候,日志文件只在网站出现问题的时候才会被查阅,在SEO方面,更是容易被大家忽略的一块内容。殊不知通过蜘蛛日志文件,我们可以获取各种信息并能发现站点存在的一些问题,对于SEO其实是至关重要的。

什么是蜘蛛日志

  假设我们的站点使用了nginx做反向代理,一旦有请求到达网站服务器,nginx会生成相应的日志文件。蜘蛛日志就是当搜索引擎向服务器发送请求时产生的访问记录文件。

蜘蛛日志在哪

  nginx会生成名为access.log的日志文件,蜘蛛产生的浏览记录就保存在这里。这个文件默认记录了一天内的访问记录,之前的日志会被自动分割压缩,当然,这个分割时间是可以自己手动修改的,需要根据自己的日访问量做决定。

  使用find / -name access.log命令可以找到访问日志文件所在的位置。这条命令的意思是从根目录里查找名为access.log的文件。

image

  我这里的日志位于/var/log/nginx/目录下,使用命令cd /var/log/nginx/进入该文件夹。

  这里需要提的一点是如果access.log文件比较大,比如多达几十兆,就不建议在服务器上直接查看了,而是应当把它下载到我们自己的机器上去分析,因为分析日志需要的一些命令比较占用资源,很可能会因此影响生产环境中的正常业务。

日志内容分析

  我们首先看一下日志的组成部分。日志的格式和内容是可以通过配置自己定义的,我们在这里只分析默认情况下的日志格式。

221.221.153.47 - - [25/Jun/2018:11:39:13 +0800] "GET / HTTP/1.1" 200 19285 "https://www.baidu.com/from=844b/bd_page_type=1/ssid=0/uid=0/pu=usm%401%2Csz%401320_2001%2Cta%40iphone_1_11.3_3_604/baiduid=6EC3CDA4AF6......" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) CriOS/67.0.3396.87 Mobile/15E216 Safari/604.1"
  1. 221.221.153.47 - 客户端的IP地址
  2. [25/Jun/2018:11:39:13 +0800] - 访问时间
  3. GET - 请求方式
  4. /news/7fcfca6a-0e14-42a0-a9f8-c0ffca0d8ab5 - 请求地址
  5. HTTP/1.1 - 请求协议
  6. 200 - HTTP状态码,关于状态码的内容请搜索查阅,这里不再赘述
  7. 19285 - 请求的页面大小
  8. https://www.baidu.com/from=84... - 来源地址
  9. Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) App... - 客户端浏览器的相关信息,我们简称为Agent

  这里列出一些常见的搜索引擎Agent信息,这部分的内容来源于网络,且与时效性有关,仅供参考,建议在使用的时候查找最新的Agent信息。

Google蜘蛛 :Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)  
Baidu蜘蛛 :Baiduspider+(+http://www.baidu.com/search/spider.html)  
Yahoo!蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)  
Yahoo!中国蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)  
微软Bing蜘蛛 :msnbot/2.0b (+http://search.msn.com/msnbot.htm)  
Google Adsense蜘蛛 :Mediapartners-Google  
有道蜘蛛 :Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/)  
Soso搜搜博客蜘蛛 :Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm)  
Sogou搜狗蜘蛛 :Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)  
Twiceler爬虫程序 :Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)  
Google图片搜索蜘蛛 :Googlebot-Image/1.0  
俄罗斯Yandex搜索引擎蜘蛛 :Yandex/1.01.001 (compatible; Win16; I)  
Alexa蜘蛛 :ia_archiver (+http://www.alexa.com/site/help/webmasters)  
Feedsky蜘蛛 :Mozilla 5.0 (compatible; Feedsky crawler /1.0)  
韩国Yeti蜘蛛:Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)

  看到这里,我们就可以通过客户端Agent来过滤掉我们不想要看到的日志。由上面的列表我们知道,百度的Agent信息为Baiduspider+(+http://www.baidu.com/search/spider.html),因此我们可以根据Baiduspider关键词来对日志进行过滤,以此来筛选百度蜘蛛的访问记录。

怎样查看蜘蛛日志

  在这里总结一些常用的分析命令。

  1. cat access.log | grep Baiduspider

获取百度蜘蛛的详细爬取记录

  1. cat access.log | grep Baiduspider | wc -l

统计百度蜘蛛的爬取次数

  1. cat access.log | grep Baiduspider | grep "GET url"

统计百度蜘蛛爬取某个页面的记录,命令中的url为页面的相对地址

  1. ......

  上面命令中的grep是个比较强大的文字搜索工具,我们可以使用这个工具来匹配搜索文本,精确找出我们想要看的日志内容,减少筛选时间,提升工作效率。所以,可以根据实际的场景,输入关键词来过滤日志,灵活地进行拓展。

如何利用蜘蛛日志

  1. 通过蜘蛛日志,我们可以知晓蜘蛛是否对站点进行了抓取,以及抓取是否成功。我们可以以此来判断我们的网站程序是否符合搜索引擎的抓取规范,发现抓取失败的原因。
  2. 通过蜘蛛日志我们可以统计蜘蛛的抓取频次。有些恶意蜘蛛会频繁对网站抓取,如果蜘蛛访问频度过高,很可能会正常服务的运行,可以通过对日志的分析,发现恶意蜘蛛的足迹,并限制其访问频率甚至禁止其访问,以保障服务器的稳定。可以通过robots.txt文件制定蜘蛛的访问规则,搜索引擎的蜘蛛会严格遵守这个文件。
  3. 通过日志文件,我们可以分析蜘蛛的访问路径,优化我们的站点结构。

挖掘日志更多信息

  1. 排查网站错误。可以通过日志中的状态码分析网站是否存在问题,例如存在死链、程序错误、页面失效等;
  2. 分析用户行为习惯。通过日志文件,我们可以发现用户对整站页面的访问次数、访问时间和访问路径。以此得出用户的行为习惯和关注点;
  3. 获取用户画像。通过分析日志,可以知道用户的地理区域、来源地址、浏览设备以及搜索引擎等信息;
  4. 防范恶意攻击。对日志中高频访问的用户进行鉴定,阻止非正常的高频度访问,避免不必要的资源浪费。

结语

  本文只给出了日志分析的方法和操作,更多的细节需要结合站长工具做深入的研究。纸上得来终觉浅,需要各位读者去在实际场景中摸索更多的技巧和解决方案。SEO非一日之功,比的就是谁能做到更极致!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_737898.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mysql在大型网站的应用架构演变

转自:http://www.cnblogs.com/Creator/p/3776110.html 写在最前: 本文主要描述在网站的不同的并发访问量级下,Mysql架构的演变 可扩展性 架构的可扩展性往往和并发是息息相关,没有并发的增长,也就没有必要做高可扩展性的架构&…

Asp.net网站路径

使用网站中的资源时,通常必须指定资源的路径。例如,您可以使用 URL 路径引用页面中的图像文件或网站中其他位置处的页面的 URL。同样,Web 应用程序中的代码可以使用基于服务器的文件的物理文件路径对文件进行读写操作。ASP.NET 提供用于引用资…

网站迁移的方法

1. 备份数据库 登录网站管理平台,在“扩展”菜单下的“数据库工具”栏中的“请选择数据链接池”区域中选择在使用的数据链接池,这时在下面会显示相应的表单文件名,全部选择后单击“开始备份数据”,备份完成后会弹出“备份成功”的…

Wss3入门(1):一步一步使用Windows SharePoint Service 3.0搭建Blog网站

开篇 Windows SharePoint Service 3.0内建了Blog模板,所以有些TX看到这个标题肯定觉得比较奇怪,认为Wss3只要一步就可以建好Blog网站了,没有什么好说的。其实,还是有些东西要修修改改的,一些东西的默认设置并不是我们…

网页设计期末大作业-音乐电影网站

网页设计期末大作业-音乐电影网站 (下载链接在末尾) 点我下载资源

前端期末大作业-html/css-视频音乐网站

前端期末大作业-html/css-视频音乐网站 点我下载资源

网页设计前端期末作业-课设-大学娱乐网站

网页设计前端期末作业-课设-大学娱乐网站 网站如下图所示:(资源链接在文末) 点我下载资源

网页设计前端期末作业-二手车教育网站(附下载链接)

网页设计前端期末作业-二手车教育网站 点我下载资源

网页设计课设-冰雪奇元店影相关内容网站

网页设计课设-冰雪奇元店影相关内容网站 点我下载资源

网页设计大作业-电器售卖网站

网页设计大作业-电器售卖网站 点我下载资源

商城网站-网页设计大作业

商城网站-网页设计大作业 网站有导航栏,注册登录功能,轮播图,各种商品标签等等,详细情况请看下图: (资源链接在文末) 点我下载资源

网页设计网站框架-用于制作前端大作业

网页设计网站框架-用于制作前端大作业 若干个网站框架,首页的框架已经弄好(导航栏,轮播图等等),只要自己链接就可以,适合用于期末大作业,详细情况请看下图所示:(点我下载…

使用WebDeployment Project改善VS2005发布网站问题 (三) 常见问题

一、发布后网站浏览时出现乱码(http://www.cnblogs.com/chy710)如果页面编码是gb2312,可能会有此问题,请使用utf-8编码,vs2005中打开页面切换到HTML视图,选择[文件] / [高级保存选项],选择utf-8,保存,OK。二、发现不明…

大型网站技术架构(四)网站的高性能架构

2019独角兽企业重金招聘Python工程师标准>>> 网站性能是客观的指标,可以具体体现到响应时间、吞吐量、并发数、性能计数器等技术指标。 1、性能测试指标 1.1 响应时间 指应用执行一个操作需要的时间,指从发出请求到最后收到响应数据所需要的时…

网页设计期末大作业-我得世界游戏网站(免积分下载)

网页设计期末大作业-我得世界游戏网站(免积分下载) 包含下拉导航栏,轮播图,注册登录,作业文档等等,适合初学者学习使用,如下图: 点我下载资源 点我下载资源

网页设计期末作业-江南展网站

网页设计期末作业-江南展网站 点我下载资源 有导航栏,轮播图,搜索栏,注册登录功能等等,适合初学者学习使用,详细情况请看下图: 点我下载资源

网页设计,前端大作业-个人主页网站

个人主页网站(下载链接在文末),个人介绍,比较简单的一个网站适合初学者学习使用 点我下载

文学网站,HTML大作业,前端大作业,

网页设计大作业-文学网站(下载链接在文末) 点我下载 https://download.csdn.net/download/weixin_43474701/34668643

网页设计大作业 个人主页网站

个人主页网站 详情如下图:(下载链接在文末) 点我下载资源 https://download.csdn.net/download/weixin_43474701/60341820

网页设计大作业 卖红酒网站

卖红酒网站 详情如下图(下载链接在文末) 点我下载链接 https://download.csdn.net/download/weixin_43474701/60348862