华为抓取错误日志在哪里_网站日志数据分析教程

news/2024/5/20 22:20:52/文章来源:https://blog.csdn.net/weixin_39935092/article/details/109911826

网站日志的数据分析主要是使用相关工具进行,工具类型也有很多。

网页版可以用拉格好(www.loghao.com),桌面版可以用爱站或者光年,也可以使用shell分析日志。。。

分析日志的作用有很多,可以概括几点:

1.了解蜘蛛对页面的抓取情况,合理分配网站内链,优化抓取路径;

2.统计栏目页面的流量数据情况,对其做相应的策略调整(例如数据下降,可以分析原因,对另外一个栏目页面做AB测试进行观察等等);

3.提取出404页面,提交给百度进行处理;

4.如果是网站被黑,可以分析日志查看网站操作记录,以及找出假的百度蜘蛛IP等;

将日志文件下载至本地,我这里是宝塔,一般在www根目录可以找到日志文件。

使用网页版功能有限,只能看出来蜘蛛的抓取数量和返回代码情况,如图:

d01eb7314dd6900e8981a0ede844aabc.png

关于蜘蛛数量那里应该都看得懂,顺便解释下上面显示的低权重IP和权重IP(大神略过,据说科普)。

据说,百度创始以来,对蜘蛛是有分类的,有的蜘蛛专门抓取图片,有的专门抓取视频,有的专门抓取内容。。。。

这些ip统称为低权重ip(我也不知道哪里听来的),专门抓取新站或者是低质量的页面,新站在此期间应该这个类型123.125.71.*的ip,来的频率会灰常多。

123.125.71.95

123.125.71.97

123.125.71.117

123.125.71.71

123.125.71.106

那如果是一个老网站,这个频率的ip突然增加,那就要注意了,很有可能在被K或是降权的边缘。。。。

这个ip上面显示隔日快照,意思就是被他抓取过的页面,不出意外第二天都会被收录,或者快照会有更新。

220.181.108.95

这些ip称为所谓的“高权重ip”,即220.181.108.*,被他们抓取过的页面,收录速度和更新速度都会很快。

220.181.108.75

220.181.108.92

220.181.108.91

220.181.108.86

220.181.108.89

220.181.108.94

220.181.108.97

220.181.108.80

220.181.108.77

220.181.108.83

好的,ip段普及完了。。。。

在来看看左侧,可以看到一大串代码段。

620e39e7f6d05909996d3bc033066f15.png

其实我们截取一个完整的字段是这样的:

123.125.71.12 - - [07/May/2019:11:21:56 +0800] 'GET /gzjysc/83.html HTTP/1.1' 200 8274 '-' 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)'

一个个来看,都是什么意思。。。。

123.125.71.12:访问的ip;

07/May/2019:11:21:56 +0800:访问的时间段;

GET /gzjysc/83.html:访问的URL;

HTTP/1.1:网站的请求协议;

200:网站返回状态码;

Baiduspider/2.0; +http://www.baidu.com/search/spider.html:表示这是一个真实的百度蜘蛛;

ok,基础数据概念解释就到这里,接下来看看从日志文件里能得到哪些信息。

使用光年日志分析工具可以得出以下信息:

蜘蛛抓取量,百度抓取最多,其次是搜狗,发现这里居然没有360的蜘蛛,去设置里添加个360 Spider重新分析就可以了。

c8cc4a0da1affd704ade43d2f4b4281c.png

目录最多的抓取数量显示,每个蜘蛛抓取的目录次数是不同的,可以看到百度对/spmn/目录抓取最多,其实这个也不意外。。。因为这个目录页面的关键词排名最好!

cba466294802aa077782c8a6613a1f03.png

1ed8759c01e7523a85c171cc78060d8c.png

另外还可以看看404页面,把这些404的url放在一个txt文档里,取名silian,上传到根目录提交到百度站长平台即可。

b8e091e1825d87d3032dca0846850b09.png

d67c1aeffd8195a5e9b8f5c4d1461d13.png

其它的数据可以自己看看哈!

以上的方法对于分析普通的小企业站日志已经足够了,金花日志工具可以满足大部分的需求。

那对于一些日志文件比较大,不适合用工具的可以使用shell分析网站日志(以下纯属装X,可以略过)。

首先是打开日志文件。

09321054bf6df6748bbf69124fa193e6.png

分析蜘蛛抓取最多的页面:

cat your.log | grep 'Baiduspider/2.0' | awk '{print $7}' | sort | uniq -c | sort -nr | head -10

403c5b62bb91cd9907f996473fbc7256.png

可以看出,还是/spmn这个页面抓取的最多。。。。接下来才是首页。

找了些非200状态码的页面url:

cat test.log | grep 'Baiduspider/2.0' | awk '{if($9!="200"){print $7,$9}}' | sort | uniq -c | sort -nr

f83d09f19d7eb7e279ef5a483aee25d7.png

可以看到有哪些404、304等等状态的页面。。。。特别是找出404页面,根据上述提到的方法进行解决。

突然想到鲁迅先生说的:数据本身是没卵用的,分析数据,才是价值所在。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_722853.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML个人网站设计(源码)

关于前端,我觉得我是没有太多发言权的,毕竟本身对于设计这一方面并不是太感兴趣,但是学了几天吧,觉得也就这回事,考量的还是数学功底居多,前期很简单,后期的话,制作一些比较由难度的动画效果还是…

ckks方案优化最好的_如何更科学的进行SEO优化?保持排名稳定

网站SEO优化服务,常常被站长们称之为搜索引擎优化,为的是让网站参与关键词排名,获取大量展现和点击咨询,SEO让网站推广宣传变得有迹可循。一、科学制定网站SEO优化方案的前提网站在进行优化之前做好相关的优化方案对后期优化的开展…

seo查询工具源码_怎么查询网站是否被黑,查询网站是否被黑,被恶意污染的方法...

什么是网页挂马 网页挂马是指恶意攻击者攻击WEB网站后,在网页中嵌入一段代码或脚本,用于自动下载带有特定目的木马程序,而恶意攻击者实施恶意代码或脚本植入的行为通常称为“挂马”。 什么是SEO暗链 SEO暗链是SEO黑帽手法中相当普遍的一种手段…

php论坛有哪些_公司网站制作的方式和流程有哪些

每一个企业,务必有自身的网站,这就等同于是一张个人名片,是让他人认识你的必需方式。公司网站制作前,必须搞搞清楚,建网站的目地是啥,吸引住访问者的兴趣爱好点是啥,总体目标不可以设定过多&…

旅游网站的网页设计代码_深圳网页设计公司|高端网页设计【尼高网站设计】...

我们在网页设计前要考虑的比较多,除了网站的定位和目标,还有重要的市场。今天深圳尼高网站设计公司就简单的从线框设计来讲解一下对其他的影响。 我们创造任何产品的最终目的,也是最重要的目标是做到这一点,并使其满足用户的需求并…

wap建站程序源码_织梦程序搭建网站实例教程,想尝试搭建网站的朋友赶紧保存了...

在昨天跟大家分享了一个完整的个人网站搭建流程,对建站好奇的朋友不妨看看,但是有网友留言还是太复杂了,今天就以我的个人网站为例,跟大家说说一个网站是怎么上传上线的吧!域名的注册申请我是在2019年12月22日在阿里云…

url 收录工具_百度收录网站的必知技巧

解决百度收录的问题,是SEO职业的工作者最为头疼的一件事情。无论文章发布的觉得多有质量都不一定收录,而没有收录何谈排名,下面我们看解决百度收录的核心技巧。百度收录网站有一定的特性,也有一些我们常遇见的问题。但这里面有些能…

img加载本地图片_网站图片加载,尽享顺畅丝滑!

今家介绍如何让图片优雅地显示起初打开一篇文章加载动画很久下面的演示仅是因为浏览器已缓存实际第一次访问页面时须等待许久实际上我只是想要页面加载动画并不希望等待网页图片全部加载于是我想到了图片懒加载功能什么是图片懒加载?当打开一个页面时,只…

python提取word指定行的文字_PDF转WORD格式,提取图片中的文字,一个网址完美搞定!关键是免费!!!七教网站长亲测可用,推荐给大家!!...

昨天晚上,七教网教师朋友群里有老师咨询PDF格式转换成WORD格式的软件。当然有。既然老师们有需求,我一定全力帮助!转换的软件有很多,WPS 也有自带,只是需要花钱购买会员。既然不花钱就能搞定,何必去花钱呢。…

网站改版的需要注意的几个要点

http://www.williamlong.info/archives/2204.html改版,是一个问题。越来越多互联网公司产品人员意识到这个问题,无论是豆瓣的改版,还是Facebook的改版都遭到了用户的疯狂抵制。和传统1.0网站相比,2.0网站用户的力量被无限放大&…

分享30个最新的单页网站设计案例

单页网站是指只有一个页面的网站,这种形式的网站曾经非常流行,现在依然有很多人喜欢。不过,并不是每个网站都适合做成单页,一般都是内容比较少而且将来内容也不怎么增加的情况才适合这样做。如果你打算做一个这样的网站&#xff0…

宝塔面板网站一打开cpu百分百_软卓学堂 | 从购买服务器和域名到搭建网站

◆ ◆ ◆ ◆从购买服务器和域名到搭建网站◆ ◆ ◆ ◆使用工具:Xshell终端模拟器:Xshell是一个终端模拟软件,而且是远程近程都可以。就是模拟服务器所在的linux,在xshell中可以输入命令,就像在服务器的linux中输入命令…

ASP.NET MVC模型绑定的6个建议,徐汇区网站设计

ASP.NET MVC中的Model Binding使用起来非常简单。你的Action方法需要数据,在传入的HTTP请求中携带着你需要的数据,数据可以在请求的表单数据中,还可能在你的URL地址本身中。通过DefaultModelBinder,可以神奇地将表单中的数据和路由…

linux apache tomcat 配置域名,Apache+Tomcat 同一IP多域名多网站配置

最近帮人用ApacheTomcat在同一台IP的服务器上设置多域名指向不同网站站点,花费了不少的时间。尤其是配置信息的时候,从网上找的资料有很多是错误的,误认不浅。所以今天特意把它记下来,以备后面使用。首先说一下我的需求是这样&…

wap建站系统开源_建站程序推荐:开源免费的PHP在线模拟考试系统PHPEMS可商用

现在最新版为PHPEMS6.0和PHPEMS PRO1.0该系统基于PHP进行开发,是一款集在线考试、视频播放在线支付等功能PHPEMS6.0属于开源免费程序,您可以自由修改其中属于PHPEMS原创部分的代码。原则上您只要不通过出售PHPEMS相关源代码盈利,即可免费使用…

40款不容错过的个人摄影设计作品集网站

日期:2012-11-7 来源:GBin1.com 如果你不仅仅是网站设计师同时也是摄影师爱好者的话,那么拍摄高水准的摄影作品绝对可以为你的工作带来更大的帮助!你可以将这些照片处理后放到你设 计的网站上,绝对是件了不起的作品。…

dede服务器建站_Dedecms和Wordpress一键变为智能建站

Dedecms和Wordpress一键变为智能建站对于建站行业老鸟来说,Dedecms、WordPress、云指建站系统都是常用的工具了。效果都还不错,但是有各自的优缺点,下面小编带你一起来看看,希望对你有些帮助。织梦(Dedecms):对于程序不…

云服务器安装织梦网站,云服务器安装织梦cms

云服务器安装织梦cms 内容精选换一换简要介绍Joomla是一个屡获殊荣的内容管理系统(CMS),它使您能够构建网站和强大的在线应用程序。这些年来,Joomla已经获得过多个奖项。它构建在“模型-视图-控制器”Web应用程序框架上,该框架可以独立于CMS使…

利用火绒安全软件修改host文件,加速访问GitHub网站

利用火绒安全软件修改host文件,加速访问GitHub网站有时候我们需要设置一下host文件,来针对访问一些特定网站的速度,例如GitHub网站,在国内的网友来说,是一个痛点,本次介绍的是修改本地系统主机hosts文件&am…

自动更新的网站版权的年份

为什么80%的码农都做不了架构师&#xff1f;>>> <script type"text/javascript"><!-- Begincopyrightnew Date(); //取得当前的日期updatecopyright.getFullYear(); //取得当前的年份document.write("© Copyri…