通过网站日志做网络爬虫和恶意访问分析

news/2024/5/1 5:30:54/文章来源:https://blog.csdn.net/iteye_17322/article/details/81692182

http://www.sunnyu.com/?p=4

 

今天公司网站系统发生短暂的访问中断,虽然临时性的通过重启网站服务达到正常运作的目的,但是后续的分析工作还是要做的。

首先使用命令

  1. cat www.access.log | grep spider -c

  1. cat www.access.log | wc

分别查看有爬虫标志的访问次数和合计的总页面访问次数,发现还有爬虫标志的访问次数超过总访问次数的 10%, 访问显得有些不正常。

使用

  1. cat www.access.log | grep spider | awk '{print $1}' | sort -n | uniq -c | sort -nr

命令查看爬虫来ip地址来源,发现主要来至于 124.115.4.*和124.115.0.* 这两个地址段。

在防火墙上对其地址做限制。

/etc/sysconfig/iptables 中添加规则

-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 80 -s 124.115.0.1/24 -j REJECT
-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 80 -s 124.115.4.1/24 -j REJECT

service iptables restart 使限制生效

一些已知的爬虫可以在 http://www.wangzhongyuan.com/archives/367.html 看到。可以针对自己的情况做一下分析处理,有选择性的让一些爬虫来访问。当然这个地址列出的都是一些比较有名的爬虫,如Googlebot, Baiduspider,Sogo,Yahoo等都是比较上规矩的,对他们可以通过robots.txt进行爬虫访问规则的设置,而那些较稀奇的比如这里 列出的 Sosospider等就没有被列出,所以更多的小爬虫和恶意的访问还是要自己来具体分析处理的。

从网站日志文件中找出爬虫和恶意访问

一般可以对网站访问日志做分析,通过分析单位时间里面某个ip访问服务器的次数等信息来找出爬虫的来源地址和恶意访问的来源地址,比如通过

  1. cat www.access.log | awk '{print $1 " " substr($4,14,5)}' | sort -n | uniq -c | sort -nr | head -20

这么一个命令就可以列出在一分钟内访问网站次数最多的前20位ip地址。

而通过

  1. cat www.access.log | grep 60.190 .128 .6 | awk '{print $1 " " substr($4,14,5)}' | sort -n | uniq -c | sort -nr | head -20

这个命令则可以查看一天中某个ip地址对网站服务器的访问时间分段情况。

对这些命令中表现出的数量比较突出的一些ip地址,一般来说就是有问题的ip了,在配合

  1. cat www.access.log | grep ip地址

可以看看这些高强度的地址访问都在干些什么。是不是正常访问,如果不是就要考虑是否要做限制了。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_886947.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10个分析、测试网站加载速度的工具

自Google宣布页面的加载速度会影响PageRank算法以来,虽然大概只占1%,想尽方法来优化您的网站或者博客依然是非常好的选择。 以下10个免费的工具是可以为您测试网站速度 并因此而提供各种建议,从中您会找到您的网站速度比较慢的原因并采取措施如果去提升性能。 1. Page Speed…

SEO网站优化是什么

seo分类。 细化来看,所有有利于网站关键词排名提升的点,都可以归纳于seo,为便于理解,我们将seo分为站内seo和站外seo。 1:站内seo。 什么是站内seo?通俗来讲,就是指网站内部优化,…

震惊!某知名网站sojson.com站长竟为别墅抛弃百万群友,至群友无家可归

事发突然,群名都改了,然而早有先兆 这是我当时搜的,csdn,有20页文章,有这个网址,还是带com的结果,实际更多 百度收录

【本地ASP网站】Microsoft OLE DB Provider for ODBC Drivers

错误提示: Microsoft OLE DB Provider for ODBC Drivers 错误 80004005 [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序 原因: 网站“应用程序池”为启用32位应用程序 解决办法: 控制面板->管理工具->…

【新浪微博接口】网站接入微博秀

1 登陆微博开放平台: http://open.weibo.com/ 完成认证信息,并审核通过 2 按照如下步骤 step 1 step 2 step 3 step 4 最后把这段iframe代码放到你的网站里边,效果如下 转载于:https://www.cnblogs.com/richerdyoung/p/7279523.html

IIS10下网站由HTTP转为HTTPS访问,使用阿里云服务器,详细调试过程

1. 前置条件 笔者主要做Java后端的开发,之前都不知道IIS是什么,大家可以认为是Windows环境下的Tomcat。网站的服务器在阿里云上,使用的是Windows server 2016。最开始我要做到的是在官网如http://www.a.com使用https://www.a.com能够访问&am…

centos8 阿里源 Errors during downloading metadata for repository ‘BaseOS‘:问题解决

centos8 阿里源 Errors during downloading metadata for repository BaseOS:问题解决 阿里云官方说明地址问题如下原因地址变化解决方案后记 阿里云官方说明地址 点击这里看阿里云官方说明 问题如下 # yum update CentOS-8 - Base 29 B/…

高并发的大型网站架构设计

最近在学习大型网站的架构设计,便想把学习过程中的一些东西总结记录下来,以便复习和巩固提高。先来看看大型网站架构图: 从左边开始,先是CDN服务器和反向代理服务器,都用于缓存一些用户需要请求的资源。两者的区别在于…

dedecms织梦做中英文(多语言)网站详解

有很多网友都问过我,用dedecms织梦程序如何做中英文网站,今天就给大家来一个详细的图文教程,希望能帮助到大家。 以下所讲的和截图是本人用dedecms织梦程序制作过的一个5国预言网站,下面开始教程。 一、首先在后台建栏目&#x…

织梦手机网站建设 并配置二级域名

现在手机站很流行,如何用织梦程序建手机站并实现数据同步呢?我们都知道通过开发实现数据同步还是比较麻烦的,咱们就来说下利用织梦自动的手机wap浏览是如何实现手机网站建设并配置二级域名的。 首先为织梦安装手机wap浏览模块:找到…

武汉网站建设技术哪家强,武汉八音猫科技

网站建设技术哪家强,中国武汉找八音猫科技。 一、武汉网站建设成功的关键有时候网页设计占了五成。一个成功的网站可以让用户记住你的网站,记住你的品牌,实现高转化。那么怎么才能设计一个成功的网站呢? 1. 吸引眼球第一步&#…

CentOS6.5服务器配置建站环境详细流程

CentOS6.5服务器配置建站环境详细流程 之前的Win主机上挂了十几个WordPress网站,客户普遍反映后台操作已经慢到不行。于是我租了一台新的云主机,这次下决心要搞定Linux 主机了,同样的配置,Linux跑WordPress肯定要快不少&#xff…

vue-cli3.0(@vue/cli)设置网站标题时找不到index.html问题解决

需求 使用Vue做课程设计,需要更改一下网站的题目和图标。 默认效果 想要实现的效果 背景颜色不同是由于上面的浏览器开了暗色模式。 问题 根据在网上查找,很容易得知对于标题只需要很简单的修改index.html里的一行代码即可。对于图标,除…

基于阿里云的网站搭建

阿里云_网站建设——部署与发布 1.建站的基本步骤 (1)网站的访问过程: (2)建网站的基本步骤: (3)域名的分类: 注意:中文和英文就是看一看是否可以包含汉字 …

电商购物网站如何调用第三方支付平台(支付宝,财付通,盛付通等)

各个平台传递参数有所不同,流程基本是一致的。 通常第三方的支付平台都会有一个关于平台api的开发指南,在里面介绍了需要传递参数,返回的参数。 首先是组装平台需要的参数,post到支付宝: Java代码 /** * 发送支付宝htt…

在GitHub上搭建自己的静态网站

问题: 写了网站,在没有买服务器的情况下让别人可以访问: 步骤: 1.准备好要发布的网站的HTML文件 2.下载并安装好GitHub客户端(在客户端操作更加方便): 地址1:https://desktop.github.com/ 地址2: https://pan.baidu.com/s/1SypPfb9yIIQgC9XkXs_NxQ 提取码:u4ve …

网站课程设计(简单线上购物商城)

网站课程设计(简单线上购物商城) 1.开发环境 ​ VS2019,SQL2012,ASP.NET开发 2.项目主题 ​ ​ ​ ​ ​ ​ ​ 刚好完成了网站的课程设计,觉得该好好纪念一下((✪ω✪)),这是一个简易线上购物平台,只是实现了一部分基础功能,例如商品的浏览,添加购物车收藏等.(项目代码在文…

机器学习实战——第二章之改进约会网站的配对效果

三种类型:不喜欢的-1,魅力一般的-2,极具魅力的-3。 样本特征:每年获得的飞行常客里程数,玩视频游戏所耗时间百分比,每周消费的冰淇淋公升数。 1 from numpy import *2 import matplotlib3 import matplotli…

图像网站下载图片

图像网站下载图片 文章目录 准备工作方法一:方法二: 准备工作 实现从百度图片中下载某一类型的图片 import requests from selenium import webdriver通过webdriver打开浏览器,如果遇到问题可以参考https://blog.csdn.net/weixin_49374896…

婚外情网站的谎言和资料外泄故事 企业该吸取怎样的教训

近日被曝全球最大的偷情网站Ashley Madison已遭黑客组织入侵,黑客宣称已掌握超过3700万已婚外遇男女的个人资料,除非达到他们的要求,否则将公布客户的真实姓名、裸照、信用卡详细资料与“性幻想内容”。Ashley Madison去年曾推出只要支付19美…