服务器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站

news/2024/5/9 8:42:19/文章来源:https://blog.csdn.net/weixin_33705053/article/details/92385369

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

一、Apache

①、通过修改 .htaccess 文件

修改网站目录下的.htaccess,添加如下代码即可(2 种代码任选):

可用代码 (1):

 
  1. RewriteEngine On 
  2. RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python–urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC] 
  3. RewriteRule ^(.*)$ – [F] 

可用代码 (2):

 
  1. SetEnvIfNoCase ^User–Agent$ .*(FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python–urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT 
  2. Order Allow,Deny 
  3. Allow from all 
  4. Deny from env=BADBOT 

②、通过修改 httpd.conf 配置文件

找到如下类似位置,根据以下代码 新增 / 修改,然后重启 Apache 即可:

Shell

 
  1. DocumentRoot /home/wwwroot/xxx 
  2. <Directory “/home/wwwroot/xxx”> 
  3. SetEnvIfNoCase User–Agent “.*(FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)” BADBOT 
  4.         Order allow,deny 
  5.         Allow from all 
  6.        deny from env=BADBOT 
  7. </Directory> 

二、Nginx 代码

进入到 nginx 安装目录下的 conf 目录,将如下代码保存为 agent_deny.conf

 
  1. cd /usr/local/nginx/conf 
  2. vim agent_deny.conf 
 
  1. #禁止Scrapy等工具的抓取 
  2. if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { 
  3.      return 403; 
  4. #禁止指定UA及UA为空的访问 
  5. if ($http_user_agent ~* “FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$” ) { 
  6.      return 403;             
  7. #禁止非GET|HEAD|POST方式的抓取 
  8. if ($request_method !~ ^(GET|HEAD|POST)$) { 
  9.     return 403; 

然后,在网站相关配置中的 location / { 之后插入如下代码:

Shell

 
  1. include agent_deny.conf; 

如下的配置:

Shell

 
  1. [marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf 
  2. location / { 
  3.         try_files $uri $uri/ /index.php?$args; 
  4.         #这个位置新增1行: 
  5.         include agent_deny.conf; 
  6.         rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last; 
  7.         rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last; 
  8.         rewrite ^/sitemap_m.xml$ /sitemap_m.php last; 

保存后,执行如下命令,平滑重启 nginx 即可:

Shell

 
  1. /usr/local/nginx/sbin/nginx –s reload 

三、PHP 代码

将如下方法放到贴到网站入口文件 index.php 中的第一个

PHP

 
  1. //获取UA信息 
  2. $ua = $_SERVER[‘HTTP_USER_AGENT’]; 
  3. //将恶意USER_AGENT存入数组 
  4. $now_ua = array(‘FeedDemon ‘,‘BOT/0.1 (BOT for JCE)’,‘CrawlDaddy ‘,‘Java’,‘Feedly’,‘UniversalFeedParser’,‘ApacheBench’,‘Swiftbot’,‘ZmEu’,‘Indy Library’,‘oBot’,‘jaunty’,‘YandexBot’,‘AhrefsBot’,‘MJ12bot’,‘WinHttp’,‘EasouSpider’,‘HttpClient’,‘Microsoft URL Control’,‘YYSpider’,‘jaunty’,‘Python-urllib’,‘lightDeckReports Bot’); 
  5. //禁止空USER_AGENT,dedecms等主流采集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT 
  6. if(!$ua) { 
  7.     header(“Content-type: text/html; charset=utf-8”); 
  8.     die(‘请勿采集本站,因为采集的站长木有小JJ!’); 
  9. }else{ 
  10.     foreach($now_ua as $value ) 
  11. //判断是否是数组中存在的UA 
  12.     if(eregi($value,$ua)) { 
  13.         header(“Content-type: text/html; charset=utf-8”); 
  14.         die(‘请勿采集本站,因为采集的站长木有小JJ!’); 
  15.     } 

四、测试效果

如果是 vps,那非常简单,使用 curl -A 模拟抓取即可,比如:

模拟宜搜蜘蛛抓取:

Shell

 
  1. curl –I –A ‘YisouSpider’ bizhi.bcoderss.com 

模拟 UA 为空的抓取:

Shell

 
  1. curl –I –A ” bizhi.bcoderss.com 

模拟百度蜘蛛的抓取:

Shell

 
  1. curl –I –A ‘Baiduspider’ bizhi.bcoderss.com  

转载于:https://my.oschina.net/u/3371661/blog/3009449

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_783465.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

见多识广:CodePen项目网站简介

见多识广&#xff1a;CodePen项目网站简介 by zhangxinxu from http://www.zhangxinxu.com 本文地址&#xff1a;http://www.zhangxinxu.com/wordpress/?p2499 一、CodePen是干嘛的&#xff1f; CodePenclick for visit!顾名思意&#xff0c;codepen, 即“代码笔”&#xff0c…

大型网站技术架构(六)网站的伸缩性架构

2019独角兽企业重金招聘Python工程师标准>>> 网站系统的伸缩性架构最重要的技术手段就是使用服务器集群功能&#xff0c;通过不断地向集群中添加服务器来增强整个集群的处理能力。“伸”即网站的规模和服务器的规模总是在不断扩大。 1、网站架构的伸缩性设计 网站的…

postgre sql 括字段_啥?我写的一条SQL让公司网站瘫痪了...

【51CTO.com原创稿件】一条慢查询会造成什么后果?之前我一直觉得不就是返回数据会慢一些么&#xff0c;用户体验变差?图片来自 Pexels其实远远不止&#xff0c;我经历过几次线上事故&#xff0c;有一次就是由一条 SQL 慢查询导致的。那次是一条 SQL 查询耗时达到 2-3 秒「没有…

Nginx配置网站适配PC和手机

背景 访问同一个域名&#xff0c;需要实现在电脑访问时&#xff0c;访问电脑版&#xff0c;在移动端访问时&#xff0c;访问手机版。 传统的做法可能是进入一个页面时&#xff0c;判断屏幕宽度&#xff0c;根据宽度显示电脑版还是手机版&#xff0c;其实Nginx也可以完成这个判…

如何访问局域网的网站【路由器设置端口映射】

转载请注明出处。 原文作者&#xff1a;宋发元 原文链接&#xff1a;http://blog.csdn.net/u011019141/article/details/53709668 一直以来&#xff0c;在开发中我都使用花生壳对内网的地址做映射&#xff0c;以此达到访问内网的网站资源。但是这之间经过花生壳转发这一折腾&…

概要设计 重要性_深度剖析外贸网站设计必须要做的SEO关键词布局 - 外贸老船长强烈推荐...

外贸网站设计最全面的SEO优化布局导读&#xff1a;设计高质量的外贸营销型网站其中关键词布局优化非常重要&#xff0c;如果你的外贸网站仅仅是设计的很美观好看&#xff0c;但是关键词没有做优化布局的话&#xff0c;相当于一个“花瓶”&#xff0c;客户搜索不到你的网站&…

毕业设计html旅游网站,毕业设计--旅游网站的设计与实现(论文)

毕业设计--旅游网站的设计与实现(论文) 旅游网站的设计与实现旅游网站的设计与实现 论文论文 学 生 姓 名 ** 学 号 专 业 班 级 计算机网络 指 导 教 师 123 I 摘 要 随着计算机技术&#xff0c;网络技术的迅猛发展&#xff0c;Internet 的不断普及&#xff0c;网络在各个领域…

反向索引和自增索引区别_网站建设SEO优化和SEM搜索引擎营销,区别与联系全在这里了...

经常会有人问网站建设SEO优化和SEM搜索引擎营销到底存在什么关系&#xff0c;我找了一个做优化的是不是就可以不再招sem人员了?也有一部分新入行的小伙伴也常常会混淆他们之间的关系&#xff0c;所以我决定一次性把这个问题真正的讲清楚&#xff0c;说透彻。一、什么是SEO优化…

火星浏览器_【工具网站】火星个人导航

现在已存在的网站已经超过十亿&#xff0c;(同时每时每刻也有网站在不断诞生和消失)。有许多网站可能已经融入我们的生活&#xff0c;给我们带来价值&#xff0c;但是也有一些网站可能你都没用过&#xff0c;甚至没听说过。别人不知道的&#xff0c;如果自己知道了&#xff0c;…

网站下面的文件找不到_收藏好这些网站应该没有找不到的字体了!

字体对于一幅设计作品的重要性应该是无需多言了。不同的字体&#xff0c;对应着不同的气质&#xff0c;也就对应着不同的设计风格。但有时候我们费劲千辛万苦也找不到一款合适的字体&#xff0c;甚至都不知道应该去哪里找&#xff01;这可不蛋疼吗&#xff0c;再找不到好看的字…

阿里P9架构师讲解从单机至亿级流量大型网站系统架构的演进过程

阶段一、单机构建网站网站的初期&#xff0c;我们经常会在单机上跑我们所有的程序和软件。此时我们使用一个容器&#xff0c;如tomcat、jetty、jboos&#xff0c;然后直接使用JSP/servlet技术&#xff0c;或者使用一些开源的框架如mavenspringstructhibernate、mavenspringspri…

无法从该网站添加应用_降低跳出率的9个网站设计技巧

在登陆网站的前几秒钟内&#xff0c;用户决定是否要进一步滚动或退出该网站。一种强大的Web设计是一种鼓励用户留在网站上而不跳到其他网站的设计。要创建这样的网页设计&#xff0c;这里有一些简单的技巧&#xff0c;可以极大地提高跳出率。1.制定计划&#xff1a;第一步不应该…

《HTML CSS设计与构建网站》书评之-异类的风格,不一样的效果

《HTML & CSS设计与构建网站》 书评之 异类的风格&#xff0c;不一样的效果很高兴在此向大家推荐一本制作网页所需要的书籍&#xff0c;它就是《HTML & CSS设计与构建网站》&#xff0d;五星畅销书籍&#xff0c;本书是由(美)达科特(Duckett, J.) 著&#xff0c;刘涛&a…

那些著名网站的90年代

它们都是显赫一时的品牌&#xff0c;Smashing Apps 几个月前曾发过一篇文章&#xff0c;介绍27个著名品牌的网站 &#xff0c;它们引领当今 Web 设计风潮&#xff0c;然而&#xff0c;从没有哪个领域象 Web 设计这样&#xff0c;10年便恍若隔世&#xff0c;本文搜集一些著名品牌…

win10iis网站服务器,win10iis无法开启|如何开启win10专业版系统iis

win10iis无法开启|如何开启win10专业版系统iis1、我们只要按下键盘上的Windows X 进入后我们点击”控制面板“ 选项&#xff0c;打开进入;2、然后在打开控制面板下面我们点击“程序”选项&#xff0c;然后我们打开进入细节如下图所示;3、在进入到程序管理界面中我们点击“启用…

华为云该网站服务器错了,验证服务器出错

验证服务器出错 内容精选换一换如果请求因错误导致未被处理&#xff0c;则会返回一条错误响应。错误响应中包括错误码和具体错误描述。表1列出了错误响应中的常见错误码。如果您已经完成了域名授权验证配置&#xff0c;且域名验证未生效&#xff0c;请参照本章节进行处理。操作…

VS2012+Win7网站发布详细步骤

VS2012Win7网站发布详细步骤 本机环境&#xff1a;本文分三个部分介绍Web项目发布的常规方法&#xff0c;大神级别可以略过&#xff0c;主要是为了方便一些初学者。 第一部分&#xff1a;VS2012把项目发布到文件系统。 第二部分&#xff1a;IIS配置发布好的项目。 第三部分&…

30个创意网站推荐

当你开始设计一个新的网站&#xff0c;很重要的事情是要挑选一个风格相匹配的品牌&#xff0c;在今天的文章中&#xff0c;你会发现一些有灵感创意&#xff0c;醒目和互动的网站设计。灵感会改善和形状的网页设计师创作技巧。。在这篇文章中&#xff0c;我们将展示30个创意网站…

vs2012 网站无法使用自定义服务器的解决方法

我已经习惯新建一个Asp.net网站时把它挂载在IIS下调试运行,在使用Visual Studio 2012后,新建网站配置启动选项时,自定义服务器居然不可用 原来是Visual Studio 2012内置 IIS Express ,并把它设置网站的默认启动选项, 而在之前版本都是使用Visual Studio Development Web服务器,…

大型网站架构系列:电商网站架构案例(2)

大型网站架构系列&#xff1a;电商网站架构案例(2) 原文:大型网站架构系列&#xff1a;电商网站架构案例(2)电网网站架构案例系列的第二篇文章。主要讲解网站架构分析&#xff0c;网站架构优化&#xff0c;业务拆分&#xff0c;应用集群架构&#xff0c;多级缓存&#xff0c;分…