SEO禁用蜘蛛(爬虫)搜索收录网页(全)

news/2024/5/14 14:57:07/文章来源:https://blog.csdn.net/weixin_33756418/article/details/92677908

手段一:

Robots协议:用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。
spider在访问一个网站是,会首先检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上抓取范围。
一般屏蔽有:隐私资料,表结构
robots文件是存在于网站的根目录下,首先会检查http://www.123.com/robots.txt这个文件。
robots格式:
User-agent: (代表所有搜索引擎)
Disallow:(不允许抓取的相对路径)
allow:(允许抓取的相对路径或文件)
robots.txt生成器:https://robots.51240.com/

文件用法
例:

  1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

实例分析:淘宝网的 Robots.txt文件:访问www.taobao.com/robots.txt

User-agent: BaiduspiderAllow: /articleAllow: /oshtml 
Disallow: /product/ 
Disallow: / User-Agent: Googlebot 
Allow: /article 
Allow: /oshtml 
Allow: /product 
Allow: /spu 
Allow: /dianpu 
Allow: /oversea 
Allow: /list 
Disallow: /User-agent: Bingbot 
Allow: /article 
Allow: /oshtml 
Allow: /product 
Allow: /spu 
Allow: /dianpu 
Allow: /oversea 
Allow: /list 
Disallow: / User-Agent: 360Spider 
Allow: /article 
Allow: /oshtml 
Disallow: / User-Agent: Yisouspider 
Allow: /article 
Allow: /oshtml 
Disallow: / User-Agent: Sogouspider 
Allow: /article 
Allow: /oshtml 
Allow: /product 
Disallow: / User-Agent: Yahoo! Slurp 
Allow: /product 
Allow: /spu 
Allow: /dianpu 
Allow: /oversea 
Allow: /list 
Disallow: / User-Agent: * 
Disallow: /

做个例子,分析第一条:

User-agent: Baiduspider
Allow: /article 
Allow: /oshtml 
Disallow: /product/ 
Disallow: /

显然淘宝允许百度能访问根目录下的article,oshtml,不允许访问product目录根目录下其他的目录


手段二:

除了设置robots协议之外,还可以在网页代码里面设置。

在网页<head></head>之间加入<meta name="robots" content="noarchive">代码。表示紧致所有搜索引擎抓取网站和显示快照。

  • NOINDEX:告诉Google不要索引含此标签的网页。但根据实际经验,Google并非100%遵守。
  • NOFOLLOW:告诉Google不要关注含此标签的网页里的特定链接。这是为了解决链接spam而设计的Meta标签。
  • NOARCHIVE:告诉Google不要保存含此标签的网页的快照。
  • NOSNIPPET:告诉Google不要在搜索结果页的列表里显示含此标签的网站的描述语句,并且不要在列表里显示快照链接。

  如果要针对某一个搜索引擎禁止抓取,在网页<head></head>之间加入<meta name="baidspider" content="noarchive">代码,表示禁止百度抓取,<meta name="googlebot" content="noarchive">表示禁止谷歌抓取,其他的搜索引擎一样原理。

这样,一共有四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"><META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"><META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"><META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">其中<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

手段三:

拒绝网站的站内搜索功能是支持输入HTML代码或者UBB代码

例如:

SEO禁用蜘蛛(爬虫)搜索收录网页(全)

防护方式:

1.屏蔽搜索引擎收录站内搜索页,或者关闭站内搜索功能

2.不屏蔽站内搜索,那需要及时发现站内搜索数据是否异常,再设置敏感词词库过滤一些黑灰产业的关键词,以及站内搜索必须是纯文本形式。


手段四:

通过搜索引擎提供的站长工具,删除网页快照

网址:http://tousu.baidu.com/webmaster/add
SEO禁用蜘蛛(爬虫)搜索收录网页(全)

手段五:

配置nginx的配置文件,增加http_user_agent字段进行禁止网络爬虫,直接返回403

例子:

server { listen 80; server_name _ ; (域名或者默认服务器地址) #添加防止哪些爬虫,下面做例子if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") { return 403; } 

或者

#新增location字段,并且匹配到了蜘蛛,则返回403location = /robots.txt {     if ($http_user_agent !~* "spider|bot|Python-urllib|pycurl"){        return 403;    }}

测试工具:http://s.tool.chinaz.com/tools/robot.aspx

注意:如果还是能够搜索到,是因为某搜索引擎不遵守robots协议约定,那么通过robots来禁止搜索是不够的。

转载于:https://blog.51cto.com/leoheng/2129526

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_824178.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

今日头条垂涎已久的Reddit,到底是个什么网站?

硅谷Live / 实地探访 / 热点探秘 / 深度探讨 在国内&#xff0c;说起新闻网站&#xff0c;我们肯定会想到今日头条、百度、搜狐、网易等等网站。 那么你们知道么&#xff1f;在美国&#xff0c;如果你问美国人他们最常逛的新闻社区是什么&#xff0c;回答中肯定会提及一个网站。…

如何确定一个网站是用Wordpress开发的

问题 如何确定一个网站是用Wordpress开发的&#xff1f; 答案 打开网页的源码页&#xff0c;可以通过搜索功能查找一下是否源码中包含wp-content。如果有这个文字&#xff0c;说明此网站基本就是使用wordpress程序创建的网站&#xff0c;因为wp-content是wordpress建站程序的一…

著名电子商务网站高并发千万级大型数据库经验之- 读写分离

由于公司的主服务器责任重大&#xff0c;而且满负荷跑了接近2年了&#xff0c;怕万一有闪失主服务器出现硬件故障后重新购买新服务器订货到货周期可能会比较长&#xff0c;所以公司在春节期间购买了一台更强大的新服务器来当备用服务器&#xff0c;购买的初衷就是防止出现硬件故…

利用shell脚本批量提交网站404死链给百度

网站运营人员对于死链这个概念一定不陌生&#xff0c;网站的一些数据删除或页面改版等都容易制造死链&#xff0c;影响用户体验不说&#xff0c;过多的死链还会影响到网站的整体权重或排名。百度站长平台提供的死链提交工具,可将网站存在的死链(协议死链、404页面)进行提交,可快…

全球最大同性交友网站,已经10岁了!

本文转自硅星人&#xff08;ID&#xff1a;guixingren123)作者&#xff1a;光谱1999 年上线的 SourceForge&#xff0c;因为免费一度是世界上最受欢迎的开源软件代码托管网站。然而 Google 担心它一家独大&#xff0c;上线了自家的代码托管网站 Google Code。2005 年&#xff0…

全球最大同性交友网站,已经10岁了!

本文转自硅星人&#xff08;ID&#xff1a;guixingren123)作者&#xff1a;光谱1999 年上线的 SourceForge&#xff0c;因为免费一度是世界上最受欢迎的开源软件代码托管网站。然而 Google 担心它一家独大&#xff0c;上线了自家的代码托管网站 Google Code。2005 年&#xff0…

采用LAMP网站架构(Linux+Apache+MySQL+PHP)

2019独角兽企业重金招聘Python工程师标准>>> LAMP指的Linux&#xff08;操作系统&#xff09;、Apache&#xff08;HTTP 服务器&#xff09;&#xff0c;MySQL&#xff08;数据库软件&#xff09; 和PHP&#xff08;有时也是指Perl或Python&#xff09; 的缩写&…

在免费的亚马逊服务器上手写个人网站是什么体验(文中有大量福利,别外传)

目录 本文引言部分&#xff1a; 本文必读部分&#xff1a; 本文福利白嫖部分&#xff1a; 接下来让我们在白嫖的亚马逊云服务Amazon EC2手写网页&#xff1a; 在亚马逊服务器上写网页三步走&#xff1a; 总结Amazon EC2(云服务器)的一些优势&#xff1a; 本次在亚马逊AW…

SEO网站怎么优化,才能让排名靠前?

随着搜索引擎的发展&#xff0c;SEO行业&#xff0c;同时也在发展&#xff0c;几乎每天都会有影响网站排名的细微因素在改变&#xff0c;对于SEO人员&#xff0c;我们熟知百度搜索引擎原理&#xff0c;但理论与实践&#xff0c;仍然有一定的差别。 特别是当你试图让网站排名提…

38岁老男孩个人建站方向求教

我不想做现在的工作想法已有很久了&#xff0c;现在想就此请个长假&#xff0c;来专心做网站&#xff0c;觉得自己做发展空间还是会很大&#xff0c;我的年龄已不小&#xff0c;也不想就此在公司混日子&#xff0c;就请高手指点一二。 自身状况&#xff1a;本人38岁&#xff0c…

一朵奇葩:卖家具的网站,搞起了区块链?

硅谷Live / 实地探访 / 热点探秘 / 深度探讨还记得小探第一次在美国逛家居店买家具的时候&#xff0c;内心简直是崩溃的。。比如&#xff0c;这张看起来并无特别之处的沙发&#xff0c;猜猜多少钱&#xff1f;顶多两、三百美元&#xff1f;事实证明&#xff0c;小探还是太乃衣服…

wordpress网站需要ftp更新解决办法

想要解决很简单&#xff0c;vi wp-config,php 、进入之后将以下的代码全部复制粘贴进去&#xff1a;  define("FS_METHOD","direct");  define("FS_CHMOD_DIR", 0777);  define("FS_CHMOD_FILE", 0777);我改的时候这个文件不让修…

如何用Python爬网站数据,并用BI可视化分析?

作为一名在数据行业打拼了两年多的数据分析师&#xff0c;虽然目前收入还算ok&#xff0c;但每每想起房价&#xff0c;男儿三十还未立&#xff0c;内心就不免彷徨不已~ 两年时间里曾经换过一份工作&#xff0c;一直都是从事大数据相关的行业。目前是一家企业的BI工程师&#xf…

网站安装打包 webconfig修改[三]

2019独角兽企业重金招聘Python工程师标准>>> 在net中&#xff0c;在System.Configuration.ConfigurationManager中&#xff0c;提供了几个静态方法&#xff0c;用来修改配置文件。 如:System.Configuration.Configuration config System.Configuration.Configurati…

8款插件使你的网站移动响应

下面是一些有用的插件&#xff0c;另一个伟大的收集。这一次&#xff0c;我们的重点是前8插件&#xff0c;使你的网站移动响应。插件来这里是为了加快工作流程&#xff0c;简单的工作流程&#xff0c;从而提高了生产力。这些天来&#xff0c;这是你的敏感的网站必须工作在台式机…

q_i7p_co/index_php rmvb_某返利网站admin目录index.php文件混淆加密算法分析

---恢复内容开始---文件已经加密&#xff0c;可以在此下载&#xff1a;index.php文件内容打开大概如此&#xff1a;简单字符替换之后&#xff0c;发现字符串用base64_decode仍无法解码。找到一个解码网站&#xff1a;找源码解码后的文件如下&#xff1a;下载地址尾部仍然有大量…

网站的数据库怎么上传到服务器,网站的数据库怎么上传到服务器

网站的数据库怎么上传到服务器 内容精选换一换GaussDB(DWS) 支持多数据源高效入库&#xff0c;典型的入库方式如下所示。详细指导请参见《数据仓库服务数据库开发指南》中的导入数据。从OBS导入数据数据上传到OBS对象存储服务中&#xff0c;再从OBS中导入&#xff0c;支持CSV&a…

opencart 网站电脑可以访问 手机端访问域名被重写

在header.php 删除这些代码转载于:https://www.cnblogs.com/SherryLovesCode/p/6645111.html

html中使用什么标签做的导航栏_网站导航:7个最佳实践,设计技巧和警示

一些小的事物可以创造大的变化&#xff0c;网站导航栏就是一个很好的例子。导航的结构和标签可能会对结果产生巨大影响&#xff0c;原因如下&#xff1a;导航会影响流量&#xff1a;你的网站在搜索引擎中的排名高低会影响你从搜索中获得的流量量的多少导航会影响转化&#xff1…

网站二次开发如何防止别人打包源码_建站公司不给网站源码和代码怎么办?

建站公司不给网站源码的纠纷由来已久&#xff0c;今天正好我们标兵seo的客户因为网站被黑导致和建站公司产生纠纷最后我们帮助下拿回了网站源码。为避免企业建站踩雷今天我们来聊聊如何避免建站公司不给网站源代码的问题。建站分类说起建站我们要区分一下哪些情况不会给源码。自…