xml 前言中不允许有内容_如何禁止搜索引擎收录指定网页内容 | 网站 robots.txt 文件配置方法...

news/2024/5/9 20:52:35/文章来源:https://blog.csdn.net/weixin_39624700/article/details/109983733

点击蓝字关注我02150bef45e3d1a2faaac2b12b80464b.png

获取 高效/实用/好玩 的工具软件和教程

前言

搜索引擎通过网络蜘蛛(机器人)抓取网页的内容,并展示在相关的搜索结果中。但是有些网页内容我们可能并不想被搜索引擎收录和索引,如管理员后台等。

我们就可以通过 robots.txt 文件来声明允许/禁止搜索引擎的抓取工具抓取某些目录或网页,从而禁止搜索引擎收录指定网页内容。

本文详细介绍下网站的 robots.txt 文件配置和使用方法,以及 robots.txt 怎么写,并分享几款 robots.txt 生成工具。

什么是 robots.txt

robots.txt 是存放在网站根目录下的一个纯文本文件,用来告诉网络蜘蛛本站中的哪些内容允许爬取,哪些内容是不允许爬取的。

搜索引擎的蜘蛛在访问网站时,也会首先检查该网站的 robots.txt 文件,获取允许在网站上的抓取范围。

需要注意的是,robots.txt 只是一种大家约定俗成的规则,并不是强制措施,有些搜索引擎是不支持的,因此它不能保证网页内容一定会/不会被抓取。

robots.txt 文件设置规则

# 格式和位置

  • 文件名必须为 robots.txt(全部小写);

  • 文件格式为 UTF-8 编码的纯文本文件;

  • 必须放在网站根目录下,可通过 www.example.com/robots.txt 访问到;

  • 每个网站有且只能有一个 robots.txt 文件;

  • 对子域名和端口同样有效,如 blog.example.com;

  • # 开头的后面为备注内容;

  • 注意要使用英文字符。

c3c46cd6c9baf44ca5148a583ccd1537.png

# 指令语法说明

每条记录均由 字段: 值 组成,如 Sitemap: https://example.com/sitemap.xml。

  • User-agent:用于指定指令所作用于的目标抓取工具(网络蜘蛛),后接抓取工具名称;

  • Disallow:指定不允许抓取的目录或网页,后面为空则表示允许抓取一切页面;

  • Allow:指定允许抓取的目录或网页;

  • Sitemap:站点地图的位置,必须是绝对路径;

  • *:表示通配符;

  • $:表示网址结束;

  • /:匹配根目录以及任何下级网址。

一组记录示例:

# 禁止谷歌抓取网站 news 标签下的所有内容user-agent: googlebotdisallow: /tag/news

实用 robots.txt 写法示例

如果网站没有 robots.txt 文件,可以手动创建并上传到网站根目录下;即使没有需要禁止搜索引擎收录的网页,也建议添加一个空的 robots.txt 文件。

请注意文中的“仅”“允许”“禁止”的区别!

32fbcb1e78432bfc4535ec5649507565.png

路径匹配示例:(↓截图自 Google Developers)

c7de5e91f0c4463862f4f036a0236d6a.png

Tips

# 常用搜索引擎蜘蛛名称

  • 谷歌蜘蛛:Googlebot、Googlebot-Mobile、Googlebot-Image;

  • 百度蜘蛛:Baiduspider、Baiduspider-mobile、Baiduspider-image;

  • 搜狗蜘蛛:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider;

  • 必应蜘蛛:bingbot;

  • 360蜘蛛:360Spider;

  • 有道蜘蛛:YoudaoBot;

  • 雅虎蜘蛛:slurp;

  • Yandex蜘蛛:yandex。

如果不知道蜘蛛的名称可以查看一些大站的写法参考,如 https://www.baidu.com/robots.txt。

# robots.txt 生成工具

  • http://tool.chinaz.com/robots/

  • http://www.jsons.cn/robots/

a8a1a5788f005af3f5b333db5601983f.png

# 参考资料

  • Robots.txt 规范 | 搜索 | Google Developers

  • 创建 robots.txt 文件 - Search Console帮助

  • 禁止搜索引擎收录的方法 搜索学院 百度搜索资源平台

结语

网站的 robots.txt 文件就相当于一份网站声明,用来告知来访蜘蛛 “网站中想/不想被搜索引擎收录的指定网页和内容路径”。

对于大多数搜索引擎都有效果,但是也有些不支持的搜索引擎,可以使用 meta 标签来强制禁止(见漫游器元标记和 X-Robots-Tag HTTP 标头规范)。

ps. 由于公众号版式限制精简了一点链接和内容~

关注&分享朋友(圈)

拯救 良心(但不火)的个人公众号 646c399b711c4fa19ed028cdacd427e6.png

795537b36668abfe261fbb601b3cfcf4.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_801021.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

85个国外优秀的响应式网站设计作品范例【系列二】

响应式网页设计是时下网页设计领域最热门的话题之一,该概念由著名网页设计师 Ethan Marcotte 在2010年5月份提出(详见:Responsive Web Design),其目标是要让设计的网站能够响应用户的行为,根据不同终端设备…

网站推广apahce 与 php整合

2019独角兽企业重金招聘Python工程师标准>>> 网站推广整合apache和php 1.修改apache的配置文件httpd.conf 1)在httpd.conf文件中找到有很多LoadModule的地方,在最后加上如下语句: LoadModule php5_module E:/soft_work/PHP/php5apache2_2.dll…

分享国外电商网站的七大时尚设计元素

最近一直想写个案例关于电商网站设计,从国内的电商网站中寻求素材,始终没有想要的,不得已收集了国外电商网站的一些设计元素,南京SEO陈奇个人认为,那是追随时尚的设计元素,当然这篇文章也是既《国外常见电商…

seo全攻略_网站外链怎样才能被快速收录呢?网站外链优化最全攻略

网站是企业在互联网平台盈利的一个有力工具,可以说如果没有网站,就等于放弃了一种有效的营销方式,真的是非常遗憾。因为这种营销方式相比广告投放,性价比更高,企业获客的主动性也更强。所以,越来越多的企业…

Server2008如何卸载MySQL_「完美卸载」完美卸载SQL Server 2008 R2 的方法,适合所有问题 - seo实验室...

完美卸载最近遇到了一件烦心事,在安装sql Server 2008 R2总是在Analysis Services选项那里出现错误,安装了一整天也没好,真的是按了又卸载,之后在按,为此我很苦恼,经过百度查询,终于找到本文&am…

鼠标移至div内部其他层时,触发mouseout

话说有一个DIV元素,其内部有一个IMG元素和SPAN元素,不用理会这两个内部元素怎么布局,这不是我要讨论的重点。 为了实现一些特殊的效果,我需要利用TD的onmouseover和onmouseout事件,测试时就会发现如下的状况&#xff1…

前端基础-CSS网站图标和字体图标

网站图标和字体图标 1.网站图标 作用:一个好的ico图标可以加深用户对于网站的记忆。降低用户记忆成本,就好像现在说道熊爪大家都能够想到度娘,更多的属于用户体验。有利于识别当前窗口是在哪个网站。 制作流程: ​ &#xff0…

JSP网站开发基础总结《九》

本篇属于附加篇,在之前的总结中给大家提到过一个关于登录状态验证的效果,当时是通过Session对象完成的,今天我查了一下,JSP为我们封装了一个用于过滤用的过滤器类Filter,通过它我们就可以非常轻松的完成之前的那个功能…

网站优化应重视 DNS 预获取(DNS Prefetching)

2019独角兽企业重金招聘Python工程师标准>>> 网站优化技术总是在进化。今天重新阅读了一下以前的前端优化笔记,发现对于 YSlow 优化 34 条准则关于减少 DNS 查找 (Reduce DNS Lookups)的部分或许应该修正一下了。 DNS 作为互联网的基础协议,其…

一步一步教你用PHP+MySql搭建网站 No.7 关键字和搜索

本篇是这系列教程的最后一篇了。 我们看到还有几个页面没有讲到,分别是 keywords相关页面 和search相关页面 将这两部分放在一起是因为search是搜索的关键字找到文章的。因为这本教材是比较老的教材了,所以里面的架构设计可能也比较老。 截止到目前&…

八个python免费自学网站一周熟练python(抓紧收藏)

PS:本文顺序无主次之分纯属我个人排版时候随便的顺序!!!,另外可以把这篇文章分享给身边需要学习的人,帮助别人也是帮自己嘛 嘻嘻而且顺便说一下一周之内基础知识完全可以掌握的,至于能力提升就看…

【Machine Learning in Action --4】朴素贝叶斯过滤网站的恶意留言

背景:以在线社区的留言板为例,为了不影响社区的发展,我们需要屏蔽侮辱性的言论,所以要构建一个快速过滤器,如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。过滤这类内容是一个很常…

10月第3周网络安全报告:境内被篡改网站升至4202个

IDC评述网(idcps.com)10月27日报道:根据CNCERT抽样监测结果和国家信息安全漏洞共享平台(CNVD)发布的数据得悉,在10月第3周(2015-10-12至2015-10-18)期间,我国互联网网络安…

基于Google排名因素对Drupal进行SEO优化

2014年9月15日,SearchMetrics发布了《2014年搜索排名因素研究》(2014 Ranking Factory Study)。通过分析了10000条搜索结果,并为网站和它们的搜索排名建立联系而得出了一系列有关影响网站搜索排名的因素。本文我们便来看看使用哪些…

一些OJ网站

为什么80%的码农都做不了架构师?>>> https://leetcode.com/ http://www.lintcode.com/ http://www.spoj.com/ http://www.hihocoder.com/problemset http://www.jisuanke.com/ https://www.hackerrank.com/ http://www.smartoj.com/ http://www.51nod.c…

美食网站响应式精美模板

本模板为自适应宽度模板,可兼容PC,手机等多种环境,适应不同屏幕大小宽度。预览图片:进入下载页:http://hovertree.com/h/bjaf/bnbpkr9p.htm效果预览http://hovertree.com/texiao/muban/1/ 转自:http://hove…

MVC5 网站开发之四 业务逻辑层的架构和基本功能

业务逻辑层在Ninesky.Core中实现,主要功能封装一些方法通过调用数据存储层,向界面层提供服务。 目录 奔跑吧,代码小哥! MVC5网站开发之一 总体概述 MVC5 网站开发之二 创建项目 MVC5 网站开发之三 数据存储层功能实现 MVC5 网站开…

mysql全外连接和笛卡尔积_「笛卡尔积」mysql 内连接、左连接会出现笛卡尔积? - seo实验室...

笛卡尔积这周的部门周会,分享的同事说的是数据库优化相关,过程中,一个同事跟我讨论左连接查询,是不是笛卡尔积。我第一反应,左连接肯定不是笛卡尔积啊,左连接是以左表为准,左表有m条记录&#x…

linux 获取网站预览图,Shell脚本实现获取网页快照并生成缩略图

获取网页快照并生成缩略图可分两步进行:1、获取网页快照2、生成缩略图获取网页快照这里我们用 phantomjs 来实现。关于 phantomjs 的详细用法可参考官方网站。http://phantomjs.org/1、安装我的环境是CentOS6.5,安装时直接下载 tarball 然后解压即可。# …

火车头免费版为zencart网站采集多张图片

相信很多刚开始学习火车头的菜鸟们,也和烂泥一样使用的是火车头免费版,然后为我们的zencart网站进行一些产品数据的采集。但是在写采集规则的时候,会经常碰到的一个问题就是如何采集一个产品的多张图片。 采集一张图片的规则,相信…