给自己的网站加上robots.txt

news/2024/5/20 1:45:45/文章来源:https://blog.csdn.net/weixin_30564901/article/details/97214528

今天给自己的网站加了一个robots.txt,在网上收集整理了一些资料,给自己网站也加上了robots.txt ! 顺便给大家分享一下!

一、robots.txt是什么?

  robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。

  当一个搜索引擎(又称搜索机器人或蜘蛛程序)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

二、robots.txt的作用

  1、引导搜索引擎蜘蛛抓取指定栏目或内容;

  2、网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接;

  3、屏蔽死链接、404错误页面;

  4、屏蔽无内容、无价值页面;

  5、屏蔽重复页面,如评论页、搜索结果页;

  6、屏蔽任何不想被收录的页面;

  7、引导蜘蛛抓取网站地图;

三、Robots的语法(三个语法和两个通配符)

  三个语法如下:

  1、User-agent:(定义搜索引擎)

  示例:

   User-agent: *(定义所有搜索引擎)
   User-agent: Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
   User-agent: Baiduspider (定义百度,只允许百度蜘蛛爬取)

   不同的搜索引擎的搜索机器人有不同的名称,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。

  2、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)

  示例:

    Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)
    Disallow: /admin (禁止蜘蛛爬取admin目录)
    Disallow: /abc.html (禁止蜘蛛爬去abc.html页面)
    Disallow: /help.html (禁止蜘蛛爬去help.html页面)

  3、Allow:(用来定义允许蜘蛛爬取的页面或子目录)

  示例:

    Allow: /admin/test/(允许蜘蛛爬取admin下的test目录)
    Allow: /admin/abc.html(允许蜘蛛爬去admin目录中的abc.html页面)

  两个通配符如下:

  4、匹配符 “$”

    $ 通配符:匹配URL结尾的字符

  5、通配符 “*”

    * 通配符:匹配0个或多个任意字符

四、robots.txt 综合示例

  1、禁止搜索引擎抓取特定目录

  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

  User-agent: *   Disallow: /admin/
  Disallow: /tmp/
  Disallow: /abc/

  2、禁止admin目录,但允许抓取admin目录下的seo子目录

  User-agent: *   Allow: /admin/seo/
  Disallow: /admin/

  3、禁止抓取/abc/目录下的所有以".htm”为后缀的URL(包含子目录)

  User-agent: *   Disallow: /abc/*.htm$

  4、禁止抓取网站中所有的动态页面

  User-agent: *   Disallow: /?

  屏蔽所有带“?”的文件,这样就屏蔽所有的动态路径。

  5、禁止百度蜘蛛抓取网站所有的图片:

  User-agent: Baiduspider
  Disallow: /.jpg$
  Disallow: /
.jpeg$
  Disallow: /.gif$
  Disallow: /
.png$
  Disallow: /*.bmp$

  6、要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告

  User-agent: *   Disallow: /folder1/

  User-agent: Mediapartners-Google
  Allow: /folder1/

  请禁止除 Mediapartners-Google 以外的所有漫游器。 这样可使页面不出现在搜索结果中,同时又能让 Mediapartners-Google 漫游器分析页面,从而确定要展示的广告。 Mediapartners-Google 漫游器并不与其他 Google User-agent 共享网页。

五、注意事项

  1、robots.txt 文件必须放在网站的根目录,不可以放在子目录。

    以吴钧泽博客网站为例:比如通过 https://www.wujunze.com/robots.txt 你就可以访问 wujunze.com的robots.txt文件了。
robots_txt.png

  2、robots.txt 文件名命名必须小写,记得在robot面加“s”。

  3、User-agent、Allow、Disallow的 “:” 后面有一个字符的空格。

  4、路径后面加斜杠“/” 和不加斜杠的是有区别的

    Disallow: /help
禁止蜘蛛访问 /help.html、/helpabc.html、/help/index.html

    Disallow: /help/ 
    禁止蜘蛛访问 /help/index.html。 但允许访问 /help.html、/helpabc.html

  5、Disallow与Allow行的顺序是有意义的:

    举例说明:

    允许蜘蛛访问 /admin/ 目录下的seo文件夹

    User-agent: *     Allow: /admin/seo/
    Disallow: /admin/

    如果Allow 和 Disallow 的顺序调换一下:

    User-agent: *     Disallow: /admin/
    Allow: /admin/seo/

    蜘蛛就无法访问到 /admin/ 目录下的 seo 文件夹,因为第一个 Disallow: /admin/ 已匹配成功。

六、关于Robots Meta

  Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

  Robots Meta 标签中没有大小写之分,name="Robots" 表示所有的搜索引擎,可以针对某个具体搜索引擎(如google)写为 name="Googlebot", content部分有四个指令选项:index、noindex、follow、nofollow,指令间以 “,” 分隔。

  Index 指令告诉搜索机器人抓取该页面;

  NoIndex命令:告诉搜索引擎不允许抓取这个页面

  Follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

  NoFollow命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

  Robots Meta 标签的缺省值是Index和Follow;

  根据以上的命令,我们就有了一下的四种组合:

  可以抓取本页,而且可以顺着本页继续索引别的链接=

  不许抓取本页,但是可以顺着本页抓取索引别的链接

  可以抓取本页,但是不许顺着本页抓取索引别的链接

  不许抓取本页,也不许顺着本页抓取索引别的链接。

七、关于 rel="nofollow"

  将"nofollow"放在超链接中,告诉搜索引擎不要抓取特定的链接。

  如某博客上有垃圾评论:灌水

就是这些注意事项了,大家去试试robots.txt吧!

转载于:https://www.cnblogs.com/aksir/p/6777811.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_762194.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

转:大规模网站架构实战之体系结构(一)

来自:http://www.cnblogs.com/design-life/archive/2010/02/24/1672529.html其实大规模网站并没有什么神奇之处,主要看你的思维和视野(在考虑成本的情况下),主要体现个人认为在于拆和分,就是把一个复杂的问…

企业网站建设的目的是什么?

为什么80%的码农都做不了架构师?>>> 企业的主页是企业在Internet上展示形象的门户,是企业开展电子交易的基地,是企业网上的" 家",设计制作一个优秀的网站是建站企业成功迈向互联网的重要步骤。 在当今互联网…

巧用分类信息做网站的口碑推广

很多人认为分类信息既不能给网站带来直接的流量也不能做锚文本外链,对于网站来说分类信息根本就没有什么可取之处。于是有些人就渐渐放弃了分类信息这个外链方式。其实很多的外链既然存在他肯定是有一定的道理的,不是有一句话说“存在即合理”。既然他能…

如何使用Orchard搭建敏捷个人的网站(2)

在如何使用Orchard搭建敏捷个人的网站(1)中讲解了如何使用Orchard搭建一个简易的敏捷个人内容网站,第一篇主要讲解了如何下载安装主题、增加blog、制作菜单等,今天我们继续讲解一下如何增加搜索功能、增加自定义的内容类型以及显示…

网站提示找不到css or js

原图在这里! 查看日志! r] [client 124.74.140.254] File does not exist: /var/www/html/huaqi/admin/outer/favicon.ico [Wed Jul 11 18:50:21 2012] [error] [client 124.74.140.254] PHP Fatal error: Call to undefined function json_encode() in…

购买使用vps建站(2)-防火墙,图形数据库安装,数据迁移

为什么80%的码农都做不了架构师?>>> 前言:“折腾”第二回 业务场景:ftp上传的文件需要解压缩,系统不必要程序卸载,防火墙,图形数据库安装,数据迁移,java的jboss安装 实现…

Firefox支持网站中文翻译流程解析

作为一个支持和领导开源的非营利组织,Mozilla基金会把自己描述为“一个致力于在互联网领域提供多样化选择和创新的公益组织”,他们也确实做到了,在如今这个渐渐已分享为主流的互联网世界里,这样的组织值得我们去推广给更多的人去了…

[SEO]让你的Asp.Net网站自动生成Sitemap——XmlSitemap

首先我要说明:Asp.Net内置的Sitemap与这里讲的Sitemap是完全不同的,Asp.Net中的Sitemap主要用于给用户导航,而这里说的Sitemap是用来给搜索引擎爬虫指路。 还是直接来看看官方解释吧: 什么是Sitemap? Sitemap 可方便…

fikker反向代理服务器做网站缓存加速时链接会转到源端口的问题

2019独角兽企业重金招聘Python工程师标准>>> fikker反向代理服务器做网站缓存加速时链接会转到源端口的问题 最近在使用fikker反向代理服务器的过程中有人反映访问链接会转到源端口的问题,主要原因是代码中有 Location 一个相对地址时web服务器&#xff…

TEM014 - 新版阿里云网站界面高保真原型模板-AxureUX

【实例简介】TEM014 - 新版阿里云网站界面高保真原型模板-AxureUX 文件:590m.com/f/25127180-488929420-20ad8d(访问密码:551685) 【实例截图】 以下内容无关: -------------------------------------------分割线-…

免费下载高质量素材资源的28个网站推荐

Web设计人员经常会去网上搜罗各种各样的素材,这些免费素材不仅能帮助他们节省大量的时间,还能有很好的效果。如今,网络上有很多很多有才华的设计师分享它们的劳动成果,让更多的人可以使用他们的创意设计,谢谢他们。今天…

40个精美的作品网站设计案例欣赏(下篇)

对于网页设计师来说,制作一个作品集可能是一件非常有挑战的事情。为了吸引注意力,作品集必须展示出你的能力,这有点像制作简历,要让人们看到你所擅长的,突出的部分。如果你正想设计个人作品网页,下面这些案…

Silverlight中的网站设计

3.1 网页界面布局和链接设计 网页界面布局设计,页面之间的链接设计是网络环境下的基本设计。布局设计大致可分为两种情况,一种是“IE全屏”(IE的菜单、工具条保留,不是完全“全屏”),这种布局设计的根布局…

使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的......

为什么80%的码农都做不了架构师?>>> 日期:2012-7-20 来源:GBin1.com 在线演示 本地下载 如果你曾经开发过内容聚合类网站的话,使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉。通常使用ja…

8月共处理钓鱼网站1862个:非CN域名达1855个

中国IDC评述网09月06日报道:近日,中国反钓鱼网站联盟公布了《2012年8月钓鱼网站处理简报》。据报告显示,8月份,联盟共处理钓鱼网站1862个,截至2012年8月份,联盟累计认定并处理钓鱼网站93573个。下面&#x…

怎么给网站添加电视直播插件(电视直播软件)

2019独角兽企业重金招聘Python工程师标准>>> 找到这个插件,应该是最好的插件了,收录了500多个国内外电视台,多条线路切换,而且有回看模式可以回放以前的节目。湖南卫视回看,浙江卫视回看。 添加方法如下 1&…

如何为你的网站添加标志性的图标(头像)呢?

今天get到一个新的知识点,虽说不是什么复杂的东西,但是能实现效果还是蛮高兴的。 为网站添加标识性的的图标(头像)?也许有人像我一样,刚开始并不知道啥意思,但是看到别人网站都有标识性的头像&a…

Azure 网站的新增功能:可配置的环境变量

编辑人员注释:本文章由 WindowsAzure 网站团队的项目经理Erez Benari撰写。 Azure最常用的强大功能之一是 XML文档转换 (XDT),通过此功能,您可以在Windows Azure 网站站点中转换ApplicationHost.config文件的内容。借…

个人博客网站建设(适合Java初学者)(一)

一、概述 作为一个在八本学校在校生,没有实验室,也没有项目可做。一直想做一个个人博客,一年前学完javaweb之后做了一个简单的博客,ui惨不忍睹就算了,还有各种bug。酝酿了很久,寒假用了将近一个月时间做出了…

网站性能优化

转载于:https://blog.51cto.com/witer666/1213132