控制搜索引擎访问和索引你的网站

news/2024/4/29 13:15:56/文章来源:https://blog.csdn.net/softart/article/details/1846815
2007年10月08日 06:06:00
发表者 Dan Crow, 产品经理


原文: Controlling how search engines access and index your website
发表于: 2007 年 1 月 26 日 上午 11:36:00

我 经常被问到 Google(谷歌)和搜索引擎是怎样运转的。一个核心问题是:谷歌是怎样知道一个网站的哪些部分是网站所有者想让它们显示在搜索结果中?网站内容发布者 能够指定部分网站不被搜索吗?好消息是,网站内容发布者可以使用很多方法控制你们的网页在搜索结果中的显示。

文件 robots.txt 是这里的主角,该文件已经成为业界标准好多年了。它让一个网站所有者控制搜索引擎访问他们的网站。你可以用 robots.txt 不同层次地控制访问,比如让搜索引擎只访问整个网站,单个目录,特定类型的网页,或者某一网页。有效地使用 robots.txt 能让你更好地控制对你的网站 的搜索,但是如何达到这一目标不是很显而易见的。这是我们关于如何使用 robots.txt 来控制对你的网站的存取的一系列帖子的第一篇。

文件 robots.txt 有什么用?

互联网真的很大。你只是不相信它是怎样地无穷无尽地大。你也许认为维护网站耗费好多精力,但是那只是"网海一粟"。 (对 Douglas Adams 致以诚挚的道歉)

象谷歌这样的搜索引擎会读取所有信息并对这些信息索引,索引是为了让一个搜索引擎对一些用户查询显示与之相匹配的网页。

为了做到这一点谷歌的一些电脑不断抓取网站,他们有一个谷歌所知道的所有网站的名单,他们阅读每个网站的所有网页。所有这些机器被称为谣 Googlebot。一般来说,你是愿意让 Googlebot 访问你的网站,这样你的网页才可以被人们在谷歌搜到。

然 而,对你的网站上的某几页,你可能不想让谷歌索引。举例来说,你可能有一个目录包含内部日志,或者你可能有些新闻文章只能在支付费用后才能访问。你可以通 过创建一个文本文件名为 robots.txt 的文件并把它放置在根目录下来告诉谷歌爬虫不要去抓取他们。文件 robots.txt 包含了一个搜索引擎不能访问的页面的清单。创建一个 robots.txt 是直截了当的,它允许你用一套精密分层控制搜索引擎对你网站的访问。

精细控制

除 了 robots.txt 文件让您为你的一大堆文件简洁明了给出指令外,你也可以利用 robots META 标签来精确控制对你的单个网页的访问。为了做到这一点,你只需要对你的 HTML 网页添加特定的 META 标签来控制怎样对单个网页索引。归而总之,robots.txt 和 META 标签让你更灵活地表达复杂的访问规定变得比较容易。

一个简单的例子

这里是一个简单的例子,它是一个 robots.txt 文件。

User-Agent: Googlebot
Disallow: /logs/

User -Agent 行指明下面部分的一套指令只是为 Googlebot。所有主要搜索引擎都阅读并听从你放在 robots.txt 的指令。只要你愿意,你可以为不同的搜索引擎指定不同的规则。Disallow 行告诉 Googlebot 不能进入你网站的档案日志子目录。你放在日志目录中的内容将不会显示在谷歌搜索 结果中。

禁止访问单个文件

如果你有一篇只有注册用户才能访问的文章,你一定想让它排除在谷歌的结果之外。为了做到这一点,你只需要在该文章对应的 HTML 文件中添加一个 META 标签。该文件的代码的最开始有点像:

>html<
>head<
>meta name="googlebot" content="noindex"<
...

这段代码会阻止谷歌索引此文件。标签 META 特别有用,如果你只被允许编辑单个文件,而不是全站的 robots.txt。他们还允许你逐页地指定复杂的访问控制规定。

了解更多

你可以在 http://www.robotstxt.org/ 和 谷歌的站长帮助中心找到更多有关 robots.txt 的更多有用信息,包括:

如何构造一个 robots.txt 文件
对谷歌使用的每个 User-agent 的描述
如何使用模式匹配
要多久我们才重新抓取您的 robots.txt 文件?

我们也在我们的 站长博客里写了一些关于 robots.txt 的帖子,也许对你有用。例如:

使用 robots.txt 文件
Googlebot 汇总

这里还有一个主要搜索引擎使用的机器人的有用清单: http://www.robotstxt.org/wc/active/html/index.html

下次..

即将推出:关于详述 robots 和 metatags 使用的帖子,和关于一些对常见情况的具体例子。

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1814608


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_860001.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RTK差分通讯链路---Ntrip DTU(支持千寻位置,CORS站、自建站)

在之前的博客中提到RTK差分通讯链路–电台。RTK技术的关键在于其获取了载波相位的观测量&#xff0c;通过架设基准站和移动站&#xff0c;利用电台的通讯方式&#xff0c;使得移动站通过差分方式消除观测数据误差实现高精度。还有一种通讯方式&#xff0c;通过移动网络去播发观…

如何配置ublox ZED-F9P 高精度模块+Ntrip DTU 网络电台(连接千寻/CORS/自建站)实现网络RTK定位

格林恩德F9P-RTK模块&#xff0c;集成高精度板卡(ZED-F9P)可同时接收GPS,北斗&#xff0c;GALILEO,GLONASS 卫星系统的L1,L2频点&#xff0c;结合高精度天线一体化设计&#xff0c;体积小&#xff0c;重量轻&#xff0c;只需外部5V供电&#xff0c;外接配合NTRIP DTU 网络差分电…

回到过去,寻找曾经的你!(搜索你关心的网站最初的样子)

2006年07月14日 13:25:00 最近发现一个很酷的网站&#xff0c;这个网站可以搜索你关心的网站最初的样子&#xff1a;    http://www.archive.org/web/web.php The Wayback Machine Advanced Search Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId920594

猎头公司网站 -- 有人看么,什么人在看?

10月27日 网络时代公司没有一个网站已经无法想象了&#xff0c;但是很多公司的网站也许投入了很多金钱和精力但效果却不尽如人意。 猎头公司也是一样&#xff0c;所有的投入都应该有产出。你应该知道的公司网站访问者都是从哪里来的&#xff0c;每天有多少&#xff0c;他们都关…

阿里云ECS云服务器CentOS部署个人网站

ping了一下coding pages和阿里云服务器的速度&#xff0c;意外感觉coding的速度反而更快。不过为了折腾&#xff0c;还是把博客迁移到阿里云&#xff0c;跌跌撞撞遇到很多坑&#xff0c;大多是由于对指令不熟悉以及部分教程省略了部分步骤&#xff0c;最后不断谷歌终于成功了&a…

cnblogs博客园修改网站图标icon

比特虫&#xff0c;图片转换成ico图标 上传到博客园文件 修改网络地址即可 <script type"text/javascript" language"javascript">//Setting ico for cnblogsvar linkObject document.createElement(link);linkObject.rel "shortcut icon&quo…

我们是怎样毁了社交网站的?

我们是怎样毁了社交网站的&#xff1f; 共分享4次 ahxxm发布于2014-02-08 14:48:18 作者&#xff1a;Nathan Mattise 文章来源&#xff1a;ArsTechnia 我在录取通知书中看到 2005 年时学校给的电子邮箱地址&#xff0c;回想起当时打开录取通知书后&#xff0c;我就直奔电脑前…

在线制作简历的网站

1 超级简历 2 乔布简历

一个神奇的网站 Papers with code

这个网站会把某个方向的 论文和代码总结出来。 有助于提高个人效率。 https://paperswithcode.com/sota

高清桌面壁纸网站

这个网址&#xff0c;可以下载高清的桌面壁纸&#xff0c;感觉不错。 https://www.ivsky.com/bizhi/

一个用于网站自动化测试的生态系统实现

这是我在从事网站自动化测试的工作当中构建出的一个“生态系统”。“生态系统”这个概念是我从公司的前辈身上学到的&#xff0c;他一直以来都认为自动化测试人员不应仅仅局限于编写测试代码&#xff0c;还应该让整个自动化测试的过程&#xff08;测试代码的持续集成、分发、执…

搜索引擎抓去网站内容的工作原理简单介绍

今天郑州SEO简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。 互联网信息爆发式增长&#xff0c;如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游&#xff0c;主要负责…

环境部署--搭建网站(1)

第一步&#xff0c;申请域名 国内比较知名的注册域名的网站是万网和新网。我是在新网注册的。 第二步&#xff0c;申请空间 购买空间 我用的是腾讯云&#xff0c;操作步骤如下。 进入腾讯云首页&#xff0c;购买云服务器。 这里相当于给你一台机器归你试用。这里应该是用的虚拟…

PHP 网站优化之页面静态化

页面静态化是提高网站访问速度的一个很好的优化方法&#xff0c;可以提高网站50%以上的访问速度&#xff0c;但是也有缺点&#xff0c;就是换的数据无法及时更新。 那页面静态化是如何实现的呢&#xff0c;就是把PHP生成的动态页面保存成静态的html文件&#xff0c;用户访问该静…

网站性能分析及优化方法

服务器端 负载均衡 LVS 简介&#xff1a; LVS是一个开源的软件&#xff0c;可以实现LINUX平台下的简单负载均衡。LVS是Linux Virtual Server的缩写&#xff0c;意思是Linux虚拟服务器。 分为三层结构 1.负载调度器 2.服务器池 3.共享存储 优点&#xff1a; 1、开源&#xff0c;…

Mysql官方网站到底该如何下载、安装?(超详细教程)

第一步搜索MySQL:https://www.mysql.com/ 第二步找到下载地址 点击进去后往下翻&#xff0c;能看到 这就是我们要下载的了&#xff0c;点击进入 不要选错了 选择下载第二个&#xff0c;一次性下载安装 前一个也可以&#xff0c;包比较小&#xff0c;但是是一边下载 一边安装&a…

444day(mouseover与mouseenter不同,过滤选择器)

《2018年12月21日》【连续444天】 标题&#xff1a;mouseover与mouseenter不同&#xff0c;过滤选择器&#xff1b; 内容&#xff1a; mouseenter: 与mouseover的不同&#xff1a;http://www.w3school.com.cn/tiy/t.asp?fjquery_event_mouseenter_mouseover 过滤选择器&…

8个超棒的学习jQuery的网站

根据国外科技网站 W3Techs 一项调查了近100万个网站数据显示&#xff0c;jQuery是目前最流行的 JavaScript 库。对于初学者来说&#xff0c;有的时候很难找到一个好的学习jQuery的网站&#xff0c;所以本文收集了8个很棒的 jQuery 学习网站推荐给大家。 1. Learning jQuery 最…

批量爬取某图片网站的图片

批量爬取某图片网站的图片 声明&#xff1a;仅用于爬虫学习&#xff0c;禁止用于商业用途谋取利益 1、网页解析 &#xff08;1&#xff09;打开veer首页&#xff0c;F12(谷歌浏览器)&#xff0c;输入关键字&#xff0c;点击搜索&#xff0c;点击查看如图画圈位置 &#xff…

源码编译安装Nginx及网站服务配置

文章目录 一、Nginx概述1.1 Nginx概述1.2 Nginx和Apache的区别1.3Nginx和Apache的优缺点差异1.4Nginx的进程 二、源码编译安装nginx服务2.1关闭防火墙&#xff0c;将nginx所需压缩包放入/opt目录下2.2安装依赖包2.3创建运行用户和组&#xff0c;便于管理2.4解压软件包&#xff…