django+apache配置网站的robots.txt和sitemaps等理静态文件

news/2024/5/20 11:32:06/文章来源:https://blog.csdn.net/iteye_16215/article/details/81954071

当你的网站已经在公网上正常上线后,为了能被搜索引擎很好的收录网站结构,就必须主动向搜索引擎提供robots.txt和sitemap.xml,

先来看看什么是robots.txt和 sitemap.xml吧,以下摘自“维基百科”

http://zh.wikipedia.org/zh-cn/Sitemaphttp://zh.wikipedia.org/zh/Robots.txt

robots.txt

维基百科,自由的百科全书

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。

Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意Robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有和没有斜杠“/”这两种表示是不同的URL,也不能用"Disallow: *.gif"这样的通配符。

其他的影响搜索引擎的行为的方法包括使用robots元数据:

<meta name="robots" content="noindex,nofollow" />

这个协议也不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。

XML网站地图 sitemaps

sitemaps是站点管理员向搜索引擎爬虫公布站点可被抓取页面的协议,sitemap文件内容必须遵循XML格式的定义。每个URL可以包含更新的周期和时间、URL在整个站点中的优先级。这样可以让搜索引擎更佳有效的抓取网站内容。

Google引入了Google网站地图使得网页开发者可以发布整个站点的链接列表。其基本假设是一些站点拥有大量动态页,而这些页面只能通过表单和用户登录来访问。网站地图文件可以被用来指引网络蜘蛛如何找到这类页面。Google、MSN、Yahoo以及Ask都支持网站地图协议。

由于MSN、Yahoo、Ask以及Google使用同样的协议,因此拥有一个站点地图可使这四个最大的搜索引擎的页面信息保持最新。网站地图不保证所有的链接可被抓取,而被抓取了也不一定会做成索引。但是,一个站点地图仍然是使一个搜索引擎获得你整个站点信息的最保险的方式。

那么我们现在以django+apache为架构的网站 (www.souapp.com)搜应用 为例,将robots.txt和sitemap.xml提交给google作为工作任务。

1、首先你要登录google网站管理员工具页面:

https://www.google.com/webmasters/tools/home?hl=zh-CN

添加 www.souapp.com,并验证你是网站的拥有者。

2、在“网站配置”栏目下的“抓去工具的权限”为robots.txt配置详细。

如图所示,robots.txt文件位置默认访问 http://www.souapp.com/robots.txt,当然你也可以手工制定URL。

3、在“网站配置”栏目下的“Sitemaps”为sitemap.xml配置详细。

如图所示,sitemap.xml文件位置默认访问 /sitemap.xml,当然你也可以手工定制URL,我自定义设置为/media_alias/sitemap.xml

============================================================

下面我们着重讲解,robots.txt和sitemap.xml放置在网站根目录的路径配置操作:

1、Django网站的静态文件js,image,css路径配置

我把网站使用到的css js jpg png txt等文件全部放在网站下的media目录下
要在页面中能够引用到要做如下的配置

在setttings.py中加入
#设置静态文件路径
STATIC_PATH ='/var/www/media/'

在urls.py中的配置
先导入 from django.conf import settings
接着在urlpatterns 中加上
(r'^media_alias/(?P<path>.*)$', 'django.views.static.serve',{'document_root': settings.STATIC_PATH}),

最后在html页面中就可以这样用了
<link rel="stylesheet" type="text/css" href="/media_alias/common.css" />
<script type="text/javascript" src="/media_alias/jquery.js" />
<image src="/media_alias/souapp.png" />

2、Apache静态文件路径配置

注意:你的apache要安装mod_python ,详细参考:Ubuntu 8.04 mod_python Config

LoadModule python_module /usr/lib/apache2/modules/mod_python.so

找到/etc/apache2/httpd.conf文件,配置如下:

<VirtualHost *:80>
<Location "/">
SetHandler python-program
PythonPath "['/var/www']+sys.path"
PythonHandler django.core.handlers.modpython
SetEnv DJANGO_SETTINGS_MODULE souapp.settings
#PythonOption django.root /
PythonDebug On
#PythonInterpreter souapp
</Location>

Alias /media_alias/ /var/www/media/

Alias /robots.txt /media_alias/robots.txt
Alias /sitemap.xml /media_alias/sitemap.xml

<LocationMatch "/.(jpg|gif|png|txt|ico|pdf|css|jpeg)$">
SetHandler None
</LocationMatch>

这样一来,访问http://www.souapp.com/sitemap.xml,和http://www.souappp.com/robots.txt,实际上是apache直接访问的/var/www/media/的sitemap.xml和robots.txt

3、robots.txt和 sitemap.xml的生成

在google网站管理员工具页面的引导下,你会很快生成 robots.txt并下载下来,放到你的网站目录里,而sitemap.xml的生成请参考

Django生成网站的sitemap.xml

搜应用网(www.souapp.com)致力于移动互联网-手机应用服务的提供,为广大手机用户努力营造一个分享手机应用、充分享受移动生活给我们带来无限生活乐趣的环境,为此我们深信移动互联网是手机用户个性化、分享化的个人时代;目前我们提供的服务主要针对于Android手机系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_853119.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

souapp:网站图片找不到,指向默认图片显示

如果你的网站上显示的图片不存在&#xff0c;总不能给访问者显示一个个小的图片吧&#xff0c;下面我们以www.souapp.com(搜应用网)为例&#xff1a; 当用户鼠标onMouseOver,"搞笑铃声-精选集合2"这个APP的时候&#xff0c;上面应该显示该APP的详细信息以及screensho…

souapp搜应用网:放弃IE浏览器的用户,你的网站能做到吗?

这几天调试souapp.com的页面&#xff0c;感觉chrome,firefox,ie总不可能达到一致的页面效果&#xff0c;非常之崩溃&#xff0c;chrome和firefox还不错了&#xff0c;最可气的就是那个IE&#xff0c;不仅页面布局乱七八糟&#xff0c;而且很多JS代码在IE下不支持&#xff0c;报…

www.souapp.com(搜应用网)推出了中文版和英语版网站

www.souapp.com(搜应用网) 在Google Android Market 的开发者们的强烈要求下&#xff0c;最近推出了中文版和英语版网站&#xff0c;希望中国开发者和国外开发者能够在souapp.com上推广自己的APP&#xff0c;并且根据souapp.com提供的APP统计&#xff0c;为自己的下一款APP的开…

大型网站技术架构

大型网站技术架构&#xff08;1&#xff09; 网站都是从小网站一步一步发展为大型网站的&#xff0c;而这之中的挑战主要来自于庞大的用户、安全环境恶劣、高并发的访问和海量的数据&#xff0c;任何简单的业务处理&#xff0c;一旦需要处理数以 P 计的数据和面对数以亿计的用户…

淘宝伏威关于12306网站解决方案:魔鬼在细节里

2月18日&#xff0c;CSDN在北京举行了TUP第19期活动&#xff1a;大数据系列研讨会——从12306谈起。本次研讨会汇集了来自百度、豆瓣网、搜狗、 淘宝、土豆、凡客诚品、新浪微博、IBM等公司的众多业内技术高管&#xff0c;就大数据及海量并发用户网络的需求分析、架构设计、产品…

YouTube的挑战者 JustinTV教你如何打造实时视频网站

Justin.TV每月有3000万个独立访问量&#xff0c;在游戏视频上传领域打败了YouTube &#xff0c;他们每天每分钟新增30个小时的视频&#xff0c;而YouTube只有23。 下面从Justin.TV的实时视频系统使用到的平台&#xff0c;他们的架构细节&#xff0c;从他们身上应该学到的东西等…

前端开发工具,网站

浏览器插件&#xff0c;使用极简插件网站下载&#xff1a; FeHelper Web前端助手 react开发助手 前端网站合集&#xff1a;印记中文 - 深入挖掘国外前端新领域

VS2010 Web网站发布详解

对VS2010来说&#xff0c;发布Web是一件相当容易的事情&#xff0c;也许就是这个原因导致网上关于发布网站具体细节的资料很少。然而这些正是初学者所需要的&#xff0c;下面我详细介绍一下Web网站发布的具体过程。 第一步&#xff1a;在解决方案资源管理器中右击Web应用程序名…

项目一:摄影分享网站开发

本篇博客主要分享在该项目中遇到的一些问题及解决方法。 项目效果网站&#xff1a;http://zerored.3vhost.net/travel/index.html 1.设置背景半透明效果。 这里是一张背景图片加上一个半透明的遮罩层效果&#xff0c;首次开发的做法是先给大盒子背景图片&#xff0c;再在里面…

定时关闭和启动IIS和Web网站

目录 1、创建关闭、启动的批处理命令文件 2、通过“任务计划程序”定时执行批处理命令 1、创建关闭、启动的批处理命令文件 1.1 创建两个批处理文件 分别命名为IISStop.bat和IISStart.bat&#xff0c; 其中IISStop.bat中的命令代码为&#xff1a; echo off taskkill /f /…

php7.4升级php8.0后重启系统网站访问异常问题

安装完php8.0之后也禁用了旧版本php&#xff1a; 禁用php sudo a2dismod php7.4 启用php sudo a2enmod php8.0 也重启了php8.0-fpm服务&#xff1a; sudo service php8.0-fpm restart 但访问网站报如下异常&#xff1a; 错误日志&#xff1a; [proxy:error] [p…

WordPress网站优化加速的5个技巧

想让自己的wordpress网站访问速度更快&#xff0c;通过下面几个技巧&#xff0c;可轻松提速&#xff1a; 常规的前端性能优化 无论你的网站是基于什么后台技术实现的&#xff0c;被访问者访问的时候&#xff0c;总是会生成常规的 HTML、CSS、JavaScript 等文件发送回客户端。要…

宝塔面板启memcached加速wordpress网站访问速度

做网站的朋友一定知道一个网站的访问速度对于访客体验和seo优化的重要作用&#xff0c;提高网站打开速度的方法除了提升服务器性能和带宽以为还有很多地方可以优化&#xff0c;今天我们来介绍一下wordpress通过安装开提升网页访问速度的方式。 memcached加速原理 本质上是通用…

WordPress建站教程,纯代码实现wordpress防止发布文章出现标题重复,自动检测重复标题文章

WordPress代码实现防止发表重复标题的文章&#xff0c;如果对你有帮助就看看吧。 其实所有的插件这些的就等于放到function.php的代码片段。function.php里面的插件集成出来也可以做成一个插件&#xff0c;反过来插件也可以集成到function.php里面&#xff0c;插件的好处就是方…

VC2005从开发MFC ActiveX ocx控件到发布到.net网站的全部过程

原网址:http://www.cnblogs.com/gengaixue/archive/2010/08/13/1799112.html 开篇语&#xff1a;最近在弄ocx控件发布到asp.net网站上使用&#xff0c;就是用户在使用过程中&#xff0c;自动下载安装ocx控件。&#xff08;此文章也是总结了网上好多人写的文章&#xff0c;我只是…

项目管理实践【五】自动编译和发布网站【Using Visual Studio with Source Control System to build and publish website autom

在上一篇教程项目管理实践【三】每日构建【Daily Build Using CruiseControl.NET and MSBuild】 中&#xff0c;我们讲解了如何使用CCNETMSBuild来自动编译项目&#xff0c;今天我们讲解一下怎么使用MSBuildWebDeploymentRobocopy自动编译过和部署ASP.NET网站。 首先安装下面的…

分享一个运维同学常用的站点监测和测速网站17ce.com, 备用

https://www.17ce.com/功能挺多&#xff0c;记录下备用&#xff1a; 监测&#xff1a;Get, Ping, MTR, TraceRoute, Dns, Cdn, LDns 可以提供&#xff1a;趋势、区域、ISP、错误等分析报告 居然还有“赚钱路由器”&#xff0c;和前几年我们做的利用路由器分发app类似&#xff0…

利用Jsoup解析html 开发网站客户端小记。

这些天业余时间比较多&#xff0c;闲来无事&#xff0c;想起了以前看过开发任意网站客户端的一篇文章&#xff0c;就是利用jsoup解析网站网页&#xff0c;通过标签获取想要的内容。好了废话不多说&#xff0c;用到的工具为 jsoup-1.7.2.jar包&#xff0c;具体jsoup的相关文档&a…

python爬虫之12306网站--车站信息查询

python爬虫查询车站信息 目录: 1.找到要查询的url 2.对信息进行分析 3.对信息进行处理 python爬虫查询全拼相同的车站 目录&#xff1a; 1.找到要查询的url 2.对信息进行分析 3.对信息进行处理 1.找到车站信息的url 2.分析车站信息&#xff0c;发现每个车站信息以""分…

python爬虫之12306网站--火车票信息查询

python爬虫之12306网站--火车票信息查询 思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询&#xff0c;然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 2.json文件存储当前从出发站到目的站的所有车次的详细信息 3.对json文件…