查看网站的爬虫协议,简单介绍爬虫协议robots.txt,避免爬虫爬的好,牢饭吃得早(保姆级图文)

news/2024/5/20 1:54:56/文章来源:https://blog.csdn.net/u011027547/article/details/122513958

目录

    • 什么是爬虫协议
    • 查询方法
    • 解读协议内容
    • 总结


欢迎关注 『Python』 系列,持续更新中
欢迎关注 『Python』 系列,持续更新中

什么是爬虫协议

正经正规网站一般都会有设置爬虫协议,规定哪些能够让你爬,哪些不能让你爬。
网页的爬虫协议就是Robots协议也叫robots.txt。

只要是在网站允许的范围内爬取数据,合法的使用数据,就可以避免避免爬虫爬的好,牢饭吃得早。


查询方法

打开一个网站的首页(必须是首页)

这里以简书为例子,简书的官网首页是

https://www.jianshu.com

在这里插入图片描述
在原来的首页网站后面加入/robots.txt

https://www.jianshu.com/robots.txt

得到了协议内容
在这里插入图片描述


解读协议内容

爬虫引擎限制

User-agent: *

  • *是通配符,表示可以被所有爬虫搜索引擎找到(一般网站都是这样,可以使得网站被更多引擎搜索到,增加曝光率)

User-agent: Crawler

  • 限制只有Crawler搜索引擎爬取

禁止爬取内容

Disallow: /search

  • 不允许爬取网站的search目录内容

请求速率

Request-rate: 1/2 # load 1 page per 2 seconds

  • 请求速率:1/2#每2秒加载1页

爬网延迟

Crawl-delay: 10

  • 爬网延迟:10
# See http://www.robotstxt.org/wc/norobots.html for documentation on how to use the robots.txt file
#
# To ban all spiders from the entire site uncomment the next two lines:
User-agent: *
Disallow: /search
Disallow: /convos/
Disallow: /notes/
Disallow: /admin/
Disallow: /adm/
Disallow: /p/0826cf4692f9
Disallow: /p/d8b31d20a867
Disallow: /collections/*/recommended_authors
Disallow: /trial/*
Disallow: /keyword_notes
Disallow: /stats-2017/*User-agent: trendkite-akashic-crawler
Request-rate: 1/2 # load 1 page per 2 seconds
Crawl-delay: 60User-agent: YisouSpider
Request-rate: 1/10 # load 1 page per 10 seconds
Crawl-delay: 60User-agent: Cliqzbot
Disallow: /User-agent: Googlebot
Request-rate: 2/1 # load 2 page per 1 seconds
Crawl-delay: 10
Allow: /User-agent: Mediapartners-Google
Allow: /
#看http://www.robotstxt.org/wc/norobots.html有关如何使用机器人的文档。txt文件##要禁止整个站点中的所有spider,请取消注释下面两行:用户代理:*不允许:/search不允许:/convers/不允许:/notes/不允许:/admin/不允许:/adm/不允许:/p/0826cf4692f9不允许:/p/d8b31d20a867不允许:/collections/*/推荐作者不允许/审判/*不允许:/keyword\u注释不允许:/stats-2017/*用户代理:trendkite akashic爬虫请求速率:1/2#每2秒加载1页爬网延迟:60用户代理:YisouSpider请求速率:1/10#每10秒加载1页爬网延迟:60用户代理:Cliqzbot禁止:/用户代理:谷歌机器人请求速率:2/1#每1秒加载2页爬网延迟:10允许:/用户代理:Mediapartners谷歌允许:/

总结

大家喜欢的话,给个👍,点个关注!继续跟大家分享敲代码过程中遇到的问题!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2022 mzh

Crated:2022-1-15

欢迎关注 『Python』 系列,持续更新中
欢迎关注 『Python』 系列,持续更新中
【Python安装第三方库一行命令永久提高速度】
【使用PyInstaller打包Python文件】
【更多内容敬请期待】


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_765946.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分享编程能力自我提升的8个免费网站,算法学习刷题,求职面试经验(图文并茂+简略介绍)

目录1. LeetCode力扣2. lintcode炼码3. luogu洛谷4. jisuanke计蒜客5. 牛客网6. PTA(拼题A)7. vjudge(英语)8. codeforces(英语)总结欢迎关注 『发现你走远了』 博客,持续更新中 欢迎关注 『发现…

一个免费在线文件处理网站-HEIC转JPG Word转长图 PPT转长图 转成JPG 转成PNG 转成BMP(保姆级图文)

步骤系列文章功能图片转ICON 功能介绍:总结系列文章 提示:转到日常小技巧专栏,观看更多内容! 点我直达–>日常小技巧专栏 功能 pdf转word、pdf转图片图片转icon文本转语音语音转文本PPT和word转长图HEIC转JPG Word转长图 PPT…

【宝塔面板建站】01. 5分钟windows宝塔面板的安装(保姆级图文)

目录1. 下载宝塔面板2. 安装宝塔面板3. 初始化面板4. 安装套件关于建站使用总结『宝塔面板建站』分享宝塔面板从安装到实战的宝塔面板本机免云服务器免域名搭建网站等内容。 欢迎关注 『宝塔面板建站』 系列,持续更新中 欢迎关注 『宝塔面板建站』 系列,…

【宝塔面板建站】02. 实用必装的插件之Windows工具箱 2.0,可视化管理端口,host管理(保姆级图文)

目录安装Windows工具箱 2.0Windows工具箱 2.0使用总结『宝塔面板建站』分享宝塔面板从安装到实战的宝塔面板本机免云服务器免域名搭建网站等内容。 欢迎关注 『宝塔面板建站』 系列,持续更新中 欢迎关注 『宝塔面板建站』 系列,持续更新中 安装Windows工…

【宝塔面板建站】03. mysql相关内容->mysql数据的备份、mysql版本的升级切换(保姆级图文)

目录前往软件商店的mysql设置页面备份数据计划任务定时自动备份数据库mysql版本切换清空数据库切换版本回收站恢复被删除的数据库总结『宝塔面板建站』分享宝塔面板从安装到实战的宝塔面板本机免云服务器免域名搭建网站等内容。 欢迎关注 『宝塔面板建站』 系列,持续…

【宝塔面板建站】04. 设置消息通道,通过邮箱、钉钉、企业微信等形式动态提供网站信息(保姆级图文)

目录消息通道的作用设置消息通道邮箱安装模块配置SMTP服务(邮件发送者)填写收件邮箱(邮件接收者)收到测试邮件钉钉安装模块电脑版钉钉得到一个没用的普通群聊添加群机器人阿里云Code得到了Webhook 地址把得到的Webhook 地址配置到…

【宝塔面板建站】05. 七牛云存储使用教程 免费备份10G数据(保姆级图文)

目录实现效果注册并实名一个七牛云帐号配置七牛云存储空间新建对象存储空间域名管理解析域名得到CNAME检查加速域名配置是否成功获取七牛云密钥得到2个密钥宝塔面板配置七牛云安装七牛云插件设置七牛云插件计划任务备份数据库测试执行备份测试在七牛云中查看备份的文件日志分析…

【宝塔面板建站】06. 关闭暂时不用的服务,避免apache和mysql等服务开机自启占用内存(保姆级图文)

目录遇到的问题1.把服务设置为手动启动打开服务打开服务的属性设置apache、mysql等服务为手动启动重启计算机后服务不会启动2.使用时,手动开启服务或bat命令一键启动总结『宝塔面板建站』分享宝塔面板从安装到实战的宝塔面板本机免云服务器免域名搭建网站等内容。 欢…

【宝塔面板建站】10分钟windows宝塔面板一键部署安装shopxo在线商城,无需服务器和域名本地运行(保姆级图文)

目录傻瓜式一键部署一键部署修改本地host访问域名,启动网站的安装程序访问建成的网站总结『杂记』分享一些实用的技巧方法 安装环境,配置环境教程,推荐实用软件 软件的使用问题。 欢迎关注 『宝塔面板建站』 系列,持续更新中 欢迎…

【宝塔面板建站】10分钟windows宝塔面板一键部署安装wordpress,无需服务器和域名本地运行(保姆级图文)

目录傻瓜式一键部署一键部署修改本地host访问域名,启动网站的安装程序访问建成的网站总结『杂记』分享一些实用的技巧方法 安装环境,配置环境教程,推荐实用软件 软件的使用问题。 欢迎关注 『宝塔面板建站』 系列,持续更新中 欢迎…

【宝塔面板建站】10分钟windows宝塔面板手动通用部署站点shopxo在线商城,无需服务器和域名本地运行(保姆级图文)

目录手动安装,通用方法可以用来安装所有类似的网站1. 下载shopxo商城源码2. 添加站点并创建数据库3. 把第一步下载的网站源码放入我们新建的站点修改本地host访问域名,启动网站的安装程序访问建成的网站总结『杂记』分享一些实用的技巧方法 安装环境&…

【宝塔面板建站】启动面板卡死在“正在启动Panel服务”解决(保姆级图文)

目录报错效果解决思路1.先检查环境变量2.重启宝塔服务打开服务把被禁用的宝塔服务改为手动总结『宝塔面板建站』分享宝塔面板从安装到实战的宝塔面板本机免云服务器免域名搭建网站等内容。 欢迎关注 『宝塔面板建站』 系列,持续更新中 欢迎关注 『宝塔面板建站』 系…

网络攻防期末大作业选题:防sql注入的登录网站【网络攻防CTF】(保姆级图文)

目录1. 结合mysql数据库设计一个web登录页面数据库sql搭建项目结构如下:Login.html效果图如下:html代码php验证代码2. 能够防住简单注入和宽字节注入简单注入双拼注入宽字节注入3. 能够基本防住手动注入和sqlmap攻击(测试案例)防止…

[引用]10个设计最经典的web2.0网站

地址:http://www.hxblog.net/article.asp?id879做好一个网站,不仅要在服务及功能上胜人一筹,而且网站的整体设计也是一个不可获缺的重要因素,一个设计漂亮的站点通常能在第一时间吸引人的眼球,用户回访机率也就更大。…

职场必学的10个常用网站-活动策划

有很多的小伙伴儿在制定活动策划的时候都急得直挠头,所以我就来分享10个大厂活动策划的时候也会使用的常用网站,大家可以以此为借鉴进行灵感寻求。 1.亿图脑图 有的时候活动策划会需要众多的文字去进行描述和规划,但是如果这个时候我们利用…

无代码搭建“网站运营”管理系统

对于很多公司来说,他们一般都有自己的网站,尤其是B2B的公司,B2C的公司要运营的则主要包括公众号、电商平台献上店铺等各大平台。但不管是哪一类平台,日常的运营工作是不能少的——自然,运营数据的管理也是不能少的。 网…

八个移动产品设计必备网站

来自:http://www.cocoachina.com/newbie/basic/2012/0606/4333.html 移动产品设计人员一定需要大量的使用其他各类应用,并且需要在产品设计时大量参考其他的移动应用的产品设计,这时如果有一些网站可以将很多优秀应用的不同流程分类展示&…

IIS网站服务器性能优化指南(转载)

Windows Server自带的互联网信息服务器(Internet Information Server,IIS)是架设网站服务器的常用工具,它是一个既简单而又麻烦的东西,新手都可以使用IIS架设一个像模像样的Web站点来,但配置、优化IIS的性…

apache virtualhost 访问不了_记录一下自己的建站过程(六):Apache服务基础

前言之前在Django那篇文章中讲过,Django内置了一个服务程序,可以直接以python manage.py runserver 0.0.0.0:8080这样的形式来启动一个http服务。那应该就够了。我有了前端,又有了后端,可以直接开搞了。但是,包括Djang…

sharepoint search配置爬网站

1、设置爬网规则 2、添加内容源 转载于:https://www.cnblogs.com/denglinhai/archive/2012/12/04/2802144.html