网站信息采集

news/2024/5/5 13:04:33/文章来源:https://blog.csdn.net/weixin_34265814/article/details/88913167

网站信息采集

在编写爬虫之前可能需要先了解和搜集网站信息

robots.txt

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。一般的网站都会有这个文件。可以大致了解这个网站存在哪些限制

下面是知乎的robots.txt,可以通过https://www.zhihu.com/robots....

# 禁止今日头条和悟空问答爬虫抓取知乎网站内容
User-agent: *
Request-rate: 1/2 # load 1 page per 2 seconds
Crawl-delay: 10Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*
Disallow: /people/*

其中User-agent说明了对哪些用户代理的限制,*表示限制所有的爬虫,还设置了请求速率 每两秒访问一个页面,还设置了Crawl-delay,10秒的抓取延时,为了知乎的服务器不过载,我们最好遵循一下????后面的Disallow则限制了访问的路径

用site:example.com估计网站的大小

你想抓取信息的网站有九成是被百度或者Google访问过的,通过这条命令可以快速的了解网站的大小,以便在设计爬虫的时候选择合适的方案

clipboard.png

识别网站所用的技术

安装builtwith模块

pip install builtwith

使用方式

import builtwith as bw
res = bw.parse("https://www.zhihu.com/")
print(res)
# {'javascript-frameworks': ['React', 'RequireJS']}
res = bw.parse("https://www.upc.edu.cn/")
print(res)
# {'font-scripts': ['Font Awesome'], 'javascript-frameworks': ['jQuery']}
res = bw.parse("http://example.webscraping.com")
print(res)
#{'web-servers': ['Nginx'], 'web-frameworks': ['Web2py', 'Twitter Bootstrap'], 'programming-languages': ['Python'], 'javascript-frameworks': ['jQuery', 'Modernizr', 'jQuery UI']}

可以得知知乎使用的是React框架,还能知道网站用什么语言开发的,服务器类型等等

个人爬虫经验收集地址

https://github.com/No-96/Feng...

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_848816.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java基础-爬虫实战之爬去校花网网站内容

Java基础-爬虫实战之爬去校花网网站内容 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 爬虫这个实现点我压根就没有把它当做重点,也没打算做网络爬虫工程师,说起爬虫我更喜欢用Python实现…

Git+Gitlab+Ansible的roles实现一键部署Nginx静态网站(一)--技术流ken

前言 截止目前已经写了《Ansible基础认识及安装使用详解(一)--技术流ken》,《Ansible常用模块介绍及使用(二)--技术流ken》《Ansible剧本介绍及使用演示(三)--技术流ken》以及《Git介绍及常用操…

结合html5+_干货整理!零基础html5网站开发学习步骤方法(保存不后悔)

对于新手学习html5的同学来说,想要学好html5首先要有一点学习的方法和路线图,了解清楚之后再开始学习会更加清晰自己的学习效果。随着互联网的高速发展,近年来HTMl5发展的越来越火热,而在HTML5高薪资、优待遇的诱惑之下&#xff0…

高性能高并发网站架构,教你搭建Redis5缓存集群

一、Redis集群介绍 Redis真的是一个优秀的技术,它是一种key-value形式的NoSQL内存数据库,由ANSI C编写,遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。 Redis最大的特性是它会将所…

新奇小玩意购物网站推荐

在国外博客上看到许多小玩意的介绍,有不少都有收入囊中的冲动,但相信有不少人都像我一样因为国际支付的问题而难以如愿吧,今天就向大家推荐两个国内专门销售这类小玩意的购物网站,IdeaShow、呼哈网。[more]IdeaShow和呼哈网的slog…

CMP网站改版-加强网络功能

CMP是最大的专业媒体集团之一&#xff0c;旗下拥有DDJ,SD&#xff0c;CUJ,<MSDN等多本优秀的软件技术杂志。现在其网站作了全面的改版&#xff0c;原来各个独立的杂志网站现在统一风格&#xff0c;统一注册用户&#xff0c;显示CMP在加强杂志在网络上的互动建设&#xff1b;…

【大型网站技术实践】初级篇:借助Nginx搭建反向代理服务器

一、反向代理&#xff1a;Web服务器的“经纪人” 1.1 反向代理初印象 反向代理&#xff08;Reverse Proxy&#xff09;方式是指以代理服务器来接受internet上的连接请求&#xff0c;然后将请求转发给内部网络上的服务器&#xff0c;并将从服务器上得到的结果返回给internet上请…

【问底】李平:大型网站的灵魂——性能

在前一篇随笔 大型网站系统架构的演化中&#xff0c;介绍了大型网站的演化过程&#xff0c;期间穿插了一些技术和手段&#xff0c;我们可以从中看出一个大型网站的轮廓&#xff0c;但想要掌握设计开发维护大型网站的技术&#xff0c;需要我们一步一步去研究实践。所以我打算写一…

【问底】徐汉彬:大规模网站架构的缓存机制和几何分形学

在过去的工作中&#xff0c;徐汉彬从事各类缓存建设和优化&#xff0c;遇到问题无数&#xff0c;从各种各样的问题中&#xff0c;逐渐总结出它们之间的“共性”&#xff0c;而这个“共性”又优雅地遵循“几何分形学”。从几何分形的角度去看待缓存机制&#xff0c;能够更容易和…

10个学习Android开发的网站推荐

作为一个Android 开发者&#xff0c;官网的资料当然不可错过&#xff0c;从设计&#xff0c;培训&#xff0c;指南&#xff0c;文档&#xff0c;都不应该错过&#xff0c;在以后的学习过程中慢慢理解体会。 Android DeveloperAndroid Guides - CodePath CodePath 是国外一个技术…

某大神网站发现2048一枚

在论坛发现2048的C语言的源代码。 真心佩服大神的创作。 复制一起学习。 ////Console2048://C语言写的一个手机游戏2048的控制台版。//作者&#xff1a;0xAA55//QQ&#xff1a;838816058//论坛&#xff1a;www.技术宅的结界.com//2048原版作者&#xff1a;//Gabriele Cirulli…

分分钟搞定Wordpress网站HTTPS升级

序 自从浏览器开始主动提示网站不安全开始&#xff0c;我就一直想找机会把博客站aTechie做一下升级&#xff0c;终于……终于这次找到机会了&#xff08;太懒了&#xff0c;哈哈哈&#xff09;。 关于HTTPS 先用一张图片来直观展现HTTPS的原理 简单的说&#xff0c;HTTPS的…

ecs 对比 本地服务器_阿里云服务器建站、心选建站、定制建站有什么区别,如何选择...

使用阿里云建网站的三种方式购买云服务器手动建站、云速成美站模板建站或者选择阿里云定制建站三种方式&#xff0c;下面为你们分享利用阿里云建立网站的三种方式及优点对比&#xff1a;服务器阿里云建站方法汇总网站使用阿里云建站能够有三种方式&#xff0c;阿里云第一种是购…

JS--网站统计中的数据收集原理及实现

来源&#xff1a;http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html 网站数据统计分析工具是网站站长和运营人员经常使用的一种工具&#xff0c;比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访…

某个在线学习网站提交学习进度的方式

没到月底&#xff0c;领导要求我们完成公司网站的学习进度&#xff0c;于是想搞清楚这个在线学习网站更新学习进度的方法&#xff0c;可以快速更新学习进度&#xff0c;算是解决了学习任务的紧迫性。一开始看到一个按键&#xff0c;当学习快结束是&#xff0c;网站会提示”我已…

网站用户登录过程中的cookie的作用

测试一个学习平台项目时&#xff0c;需要验证用户账号是否可以正常登录。使用jmeter工具测试&#xff0c;fiddler辅助查看请求和响应消息。 开始的想法很简单&#xff0c;在登录页面查看到&#xff0c;点击登录按键会出发一个POST请求&#xff0c;想通过jmeter模拟post请求&am…

网站jar包功能分析

agileggfw.agilemgr.jar包引用了HibernateTransactionManager和FreeMarkerViewResolver 还不清楚做什么的 agileggfw.captcha.jar包引用jcaptcha-1.0.jar&#xff0c;作用是生成验证码&#xff1a; JCaptcha 简介 <?xml version"1.0" encoding"UTF-8&qu…

网站引导功能实现

网站新上线一个功能&#xff0c;往往会有一些引导功能&#xff0c;其实很简单&#xff0c;就是一些做好的图片通过css,js控制&#xff0c;拼接在一起。 上一些来自百度网的截图&#xff0c;一看就明白。

每个软件开发人员都应关注的7个网站

1. DEV社区 这是一个伟大的网站&#xff0c;可以随时了解最新技术以及下一轮繁荣。您可以关注自己感兴趣的主题。文章和视频的供稿将根据您的喜好生成。 只需访问网站并搜索您想要探索的技术和概念。您将获得许多相同的文章&#xff0c;视频和播客教程。它的技术新闻版块将使您…

测试基于php的购物网站,基于ThinkPHP开发的购物网站-微淘淘开发笔记

历经半个多月的断断续续的编写&#xff0c;一款基于ThinkPHP的购物网站开发完成并完成了初步的测试检测与修复&#xff0c;这款程序可以称之为到现在为止完全我自己独立编写完成的最大规模的一个 PHP 程序&#xff0c;为其起名叫做微淘淘&#xff0c;随便起的。由于使用的 TP 开…