实战--Scrapy框架爬去网站信息

news/2024/5/13 15:17:26/文章来源:https://blog.csdn.net/weixin_39338645/article/details/83108978

Scrapy的框架图

一、使用Strapy抓取网站一共需要四个步骤:

(1)创建一个Scrapy项目;

(2)定义Item容器;

 Item是保存爬取到的数据的容器,其使用方法和python字典类似,并且提供了额外保护机制来i避免拼写错误导致的未定义字段。

(3)编写爬虫;

        :在新建的dmoz_spider.py里面填写代码

     :在cmd控制器里面爬取,输入以下代码两句代码

        :爬取结果

    :再次编辑item.py,下图是理论基础

在cmd的控制器下进入shell,输入以下语句,其中的链接就是我所要爬取的其中一个页面

输出结果如下即为正确:

然后再箭头所指处可以输入response.body,就可以看到网页的所有内容,输入response.headers,就可以看到网页的头,但是想在网页的内容中找到自己想要的,就必须利用Selector选择器中的方法,例如XPath,XPath是一门再网页中查找特定信息的语言。所以用XPath来筛选数据,要比使用正则表达式容易些。如下图:

得到一个列表,对列表字符串化时利用extract(),如果只想要title里面的文字,直接在title后面加/text(),结果如下:

通过网站的审查元素我们可以知道,我们所需要的网站描述性内容都在ul中的li标签下,所以在cmd控制器下输出代码进行查找,如下图:

想看到标签里面的内容,如下:

如果想得到网站的标题,根据审查元素可以看到它们是在a标签下,具体执行如下:结果都是二进制显示

如果想获得所有网址的链接,具体执行如下:

下面是循环输出title

爬取指定位置的信息,修改dmoz_spider.py

在cmd控制器中输入scrapy crawl dmoz

爬取结果如下:

标题-链接-描述,由于是中文的原因,没有显示出来

(4)存储内容。

修改dmoz_spider.py,修改如下:

然后再cmd控制器下输入,如下图所示的第一行代码进行保存,-o后面是文件名,-t后面是保存的文件形式

然后再tutorial根目录下找到items.json,用记事本打开,里面就是我爬取的内容,有title标题,link链接,desc描述

到此,基于Scrapy框架的网页爬取就结束了。希望对各位有所帮助!

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_885351.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新手写图片爬虫(针对千库网和一个福利网站)

前言:由于前一段时期需要从网站上扒一些图片下来,因为css,js都好扒,就是图片数量众多,需要代码实现,在网上找了一堆以实现的代码,要么没有用,要么功能不是自己想要的,干脆…

.Net修改网站项目调试时的虚拟目录

有些项目需要在IIS发布的时候,将网站发布到虚拟目录,为了保持调试和发布的路径同一,一般会修改VS调试的虚拟目录 一、Web应用程序 Web应用程序的修改方式非常简单,在解决方案资源管理器->项目>右键>属性>Web>服务…

在云服务器上建立网站

1.修改ECS实例的安全组规则,开放Web服务端口 新购买的ECS实例默认已开启远程管理端口(22、3389),若希望在云服务器上建立网站,还需要开启80端口。 点击右侧“更多—更改安全组” 点击“新建安全组” 默认状态是没有…

阿里云服务器或者其他网站绑定域名方法

阿里云服务器或者其他网站绑定域名方法 |浏览:6896|更新:2014-04-18 17:25|标签:域名 1 2 3 4 分步阅读 阿里云服务器或者其他服务器绑定域名方法。添加高级网站标志,使域名解析。 工具/原料 服务区 已解析域名或者站点 方法/步骤…

阿里云服务器或者其他网站绑定域名方法

阿里云服务器或者其他网站绑定域名方法 |浏览:6896|更新:2014-04-18 17:25|标签:域名 1 2 3 4 分步阅读 阿里云服务器或者其他服务器绑定域名方法。添加高级网站标志,使域名解析。 工具/原料 服务区 已解析域名或者站点 方法/步骤…

高性能网站使用的14条技术

Translated by mask 从2004年开始,我开始进入雅虎的异常表现小组。我们是一个很小的队伍,专门针对雅虎的产品进行质量检测和改进,我作为一个后端工程师,现在却开始捣鼓前端代码优化方面的工程,所以我认为这是一个极好…

成就大型高性能网站的十项规则

在我们公司ChinaNetCloud,见过多种不同类型的网站和系统,有好也有差。其中有些系统拥有良好的服务器/网络架构,并且进行了合理的调整和监控;然而一般的系统都会有安全和性能上的问题,不能良好运行,也无法变得更流行。 …

怎么让网站快速生成手机App?

初雪云 如果你一个手机站,想给网站加个壳,封装成一个APP。打开显示的还是网站,就是多了启动页面,可以的话能在加上加载页面,标签导航栏,可以实现吗?我的回答是肯定的,现在APP的开发成…

电商分析:网站运营不得不做的用户分析

当电子商务网站成功地把一个访客转化成一个客户之后,如何提高这个客户对于网站的忠诚度,继而增加客户对于网站的整体贡献值就变得非常重要了, 因为带来一个新客户的成本是维护好一个老客户的3 ~5 倍 。只有有效地提高每个客户的消…

anaconda git/镜像网站下载压缩包后本地安装

**情景:有时候会从git或者非官方下载第三方库,无法从pip里查找 ** 1、从镜像网站(https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/win-64/)或者其他情况下载下压缩包,不要解压(格式为zip/.tar.g…

爬山虎采集实战-站长之家网站排行榜

目标采集网址:中文网站总排名_网站排行榜 类型:标准列表页详情页翻页 数据量:1895页 x 30/页 56850条数据 采集工具:爬山虎采集器 爬山虎采集器 - 简单易用的网页数据采集工具_免费网页爬虫软件 首先我们建立一个任务&#xff0…

利用阿里云对象存储(OSS)提升小网站的访问速度

相信有不少同行都喜欢做一个自己的小网站。毕竟CSDN的广告确实很恶心。(是不是要封我的号了,哈哈~~~) 对于一些穷学生,没错就是本人。一般买的服务器的都不太贵,所以性能确实不太强。例如我的1核2G1M带宽的 腾讯云服务…

博客网站的安全运维尝试

树莓派 最近博客经常时不时的被人攻击,有时候对网站影响不大,有的时候对网站影响很大,会导致网站持续性的CPU过高。 如果网站或者服务器因为漏洞被攻击、被黑导致了异常的话,一般服务器肯定会存在一些日志或者读写文件的操作。我…

惊!一个千万级 PV 规模高性能高并发网站架构

作者:一盏烛光,贤牛特邀工程师。 成为【贤牛】工程师,按需运维,灵活用工,让运维工程师多赚一些零花钱,多一些企业级运维经验。 客户端:缓存(expires)、deflate 压缩 缓存…

wap网站首页宽度和长度统计分析

1、手机wap网页显示基本数据 2、手机以下特征影响页面宽度: Wap页面在手机的显示宽度由手机决定: 大屏手机是240和320两种宽度,目前各网站在宽度显示问题的处理上,有固定页面宽度(如空中网、搜狐网等)和自…

手机网站重构经验分享(S60V3篇)

前言 做WEB重构的同学都应该知道,我们一般需要在一个操作系统 (Windows XP)和4种以上的浏览器(IE678,Firefox,Chrome,Opera等)上测试页面的兼容性。 相对而言,手机上的页面兼容性测试,相当痛苦!手机光操作系统都有S60V3,S60V5,MTK,Android,Windows Mobile等等,每个操作系统上除…

教程:利用Cloudflare网关搭建访问IPFS网站

最近,笔者的微信朋友圈被“Cloudflare网关”刷屏了,到底是怎么回事呢? 原来在9月17日这天,IPFS项目团队Protocol Labs发布了一条推特,为美国互联网安全提供商Cloudflare的一款新产品打call。据悉,该产品可…

Axure实战06:创建一个AppleSymbol图标库网站

在本章中,你将学会如何使用Axure中继器和内联框架创建一个AppleSymbol图标库网站。 项目背景 在我们开发iOS应用程序过程,常常会用到图标按钮,Apple提供了一整套官网的图标,开发人员可以直接使用Apple设计的官网图标快速开发App…

网站搭建——环境搭建

前言: 之前做的一个网站是在windows环境下进行开发和部署的,现在想导入到Linux环境下。由于使用的实验室电脑,不方便直接安装Linux系统,所以选择了使用Vmware,然后在安装Linux的做法,安装后Linux后需要安装…