Python3 爬虫 scrapy框架爬取小说网站数据

news/2024/4/28 13:19:41/文章来源:https://blog.csdn.net/weixin_34310785/article/details/88689683

上次用requests写的爬虫速度很感人，今天打算用scrapy框架来实现，看看速度如何。

爬虫步骤

第一步，安装scrapy，执行一下命令

pip install Scrapy

第二步，创建项目，执行一下命令

scrapy startproject novel

第三步，编写spider文件，文件存放位置novel/spiders/toscrape-xpath.py，内容如下

# -*- coding: utf-8 -*-
import scrapyclass ToScrapeSpiderXPath(scrapy.Spider):# 爬虫的名字name = 'novel'# 爬虫启始urlstart_urls = ['https://www.xbiquge6.com/0_638/1124120.html',]def parse(self, response):# 定义存储的数据格式yield {'text': response.xpath('//div[@class="bookname"]/h1[1]/text()').extract_first(),'content': response.xpath('//div[@id="content"]/text()').extract(),# 'author': quote.xpath('.//small[@class="author"]/text()').extract_first(),# 'tags': quote.xpath('.//div[@class="tags"]/a[@class="tag"]/text()').extract()}# 下一章的链接next_page_url = response.xpath('//div[@class="bottem1"]/a[3]/@href').extract_first()# 如果下一章的链接不等于首页 则爬取url内容  ps：最后一章的下一章链接为首页if next_page_url != 'https://www.xbiquge6.com/0_638/':yield scrapy.Request(response.urljoin(next_page_url))

总结

框架用时：23分，比requests快三倍！awesmome！xpath也蛮好用的，继续学习，欢迎交流。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_723997.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

如何在IIS6,7中部署ASP.NET网站

如何在IIS6,7中部署ASP.NET网站

新来了一台03的服务器，按照管理不熟了一下，发现部上去在浏览的时候出现了错误。 HTTP 错误 403.1 - 禁止访问：执行访问被拒绝。这是一种典型的403错误，我们只需在主目录中的执行权限选项中选择纯脚本即可。这个问题解决了之后&a…

阅读更多...

关于IIS中WEB网站访问弹“验证输入框”及“401限制访问”的解决办法

关于IIS中WEB网站访问弹“验证输入框”及“401限制访问”的解决办法

最近在配置IIS网站的过程中，不管是本地还是外部访问配置的网站，出现了需要输入用户名、密码、及域的对话框，解决之后又出现页面401限制访问的错误页面。就这两项错误，依次做一下解决办法的整理。解决流程：创建新的账…

阅读更多...

虫草医药网站html模板

虫草医药网站html模板

虫草医药网站html模板是一款宝王虫草医药网站模板html源码整站下载。模板地址：http://www.huiyi8.com/sc/8783.html转载于:https://www.cnblogs.com/xkzy/p/3765260.html

阅读更多...

Web网站IP过滤功能第二版(C#)

Web网站IP过滤功能第二版(C#)

第一个版本：http://blog.csdn.net/yangyuankp/article/details/7748110 这次主要是改进了Web端，把功能进行封装，变成一个dll类库，使用变得及其简单。并美化整合了后台控制界面。同时小小的改动了一下数据库，把配置都放…

阅读更多...

常见网站集群架构图收集整理

常见网站集群架构图收集整理

此处用于收集常见的网站集群架构图： （一）小型企业集群架构图 （二）云产品网络架构图 （三）ELK可视化日志示意图转载于:https://blog.51cto.com/12083623/2353143

阅读更多...

【PC网站前端架构探讨系列】结合公司网站首页，谈前端模块化开发与网站性能优化实践...

【PC网站前端架构探讨系列】结合公司网站首页，谈前端模块化开发与网站性能优化实践...

说在前面上午给大家分享的个人认为比较全，比较官方，比较清晰的grunt使用教程，被挪出首页了，不过没关系，毕竟不是原创，大家想看，我现在贴出地址： http://www.cnblogs.com/sybboy/p/4…

阅读更多...

帝国网站管理系统恢复栏目目录建立目录不成功!请检查目录权限 Godaddy Windows 主机...

帝国网站管理系统恢复栏目目录建立目录不成功!请检查目录权限 Godaddy Windows 主机...

近期学习帝国网站管理系统EmpireCMS_6.6os_SC_UTF8，安装完成以后在恢复栏目目录时出现建立目录不成功!请检查目录权限错误发现在d目录下没有 file 文件夹。在d目录建立file文件夹后。在后台恢复目录。就成功了。原因。Godaddy Windows 主机在解压缩包的时候如…

阅读更多...

Windows Azure 网站的 IP 和域限制

Windows Azure 网站的 IP 和域限制

编辑人员注释：本文章由 Windows Azure 网站团队的首席项目经理 Stefan Schackow 撰写。配置 Azure 网站 (WAWS) 的 IP 和域限制一直是用户最迫切希望我们提供的功能之一，现在这个功能终于可以使用了。IP 和域限制提供了一个附加安全选项，它还…

阅读更多...

批量修改IIS网站路径的方法

批量修改IIS网站路径的方法

公司服务器（windows server2003）硬盘出现问题，F盘的数据转移到了G盘，硬盘的路径除了盘符变化了之外，其余都没变，访问IIS，提示路径错误，改吧，网站——右键——属性——主目…

阅读更多...

对搜狐、网易和TOM三大门户网站的SQL注入漏洞检测

对搜狐、网易和TOM三大门户网站的SQL注入漏洞检测

对搜狐、网易和TOM三大门户网站的SQL注入漏洞检测本文节选自《大中型网络入侵要案直击与防御》一书此外，笔者对搜狐及TOM和网易这三大门户网站作了注入攻击检测，发现同样存在明显的注入漏洞，安全性很糟糕。 1.MySQL注入检测搜狐门户网站首…

阅读更多...

SEO Enable Your Javascript Website

SEO Enable Your Javascript Website

2019独角兽企业重金招聘Python工程师标准>>> Overview This is guide to using the AjaxSnapshots service to provide HTML snapshots of your website to search engines like Google and Bing. We have included detailed instructions for configuring popular …

阅读更多...

10个有用的排版技巧提升你网站的可读性

10个有用的排版技巧提升你网站的可读性

为什么80%的码农都做不了架构师？>>> 排版在网页设计中经常被忽略。其实这是很傻逼的，因为注重网页排版确实可以提高你的网页设计水平和可读性。下面，我列出了10个非常有用的排版技巧让你的网站看起来更好。 1、纠正行高最常见的…

阅读更多...

大流量网站的底层系统架构

大流量网站的底层系统架构

动态应用，是相对于网站静态内容而言，像我们.NET 服务器端语言开发的网络应用软件，比如论坛、网络相册、交友、BLOG等常见应用。动态应用系统通常与数据库系统、缓存系统、分布式存储系统等密不可分。大型动态应用系统平台主要是针对于大流量…

阅读更多...

55+手绘网站设计 – 构建极具创新效果的网站

55+手绘网站设计 – 构建极具创新效果的网站

手绘网页设计无疑是创建个性化页面并获取众多关注的好办法。尽管手绘在网页设计中不是最热门的，但却是很常见的方法。如你在以下的实例中所见，将手绘融入网页设计有很多种方法，都看上去很棒！正如其他任何艺术形式一样&#xff0c…

阅读更多...

《分享》学习单页网站制作的20个优秀案例

《分享》学习单页网站制作的20个优秀案例

单页网站如果设计得当，是一个把所有的内容放到前沿和中心很好的方式，能够增加访问者看到它的机会。因此今天，我们收集了一组非常出色的单页网站来推荐给大家。如果大家想了解这些精美网站是如何实现的，可以看我之前分享的文章《谈…

阅读更多...

WAP应用及手机网站的现状

WAP应用及手机网站的现状

2019独角兽企业重金招聘Python工程师标准>>> 目前，使用移动电话访问网上信息的方式主要有两种：其一，由电信增值服务(TelephonyValue Added Services)直接在无线网络中提供WML 的Web 格式的信息服务；其二，通…

阅读更多...

网站发布

网站发布

1.首先在服务器上建数据库，建表，插入数据 create database student create table students( sno char(10), sna char(10) ) insert into students values (001,N张三)2.在本地计算机上编程，连接到数据库 <body><%Connection con nu…

阅读更多...

[源码和文档分享]基于JavaEE轻量级SSM框架和Maven构建的校友录网站设计与实现

[源码和文档分享]基于JavaEE轻量级SSM框架和Maven构建的校友录网站设计与实现

摘要校友作为高校的一种重要资源，在促进高校专业教学改革、募集高校筹资办学途径、促进校企合作、加强毕业生感情交流、提升大学生就业质量等方面发挥着重要作用。然而目前我校并没有一个系统可以追溯毕业生的情况。因此，校友们需要一个平台&#xff0c…

阅读更多...

36个时尚创意iPhone App网站设计

36个时尚创意iPhone App网站设计

2019独角兽企业重金招聘Python工程师标准>>> iPhone 的APP应用程序都是只能集成在APP Stone里下载的，但是有一个漂亮的介绍网站也是必须的，今天收集分享：36个时尚创意iPhone App网站设计，希望其中有你喜欢和需要的&…

阅读更多...

优秀网页设计：25个最佳的摄影师作品网站

优秀网页设计：25个最佳的摄影师作品网站

网页设计师经常浏览其他设计师的作品集网站来获取灵感和想法并用于自己的工作中。摄影师，和设计师一样，需要一个对访客有吸引力的作品网站，向潜在客户展示他们的创作，通常会提供一些摄影师的传记信息，使人们更容易联系…

阅读更多...

推荐文章

最新文章