任选一小说网站,爬取任意一部小说,以记事本的形式保存。

news/2024/5/20 7:22:33/文章来源:https://blog.csdn.net/cygqtt/article/details/106492389

1、任选一小说网站,爬取任意一部小说,以记事本的形式保存。

第一种情况(网址可能已失效):

import requests
from lxml import etree
def get_url():url = 'http://www.yuetutu.com/cbook_24378/'r = requests.get(url)tree = etree.HTML(r.text)return treedef get_book_url(tree):book_list= []dd_list = tree.xpath('//*[@id="list"]/dl/dd')i = 1for dd in dd_list:if i >= 9:url_book = dd.xpath('a')[0].attrib['href']title_book = dd.xpath('a')[0].textbook_list.append((title_book, url_book))i += 1return book_listdef get_content(book):domain = 'http://www.yuetutu.com'for i in book:url = domain + i[1]r = requests.get(url)r.encoding = 'utf8'tree = etree.HTML(r.text)title = tree.xpath('//*[@id="wrapper"]/div[3]/div/div[2]/h1')[0].texttext = tree.xpath('//*[@id="content"]/text()')path = r'C:\Users\dell\Desktop\小说\ 'with open(path + title + '.txt', 'w', encoding='utf8') as f:for j in text:f.write(j)print('******{} 下载完成! ******'.format(title))if __name__ == '__main__':a = get_url()b = get_book_url(a)get_content(b)

在这里插入图片描述
在这里插入图片描述

第二种情况:

import requests
from lxml import etree
def get_url():url = 'https://www.51biquge.com/book_12066/'r = requests.get(url)tree = etree.HTML(r.text)return treedef get_book_url(tree):book_list = []dd_list = tree.xpath('//*[@id="list"]/dl/dd')i = 1for dd in dd_list:if i >= 13:url_book = dd.xpath('a')[0].attrib['href']title_book = dd.xpath('a')[0].text.strip()book_list.append((title_book, url_book))i += 1return book_listdef get_content(book):domain = 'https://www.51biquge.com'for i in book:url = domain + i[1]r = requests.get(url)r.encoding = 'utf8'tree = etree.HTML(r.text)title = tree.xpath('//*[@id="main"]/div/div/div[2]/h1')[0].texttext = tree.xpath('//*[@id="content"]//p/text()')path = r'C:\Users\dell\Desktop\小说\ 'with open(path + title + '.txt', 'w', encoding='utf8') as f:for j in text:f.write(j)print('******{} 下载完成! ******'.format(title))if __name__ == '__main__':a = get_url()b = get_book_url(a)get_content(b)

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_871206.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用AJAX技术,结合监听器,实现页面中动态显示当前网站在线人数(电子工业出版社《Java Web程序设计》P171第九题)

导航 先上思维图纸第一步: 参考了课本(如题教材)实现了Listener第二步:个性化适配第三步:实现JSP界面总体问题: 刚看到的时候心里想的是写一个Servlet集成Listener的相关接口实现。然后JSP的JS每1ms获取一次doGet()中的数据实时刷…

curl网站开发指南

来源:http://www.ruanyifeng.com/blog/2011/09/curl.html curl网站开发指南 作者: 阮一峰 我一向以为,curl只是一个编程用的函数库。 最近才发现,这个命令本身,就是一个无比有用的网站开发工具,请看我整理…

怎样用SharePoint创建网站?

SharePoint能够让企业开发出智能的门户站点,无缝连接用户、团队及信息。下面,我们就将教你如何在sharepoint中创建网站: 创建网站 2. 在 SharePoint 主页上选择“ 创建网站”。 3. 在向导中对网站属性进行基本设置,如网站类型、网…

Linux 安装apache ,发布网站修改端口和配置第二顺位默认发布文件

1.安装apache 软件和手册 2.发布网站,找到默认的发布目录 用xftp 链接上自己的主机传送需要发布的网站到/var/www/html 目录下 使用命令ls查看是否有文件上传 上传成功打开浏览器,输入主机名,查看是否发布成功 3.修改默认端口 #主配置目录 …

js逆向入门网站分析(某空气质量监测平台)

文章目录 前言一、瞧一瞧网站是啥样呢二、新的开始,新的挑战2.1通过第一个 eval2.2分析第二个eval 三、模拟得到服务器传回的数据3.1如何得到关键js文件3.2如何模拟运行eval3.3匹配参数3.4发出请求3.5解密数据 前言 又要到放假的时间啦,学习了好一段时间…

novipnoad电影网站分析

文章目录 前言一.url跳转反调试二.整个过程分析2.1ts重定向2.2 寻找m3u82.3寻找ckey 声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 前言 记录远哥讲的一次…

学习前端的有用网站

藏匿 1. 文档型教程 1.1 HTML教程 W3C的HTML教程 1.2 CSS教程 W3C的CSS教程 W3C Candidate Recommendation Draft 1.3 JavaScript教程 MDN的JavaScript教程 2.视频型教程 2.1 HTML & CSS Udemy排名第一的 HTML5CSS3 课程 2.1 JavaScript Udemy排名第一的JavaSc…

大型分布式网站架构

大型分布式网站架构 2016-02-22 17:50 480人阅读 评论(0) 收藏 举报 大型分布式网站架构技术总结 本文是学习大型分布式网站架构的技术总结。对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架…

各大日语学习网站整理

日语学习网站 一、http://www.gavo.t.u-tokyo.ac.jp/ojad/search 二、http://yomikatawa.com/ 三、http://nlt.tsukuba.lagoinst.info/ 四、http://j-nihongo.com/about/ 五、https://mnamae.jp/ 六、http://18.art-studio.cc/~koenoizumi/ 七、http://www.jakka.jp/index.htm…

c# 爬虫之(搜狗微信网站)

1、需求获取搜狗微信网站 通过关键词搜索得到的结果列表及详情 2、通过跟踪发现具体的url为:https://weixin.sogou.com/weixin?query%E9%92%9B%E6%A3%92%E6%BB%A4%E8%8A%AF&_sug_type_&s_frominput&_sug_n&type2&page2&ieutf8 其中query…

基于ASP.NET的日语学习网站 毕业设计成品讲解(程序+论文)-王翔-专题视频课程...

基于ASP.NET的日语学习网站 毕业设计成品讲解(程序论文)—1467人已学习 课程介绍 本文是基于ASP.NET的日语学习网站的毕业设计成品讲解,包括整套网站程序、数据库和配套的论文,网站期初使用的技术和设计比较一般,本…

基于ASP.NET网站开发的 SQL SERVER 数据库教学辅导 新手基础实用技术精讲-王翔-专题视频课程...

基于ASP.NET网站开发的 SQL SERVER 数据库教学辅导 新手基础实用技术精讲—1183人已学习 课程介绍 ASP.NET网站开发 数据库教学辅导 实用技术精讲,主要针对基于ASP.NET的Visual Studio 2010和SQL SERVER 2008 R2下开发的基础数据库部分 课程收益 快速掌握对数据库开发的基础…

从小型网站到超大规模网站的MySQL参考架构

转自:http://www.infoq.com/cn/news/2013/03/MySQL-Reference-Architectures Oracle发布《面向大规模可伸缩网站基础设施的MySQL参考架构》白皮书,针对将MySQL用作数据存储的不同类型和不同规模的网站给出了推荐的拓扑结构。 根据分别提供4类服务——用…

读书笔记-大型网站架构案例分析

从事传统软件行业多年,一直钻研于基于企业应用环境下的快速开发平台,而这种平台应用场景同时在线人数也不会超过百人,同一业务并发数在同一时间点或段内出现猛烈的增长,曾经也一度想设计一个怎样怎么样的NB架构,但现在…

网站交互相互技术

cookie和session什么区别? 1、cookie存本地,session存服务器 2、cookie只能存最大4k,session可以无限大

jmeter与apache测试网站并发

本文主要介绍性能测试中的常用工具jmeter的使用方式,以方便开发人员在自测过程中就能自己动手对系统进行自动压测和模拟用户操作访问请求。最后还用linux下的压测工具ab做了简单对比。 1. Jmeter相关概念简介: JMeter是Apache组织开发的基于Java的压…

大型网站架构演变过程理解

web动静资源分离 浏览器的请求分为静态资源请求,与动态资源请求。 静态有:html文件,js脚本,css等。 动态有:jsp,php等 http服务器用来处理静态请求,应用服务器处理动态请求。分别可以称为前端…

解决火车头7.6版本无法采集部分https网站处理方法

因为现在大多数网站都采取https,导致很多网站无法采集。那哪行,肯定得有解决办法,今日就说说关于火车头采集器7.6版本无法采集部分https网站处理方法。 火车头7.6版本由于发布时间久远,虽然采集器大部分功能都还可以正常使用&…

destooon7.0装修网站源码带分站多地区带设计报价

源码为destoon7.0系统,整站打包,功能很多,不保证无bug,请测试好演示站; 安装测试环境为:宝塔-php-mysql; 源码带手机版,dt内核,安全稳定,支持二次开发等 下…

响应式行业资讯网类网站织梦mip模板带数据完整无错版

织梦最新内核开发的模板,该模板属于比特币新闻资讯类、博客类企业都可使用, 这款模板使用范围极广,不仅仅局限于一类型的企业,你只需要把图片和产品内容; 换成你的,颜色都可以修改,改完让你耳目…