Python从诗词名句网站中抓取四大名著之一《三国演义》!

news/2024/5/10 2:22:31/文章来源:https://blog.csdn.net/qq_45058254/article/details/103616375

从诗词名句网站中抓取四大名著之一三国演义,并保存!

@ XGan 2019 12 19

**抓取诗词网站(http://www.shicimingju.com/book/sanguoyanyi.html)中的四大名著,并保存到本地文件中,使用该代码可以抓取诗词网上很多的古典诗集的,只需做稍微的修改,但都只支持单部书籍的爬取,等有时间写一个全网爬取的Demo,到时候与大家分享,这里只是以《三国演义》爬取为例。
python代码

import random
import requests
from lxml import etreehead = [
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
]def get_html(url):  #获取每一章节的链接res = requests.get(url,headers={'User-Agent':random.choice(head)}).texthtml = etree.HTML(res)# 得到每一章节的链接url_list = html.xpath("//div[@class='book-mulu']/ul/li/a/@href")return url_list
def get_chapter_content(url_list): #对每一章节发起请求,并提取title,text内容,保存在txt中with open('./data/三国演义.txt','w',encoding='utf-8') as f:print(50 * '*' + "开始抓取" + 50 * '*')for u in url_list:url = 'http://www.shicimingju.com' +ures = requests.get(url,headers={'User-Agent':random.choice(head)}).texthtml = etree.HTML(res)# 获取每张标题title = html.xpath("//div[@class='card bookmark-list']/h1/text()")print(title[0]+"\n")f.write(str(title[0])+"\n")p_list = html.xpath("//div[@class='chapter_content']//p")for p in p_list:# 获取每章内容text = p.xpath("./text()")[0]f.write(str(text)+"\n")print(text)print(50 * '*' + "抓取成功" + 50 * '*')
if __name__ == '__main__':url ='http://www.shicimingju.com/book/sanguoyanyi.html'urllist =  get_html(url)get_chapter_content(urllist)

结果

在这里插入图片描述
在这里插入图片描述

目标网站:http://www.shicimingju.com/book/sanguoyanyi.html
在这里插入图片描述
使用xpath提取网页中的想要的信息
每一个章节可从首页获得,xpath为//div[@class=‘book-mulu’]/ul/li/a/@href
在这里插入图片描述
每一个章节的标题可由xpath提取为//div[@class=‘card bookmark-list’]/h1/text()
在这里插入图片描述
每一个章节的内容可由xpath提取为//div[@class=‘chapter_content’]//p/text()
在这里插入图片描述
到此完成,整本《三国演义》不大才1.7M
在这里插入图片描述
**

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_862062.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python多线程爬取猫眼网站榜单TOP100,并存入CSV文件!

Python爬取猫眼网站榜单TOP100,并存入CSV文件! 1. 目标网址 看到榜单的时候网址是https://maoyan.com/board/4是这样的,通过下一页看到https://maoyan.com/board/4?offset10,然后在下一页https://maoyan.com/board/4?offset20&…

python爬取某金融网站的用户评论,并进行词云图可视化。

python爬取某金融网站的用户评论,并进行词云图可视化。 一,爬取数据 1. 唠叨一下 多说一句,这里编写的代码用来作为学习所用,希望使用者不要恶意的用来造成别人的网站服务器压力,我们爬到数据就行不要恶意运行代码&a…

Companion Sitemap Generator WordPres网站地图插件安装使用

Companion Sitemap Generator – HTML & XML是一款 WordPress网站地图插件,用于生成 WordPress网站地图。站点地图是一个 xml静态文件,提供网站页面信息。站点地图告诉搜索引擎哪些页面重要,并提供这些页面的有价值的信息。搜索引擎通过读…

wordpress友链插件SEO优化必备插件-Simple Links

WordPress SEO插件 – Simple Links。 这是由国人Awaken开发的一款方便添加内部链接的插件,可以让你轻松地在一篇文章中插入已经发布的文章的链接, 存放在/wp-content/plugins下解压 https://share.weiyun.com/2cL5IOfb

start.spring.io网站访问不到

start.spring.io网站经常访问不到,修改server URL为aliyun https://start.aliyun.com/

如何制作自己的网站?

1、购买一个域名,一个虚拟主机 2、解析该域名,进行DNS解析(有的需要是Cname解析) 查看解析是否成功: 运行输入cmd , Enter, 输入ping www.XXX.com ,Enter, 出现下图,解析成功 3、虚拟主机绑…

如何制作网站_如何制作自己的网站

如何制作网站_如何制作自己的网站 今天我们为初学者提供了一种快速简单的方法来创建网站,而无需学习HTML / CSS编码或阅读冗长乏味的教程。 在本指南中,我们将向你展示大多数Web开发人员如何构建他们的站点以及如何避免昂贵的网站建设费用,这…

5种简单方法来增加网站流量

5种简单方法来增加网站流量 你是否为努力增加网站流量而想尽一切方法,即使您已尝试过各种“方法”?无论你做什么,你的网站流量数字都不会让步......而且你的网站赚不到钱。好吧,我们今天分享实用的网站流量增长方法,希…

模板建站什么意思?对网站开发和运营好吗?

“模板建站什么意思?对网站运营好不好”这个问题是一个网友提问的,这边解答一下。模板建站的意思就是利用第三方平台提供的网站模板,自主建站。很多行业新人觉得模板建站对网站运营不利,但其实不然,说明你对模板建站还…

企业会用的网站制作软件有哪些?效果哪个好?

不同企业单位都有自己习惯用的网站制作软件,现在网上各种各样的网站制作软件有很多,要说效果哪个好,具体还是要根据程序员们的水平来定,根据我的经验,分为不同的等级水平分享一些我所了解的网页制作软件: …

实测分析免费建站软件有哪些?哪个最好?

免费建站软件行业从很早之前就已经开始发展,很多个人站长都利用免费建站软件平台拥有自己的博客、论坛、网站……建站的目的各不相同,有的是为了个人爱好,有的是为了创业,有的是为了展示个人工作室,我自己亲测了很多免…

SEO建站优化白皮书之如何给网站定位?

同样都是做网站,为什么我的网站就是不如别人的网站效果好呢?问题出在网站定位没做好! 一、网站定位是什么? 简单来说,网站定位就是确定网站的风格、用途、展现形式等内容。很多企业组织或个人希望通过建立网站&#x…

什么是网站建设?网站建设的常见要素有哪些?

互联网时代,越来越多的企业想要建设自己的网站,但是等到真的开发完网站之后,又傻眼了:网站该怎么建设,才能发挥它的作用?甚至有些小白对什么是网站建设都没有概念。 那么我首先跟大家科普下网站建设是什么…

不懂技术的小白,使用电商网站建设工具有什么注意事项?

对于不懂代码,不会技术的小白来说,想要做一个电商网站,快速的方式应该就是使用电商网站建设工具。而且现在很多程序员如果要做电商网站,也会使用很多国内外的电商网站建设工具。但是电商网站也有很多需要注意的地方,接…

简历类个人网站如何制作?

又是一年毕业季,各位找工作的毕业生们想必已经开始忙碌了。找工作的第一步便是让HR认识自己,但是,普通的简历所承载内容有限,而且只有文字部分,想要单凭纸质简历从众多竞争者中脱颖而出,实在太难了。 另外…

个人博客建站教程最全解析

前不久开始筹备自己的个人博客网站,由于没有经验,走了不少弯路。今天把个人博客搭建需要了解的相关知识整理一下,也给大家解答下一些常见问题。 首先是关于个人博客建站的难易度问题,很多人都以为不懂代码无法建站,于…

我的个人博客网站是怎么制作的?

首先得恭喜自己,因为今天我的个人博客网站终于上线了!要问到我做个人博客的初衷是什么?这得追溯到大学的时候,大学刚接触到Dreamweaver,喜欢上Photoshop是就萌芽出做一个属于自己的网站。那时就在想有个自己的网站得多…

网站制作中如何增加界面的信任体验

建站者在制作网站过程中需要站在用户的角度去考虑网站的信任体验,如何增加信任体验,延长用户浏览网站的时间,重在细节斟酌,强调稳定性,小编今天给大家总结一下: 1、底部信息:网站底部信息内容是…

新手如何建立网站,网站建设的几个步骤。

一、购买域名 新手建立网站,域名是必不可少的。简洁的域名能让人记忆深刻。选择域名大部分都以.com为主,也有很多新的后缀域名。域名后缀不同价格也不同,一般以年为单位。新手可以到阿里域名平台购买。二、购买虚拟主机 虚拟主机和服务器可…

网站建设后怎么提高网站打开相应速度

怎么提高网站打开相应速度 很多用户会发现做网站发布到服务器上后访问速度很慢,这个对网站来说是个致命伤,网站相应速度慢,即使网站做的很漂亮,内容很完整,客户打开蜗牛一样的也会失去耐心,可能直接关闭网站…