关于python爬取笔趣阁网站上面完美世界小说

news/2024/5/11 22:42:11/文章来源:https://blog.csdn.net/guang_mang/article/details/53729531

1这个是用BS爬下来的,其实是不难的,理解了就好,微笑点击这里恩这本小说很不错的

2看下这个就是用正则表达式来提取的章节链接,不过这个是要前面加上前缀


3打开之后,我使用BS处理的,因为这个处理这个内容中间的Br比较方便,如果还是用正则表达式,就是有点麻烦

# coding:utf-8
import urllib
import re
from bs4 import BeautifulSoup#是用BS和正则表达式爬取小说
url='http://www.biquge.tw/0_5/'
page=urllib.urlopen(url)
html=page.read()
rez=r'<dd> <a style="" href="(/0_5/\d{4,}.html)">.*?</a></dd>'#观察到完美世界笔趣阁网站的目录上的每个章节的链接
zz=re.compile(rez)
DZg=re.findall(zz,html)
# w=open('dazhuzai.text','w')
for z in DZg:#用for循环来逐个提取章节链接
    x=0
    x+=1
    list=['http://www.biquge.tw']hh='http://www.biquge.tw'+z#把这个提取的链接完善下来
    page = urllib.urlopen(hh)html = page.read()soup=BeautifulSoup(html,"html.parser")data=soup.find_all("div",class_="bookname")#这个时候BS的实用就表现出来了。他能很容易的提取出来标签内的文本

    w=open("wanmei.text",'a+')for i in data :w.write(i.find("h1").get_text().encode('utf-8')+'\n')#写入其中的章节名字然后转一下码
    text = soup.find_all("div",id="content")for item in text:w.write(item.get_text(strip=True).encode('utf-8')+'\n')#记住用哪个(strip=True)来把这个其中多余的部分来剔除掉
    w.close()
然后看下运行结果:


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_890914.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python中用Beautifulsoup提取集搜客网站的信息

1爬取集搜客网站上面的信息点击打开链接 2看下这个源代码 3使用正则表达式提取出来 # coding:utf8 import urllib2 import time from bs4 import BeautifulSoup class YZW():#先是定义一个模块然后就是用来包含用到的函数def __init__(self):self.user_agentMozilla/5.0 (Wi…

利用压缩网页来提升网站浏览速度

级别&#xff1a; 中级 刘 冬 (javayougmail.com), 开发工程师,   2007 年 2 月 28 日 本文主要介绍如何通过对页面进行压缩从而节省网站的带宽以及提升用户的访问速度。 网站的访问速度是由多个因素所共同决定的&#xff0c;这些因素例如应用程序的响应速度、网络带宽、服…

网站多级缓存的分层架构

参考&#xff1a;大型网站多级缓存的分层架构 假设一个网站&#xff0c;需要提高性能&#xff0c;缓存可以放在浏览器&#xff0c;可以放在反向代理服务器&#xff0c;还可以放在应用程序进程内&#xff0c;同时可以放在分布式缓存系统中。 从用户请求数据到数据返回&#x…

网站中如何处理重复的代码

网站中如何处理重复的代码 作者&#xff1a;闪吧 类型:原创 来源:闪吧 style"PADDING-RIGHT: 0px; PADDING-LEFT: 0px; PADDING-BOTTOM: 0px; MARGIN: 0px; WIDTH: 400px; PADDING-TOP: 0px; HEIGHT: 25px" src"teachInfo.aspx?id4051" frameborder&…

网站优化十大方法之关键字篇

1、 选择有效的关键字&#xff1a; 关键字是描述你的产品及服务的词语&#xff0c;选择适当的关键字是建立一个高排名网站的第一步。选择关键字的一个重要的技巧是选取那些常为人们在搜索时所用到的关键字。 2、 理解关键字&#xff1a; 在你收集所需的关键字之前&#xff0c;…

孩子上网抄作业 习题网站点击率高 ----回想当年....我们真是落伍了

孩子上网抄作业 习题网站点击率高 作者&#xff1a;王迪 | 2005-01-13 | 原始出处&#xff1a; 四川在线-华西都市报 昨日上午&#xff0c;家住成都的黄先生打进本报教育新闻热线(028-86969195)无奈地说&#xff1a;"在一些网站上&#xff0c;初中各科的课后习题的解题过程…

Java、JSP基于Web的小型购书网站

技术&#xff1a;Java、JSP等 摘要&#xff1a;俗话说活到老&#xff0c;学到老&#xff0c;当今社会正在快速的发展&#xff0c;人民生活的更加节奏化&#xff0c;大多数的人不再仅仅追求物质上的满足&#xff0c;而且还在追求精神方面的满足。由于在现实生活中&#xff0c;互…

【服务计算】REST API学习与设计——模仿GithubAPI设计博客网站API

文章目录 什么是REST&#xff1f;了解Web API学习Github-API设计博客网站API获取用户信息获得某用户所有文章总览访问用户的某一个指定的文章查看某用户关注信息获取用户下的分类专栏文章发布文章发布评论修改文章删除文章 错误处理404 Not Found400 Bad Request401 Unauthoriz…

相对定位父子元素触发mouseover和mouseout事件实验

最近做的一个项目中有个功能是鼠标移动到某一块id为A&#xff0c;然后A的子元素id为B在下方紧贴着父元素A显示出来&#xff0c;B里面的内容是鼠标移动到A元素上才请求服务端获取数据。 我使用了mouseover&#xff0c;mouseout事件&#xff0c;采用jquery的on方法。大致如下 $(…

相关网站(Github、个人博客等)的编程相关学习资源和可下载电子书导航,不定时更新

编程相关学习资源和可下载电子书项目导航&#xff0c;不定时更新 前言Python学习资源与书籍Python入门教程-By廖雪峰 -学习资源《Python进阶》-可下载电子书python深度学习入门 C#学习书籍 前言 作为广为人知的开源项目网址&#xff0c;Github已经被许多大牛玩出了花。理所当然…

爬虫练习——某网站上海房价分析

前言 实验数据来源自某看房网站&#xff0c;通过爬虫一共爬取了一千六百多条数据。能力有限&#xff0c;实验结果仅供参考。 该网站几乎没有什么反爬虫措施&#xff0c;原理很简单&#xff0c;所以关键就是定位自己想要的信息。 工具 1、爬虫工具&#xff1a;request&#x…

开源中国网站挂掉了...

现在是2013-08-24 18:48:19 有图为证&#xff1a;

基于C#和SQL SERVER的校园知识问答论坛网站的设计与实现

摘 要 本文使用Asp.Net Core 和MsSqlServer技术&#xff0c;详细说明开发校园知识论坛系统的开发。校园知识论坛系统是基本B/S模式的一种交互性极强的电子信息服务系统。它为使用者提供一个交流的平台&#xff0c;每一个用户都可以在上面问答知识&#xff0c;获取信息&#xff…

基于JavaScript和MySQL的文化平台网站的设计与实现

摘要 中国文化源远流长&#xff0c;自古就有文人雅士作诗赋词&#xff0c;舞文弄墨&#xff0c;尽显风雅。现今则有歌手作家思想成文&#xff0c;心绪为曲&#xff0c;亦现儒雅。文化是传承的&#xff0c;是流传不息的&#xff0c;也是众多人所追求的。从各种各样的文化中&…

基于Node.js中间层的微信图书借阅平台网站的设计与实现

1 引言 步入信息时代以来&#xff0c;互联网给人们的生活带来了翻天覆地的变化&#xff0c;互联网也不再简单地仅仅通过提供便利快捷的资讯服务来丰富我们的生活。互联网的出现打破了许多传统行业垄断的格局&#xff0c;互联网以其接入面广、信息即使、人人可参与等等性质&…

基于Keras和tensorflow深度学习Python实现的支持人脸识别和情绪分类的社区APP网站和微信小程序...

1 项目介绍 1.1 背景 视觉使人类得以感知和理解周边的世界&#xff0c;人的大脑皮层大约有 70%的活动在处理 视觉相关信息。计算机视觉即通过电子化的方式来感知和理解影像&#xff0c;以达到甚至超 越人类视觉智能的效果。 从 1966 年学科建立&#xff08;MIT&#xff1a;TheS…

基于php与sqlite数据库的运动社交网站

一、总体设计 1.1 开发环境 本系统采用php作为主要开发语言&#xff0c;服务端主要使用php&#xff0b;sqliteApache&#xff0c;客户端使用htmlcssjs。用Apache作为服务器&#xff0c;采用sqlite作为后台数据管理系统。 开发环境&#xff1a;Windows 10 开发工具&#xff1a;p…

[源码和文档分享]基于C#实现的电影网站数据爬虫和电影网站

1 简介 1.1 背景 随着网络的发展&#xff0c;网购也越来越流行&#xff0c;人们可以在去各大电影院的网站方便的购票并选择自己喜欢的时间去影院观看。但电影院网站众多&#xff0c;人们可能为了寻找一个电影而奔波与各大网站&#xff0c;导致浪费大量时间在寻找电影资源上。本…

[源码和文档分享]基于JAVA FX实现的酒店预订系统网站

1 产品概述 参考酒店预订系统用例文档和酒店预订系统软件需求规格说明文档中队产品的概括描述。酒店预订系统主要是应用于网上预定远程酒店订单的在线系统&#xff0c;主要功能见用例图如下。 源码下载地址&#xff1a;https://www.write-bug.com/article/1441.html

[源码和文档分享]基于PHP和MYSQL数据库实现的公共考试报名管理系统网站

前 言 随着社会的快速发展&#xff0c;体力不再是我们唯一的生存方式了&#xff0c;人们也越来越注重自身的文化素养&#xff0c;随之而来的也有许多成人考试&#xff0c;为已经步入社会的人提供一个再学习的机会。 众所周知&#xff0c;作为学生&#xff0c;考试是我们必经的过…