Python简单应用学习——简单爬虫应用(爬小说网站)

news/2024/5/20 14:16:30/文章来源:https://blog.csdn.net/kunfd/article/details/104331728

一.目的

还是Python的基础应用。这次用一下爬虫。然后看后面有没有时间,结合上一篇的可视化(需要继续深入)。试一下爬虫+可视化。弄一个东西出来,下面先弄个爬虫入门。

二 .思路分析

1.模拟发起
2.根据需求处理数据(编码处理、正则匹配
3.存储数据
(这里补充点,要具体网址这里不放出来了)

三.具体分析(包括代码)

1.明确要爬的数据,查看其结构
1.1.这次我们要爬的是一个小说网站具体的某本小说,结构是这样的。首先我们进入它的list页面,然后该页面会有所有章节的链接和章节名
在这里插入图片描述
1.2.通过浏览器的编辑模式,我们可以看到发生请求的链接,当然还有下面的文件头
1.3.这里我们可以看到,服务器返回的网页代码中,有对应的url和章节的
这里我们可以看到返回结果,每个章节对应的url
对应的代码

#网页地址
#文件头模拟,模拟是浏览器发起的
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3",}
url='https://xxxx/xxxxx/xxxxx/list.html'
#模拟浏览器发出,所以要加headers
response = requests.get(url,headers=headers)
response.encoding = 'utf-8'
html = response.text

2.这里的html就是我们获取到了list.html网页的所有东西,然后我们可以发现我们要的标题,和我们要的所有章节对应的东西都在特定字符串之间。然后我们可以通过正则表达式来进行匹配

#匹配取出文章题目
title = re.findall(r'<h1>(.*?)</h1>',mainContext[0])
#这里()的作用
#一方面,如果没有(),那么<h1></h1>也会被存入到title中
#另一方面,下面的()是元组的意思,就是把匹配到的内容,封装到元组中
chapter_lists = re.findall(r'<a href="(.*?)">(.*?)</a>',mainContext[0])
for chapter_single in chapter_lists:#取出每个元组chapter_single中的url,和titlechapter_url,chapter_title = chapter_single

3.获取到每个章节以后,我们来看看具体每个章节的内容。同样我们可以看到网页的代码,然后我们同样在某个字符串中获取到具体内容,然后再去掉一些多余的符号
在这里插入图片描述

    chapter_allcontext = requests.get(chapter_url, headers=headers)chapter_allcontext.encoding = 'utf-8'chapter_context =  re.findall(r'最新章节!(.*?)</p> <div>',chapter_allcontext.text)#处理数据,去掉多余的符号,得到想要的内容chapter_context = chapter_context[0].replace(' ','').replace('</p><p>','')

4.存储,我们这里是将得到的内容存储到文件中。通过

fb = open('%s.txt' % title[0],'w',encoding='utf-8')

5.完全的代码()

import requests
import re
#网页地址
#文件头模拟,模拟是浏览器发起的
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3",}
url='https://xxxxxxxxxx/list.html'
#模拟浏览器发出
response = requests.get(url,headers=headers)
response.encoding = 'utf-8'
#通过查看网页代码,可以知道主要的数据在<h1>......</dl>之间,
html = response.text
mainContext = re.findall(r'<h1>.*?</dl>',html)
#匹配取出文章题目
title = re.findall(r'<h1>(.*?)</h1>',mainContext[0])
#这里要用()???,这里()的作用
#一方面,如果没有(),那么<h1></h1>也会被存入到title中
#另一方面,下面的()是元组的意思,就是把匹配到的内容,封装到元组中
chapter_lists = re.findall(r'<a href="(.*?)">(.*?)</a>',mainContext[0])
fb = open('%s.txt' % title[0],'w',encoding='utf-8')
#循环获取每一个章节内容
for chapter_single in chapter_lists:#取出每个元组chapter_single中的url,和titlechapter_url,chapter_title = chapter_single#list中的url并没有前缀,因此要加前缀得到连接chapter_url =  'https://www.jingcaiyuedu.com/%s' % chapter_urlchapter_allcontext = requests.get(chapter_url, headers=headers)chapter_allcontext.encoding = 'utf-8'chapter_context =  re.findall(r'最新章节!(.*?)</p> <div>',chapter_allcontext.text)#处理数据,去掉多余的符号chapter_context = chapter_context[0].replace(' ','').replace('</p><p>','')fb.write(chapter_title.replace('\r\r',''))fb.write('\n')fb.write(chapter_context)fb.write('\n')

补充:我这里补充一下,因为我爬到的数据基本上都是在一行的,所以我正则匹配的时候少了re.S这个参数,如果你们爬到的数据,回来是有换行的,那么正则匹配需要加re.S这个参数。

mainContext = re.findall(r'<h1>.*?</dl>',html,re.S)

原因如下:
正则表达式中,“.”的作用是匹配除“\n”以外的任何字符,也就是说,它是在一行中进行匹配。这里的“行”是以“\n”进行区分的。a字符串有每行的末尾有一个“\n”,不过它不可见。

如果不使用re.S参数,则只在每一行内进行匹配,如果一行没有,就换下一行重新开始,不会跨行。而使用re.S参数以后,正则表达式会将这个字符串作为一个整体,将“\n”当做一个普通的字符加入到这个字符串中,在整体中进行匹配。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_788414.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《HTML5移动Web开发实战》—— 1.2 确定网站的适用移动设备

本节书摘来异步社区《HTML5移动Web开发实战》一书中的第1章&#xff0c;第1.2节&#xff0c;作者&#xff1a;石川&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.2 确定网站的适用移动设备 HTML5移动Web开发实战适用浏览器&#xff1a;所有 你不可能给…

学习Python:做数据科学还是网站开发?

Python编程语言拥有诸多用于网络应用开发、图形用户界面、数据分析、数据可视化等工作的框架和特性。Python可能不是网络应用开发的理想选择&#xff0c;但是正被很多机构广泛用于评估大型数据集&#xff08;dataset&#xff09;、数据可视化、进行数据分析或制作原型。在数据科…

12-监听器实现统计网站当前在线人数

在 javaweb 项目中&#xff0c;利用监听器&#xff0c;实现统计网站当前在线人数 1、新建一个实现 HttpSessionListener 接口的实现类 OnlineCountListener.java package com.yuhuofei.javaweb.listener;import javax.servlet.ServletContext; import javax.servlet.http.HttpS…

PowerShell~发布你的mvc网站

通过使用ps加上msbuild可以方便的编译你的.net应用程序&#xff0c;并且可以把它发布到你的磁盘上&#xff0c;部署非常方例&#xff01; 我们在c盘添加一个hello网站&#xff0c;解决方案名是hello.sln&#xff0c;它的网站是hello.csproj&#xff0c;现在使用这个脚本来生成这…

体验云上快速搭建WordPress网站小记

1月12日下午到北京阿里总部体验云上快速搭建WordPress网站&#xff0c;一次完美的体验&#xff0c;小记于此。 美好的一天&#xff0c;以一碗超赞的小面开始&#xff0c;饕餮之余&#xff0c;就是跟随张会长义无反顾的穿越京城。抵达望京阿里中心&#xff0c; 已然下午。初来乍…

大型网站技术架构(四)网站的高性能架构

2019独角兽企业重金招聘Python工程师标准>>> 网站性能是客观的指标&#xff0c;可以具体体现到响应时间、吞吐量、并发数、性能计数器等技术指标。 1、性能测试指标 1.1 响应时间 指应用执行一个操作需要的时间&#xff0c;指从发出请求到最后收到响应数据所需要的时…

天天生鲜页面设计——网站首页

页面说明&#xff1a; 1、index.html 网站首页&#xff0c;顶部“注册|登录”和用户信息是切换显示的&#xff0c;商品分类菜单点击直接链接滚动到本页面商品模块。 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/…

html5 不容易被百度收录,[百度不收录]百度不收录网站发布的文章的原因有哪些?...

有关“百度不收录网站更新的原创文章内容”这个问题&#xff0c;我以前也是有给大伙儿共享过&#xff0c;可是還是有许多人私聊我一样的难题。假如不以大伙儿处理疑虑&#xff0c;不但大伙儿不舒服&#xff0c;因为我不舒服。所以呢&#xff0c;这儿我也再为大伙儿解释一下&…

最新百度SEOer必看的文章

本文转自http://www.daxueit.com/article/2171-1.html 百度作为最大的中文搜索引擎&#xff0c;其在中国的市场占有率使广大SEOer不得不对其重视。最近百度又进行了大更新&#xff0c;让原本SEO工作就相对比较难的百度搜索引擎现在变得更难了&#xff0c;下面我们就来讲一下百度…

六个方面对360网站卫士与百度加速乐的比较

每一位站长都希望自己的网站能够更快&#xff0c;效率更高&#xff0c;用户体验更好&#xff0c;这也是网站运营最关键键的因素&#xff0c;于是&#xff0c;在用户的强烈需求下&#xff0c;国内大佬们也从中看到了潜在市场&#xff0c;权衡之后&#xff0c;纷纷推出免费网站加…

freenas 当网站服务器,win10系统下如何安装FreeNAS来设置文件服务器

win10系统下如何安装FreeNAS来设置文件服务器您是否正在构建文件服务器?FreeNAS可能是您的最佳选择&#xff0c;因为它的功能和价格(免费)。以下是安装操作系统的方法。FreeNAS是一个免费提供的开源强大的网络附加存储(NAS)操作系统&#xff0c;任何人都可以使用它来设置家庭和…

ubuntu php 建站教程,Ubuntu 16.04下搭建Web服务器(MySQL+PHP+Apache) 教程

1.开始说明本文Ubuntu 16.04下搭建Web服务器(MySQLPHPApache)的内容很多可能参照网上前辈的&#xff0c;但有所改进吧。这些设置可能会有所不同&#xff0c;你需要根据不同情况进行修改。安装apache22.切换管理员身份在ubuntu中需要用root身份进行操作,所以用下面的命令确保以r…

php导航条css代码生成器,怎么使用css代码制作网站导航栏?(示例)

本篇文章主要给大家介绍关于如何用css做导航栏的相关知识&#xff0c;希望对有需要的朋友有所帮助。对于任何一个网站来说&#xff0c;导航栏的存在是至关重要的&#xff0c;那么如果仅仅只是用html做出枯燥乏味的导航菜单&#xff0c;效果肯定是不佳的。这时css属性的重要性就…

固定ip有什么好处_外贸网站!!为什么需要全球CDN加速?

现在&#xff0c;越来越多的建站用户都会考虑全球CDN加速&#xff0c;网站使用CDN加速已经逐渐成为一种新的趋势。那么&#xff0c;为什么网站要使用CDN加速&#xff1f;CDN加速有什么作用呢&#xff1f;解决这个问题&#xff0c;我们需要先了解的是&#xff0c;网站访问为什么…

wordpress acf字段 不同样式_全球知名大公司都在用WordPress建站案例,您想成为其中一员吗?...

WordPress是一款个人博客系统&#xff0c;并逐步演化成一款内容管理系统&#xff0c;它使用PHP语言和MySQL数据库开发。其强大的内容管理系统已能够制作精美的网站及WordPress商城。据统计&#xff0c;所有网站中有28.6&#xff05;使用WordPress。许多知名大品牌都在用WordPre…

seo代码优化工具_如何分析竞争对手的SEO优化数据

如何分析竞争对手的SEO优化数据作为一个称职的SEO优化师要学会如何分析同行站点的&#xff0c;取别人的长处&#xff0c;补自己的短处&#xff0c;并将这个做得更好&#xff0c;那么你的网站比起同行网站也就更好&#xff0c;排名自然也能比别人的好。一&#xff1a;查看分析网…

9个免费图标下载网站

很多人都希望给自己的系统或者博客添加上漂亮的图标吧.在下面这些网站你可以找到自己喜欢的Web2.0式的图标,它们针对个人的非商业使用都是免费的,所有的图标都是根据各种各样的主题和使用目的设计. 1.Free Web Icons 这里有15000多种免费高质量图标供你下载使用. 2.Web Site Ic…

js模板引擎_5分钟上手Egg.js+nunjucks模板引擎快速开发SEO友好的官网项目

在日常的项目中&#xff0c;有时候还是不可避免的会维护一些jq官网项目等。面对此类需求&#xff0c;很多还是以前的老套路&#xff0c;前端写页面交给后端去套数据。很烦有木有&#xff5e;&#xff5e;而改动之后还得交给后端再次修改&#xff0c;时间和沟通都是个麻烦。同时…

安装网站时mysql连接错误代码_安装MySQL启动服务时报错解决办法,错误代码1045...

散打狼在安装mysql的时候&#xff0c;在下图中的Start service这个步骤出错&#xff0c;我尝试用客户端登录&#xff0c;无法登录&#xff0c;报错如下。解决办法如下MySQL 连接错误&#xff0c;使用Navicat连接MySQL出现错误&#xff1a;1045 Access denied for user rootloca…

img标签中alt属性与title属性在seo的作用-摘自网友

img标签中alt属性与title属性作用&#xff0c;也许大家比较迷惑&#xff0c;现在给大家举例说明。alt属性是图片的替换文字。title属性规定元素的额外信息&#xff0c;有视觉效果。目录 alt属性title属性ie和firefox下展示img标签中alt属性与title属性作用&#xff0c;也许大家…