python爬虫爬取网站文章

news/2024/5/19 10:30:30/文章来源:https://blog.csdn.net/fubingxing/article/details/122487468

这次爬取网站为:‘http://www.agri.cn/kj/syjs/zzjs/’

程序大致分为六步:
1、引入相关的库和设置两个正则表达式规则
在这里插入图片描述
2、设置爬取的网页数量
在这里插入图片描述
3、设置网页中包含文章的HTML部分
在这里插入图片描述
4、在获取的部分中提取包含文章连接的HTML语言
在这里插入图片描述
5、获取文章连接
在这里插入图片描述
6、根据文章连接获取文章标题和内容并写入文本
在这里插入图片描述
结果演示:
将每一篇文章保存为txt一共爬取了30篇文章
在这里插入图片描述
所有代码:

import requests
import re
from bs4 import BeautifulSoup
# !/usr/bin/python
# -*- coding:utf-8 -*-findname = re.compile(r'<td align="center" class="hui_15_cu">(.*)</td>')
# findtext = re.compile(r'<p align="justify">(.*)')
findtext = re.compile(r'<[^>]+>', re.S)# 设置爬取的网页数量
def set_download_urls():downloadurls = []  # 储存网页urlbaseurl = 'http://www.agri.cn/kj/syjs/zzjs/'  # 根urlfor i in range(1, 3):url = baseurl + 'index_' + str(i) + '.htm'downloadurls.append(url)return downloadurls# 获取网页中包含文章的html部分
def get_download_tables():downloadurls = set_download_urls()tables = []for url in downloadurls:req = requests.get(url)req.encoding = 'utf-8'html = req.texttable_bf = BeautifulSoup(html)  #将bable_bf进行BeautifulSoup解析tables.append(table_bf.find('table', width=500, align='center'))  #获取的html代码中寻找与要求相同的代码段return tables# 在获取的部分中提取包含文章连接的HTML语言
def get_dounload_url():tables = get_download_tables()articles = []for ech in tables:articles.append(ech.find_all('a', class_='link03'))  #搜索所有a,class_='link03'子节点,return articles# 获取文章连接
def read_article_info():articles = get_dounload_url()baseurl = 'http://www.agri.cn/kj/syjs/zzjs'  # 根urldict = []for each in articles:for item in each:dict.append(baseurl + item.get('href')[1:])return dict# 根据文章连接获取文章标题和内容并写入文本
def get_txt():dict = read_article_info()i = 1for url in dict:req = requests.get(url)req.encoding = 'utf-8'html = req.texttable_bf = BeautifulSoup(html)# 获取文章标题名称name = table_bf.find_all('td', class_='hui_15_cu')name = str(name)headline = re.findall(findname, name)[0]# 获取文章内容txt = table_bf.find_all('div', class_='TRS_Editor')[0]txt = str(txt)txt1 = re.sub('[<div class="TRS_Editor"><p align="justify">/bCmUe-h-w]', '', txt)  # 删除多余的html代码# 写入文件i = str(i)file = 'C:\\Users\\64377\\Desktop\\txt\\' + i +'.txt'f = open(file, 'w', encoding='utf-8')f.write(headline)f.write("\r\n")f.write(txt1)f.close()i = int(i)i += 1
get_txt()

参考文章:https://www.cnblogs.com/liesun/p/10255045.html

最后有什么疑问欢迎扫描下方二维码提问!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_872059.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【服务器】iis的重启服务器、重启iis、回收(重启)线程池、刷新网站

windows自带iis&#xff0c;如果没有的也可以控制面板中启用 1、在开始按钮点击右键&#xff0c;选择控制面板。 2、接着我们从控制面板选择“程序”。 3、然后选择“启用或关闭windows功能”。 4、从列表中选择Internet Infomation Services。 5、并且把相应的功能条…

【调优】网站前后端性能优化

文章目录 前端1. 尽可能减少要传输的数据量2. 减少关键资源的总数3. 缩短关键渲染路径长度4.网络传输优化Total Connection TimeTTFB Content Download 5.预加载 后端1. 批量思想&#xff1a;批量操作数据库2. 异步思想&#xff1a;耗时操作&#xff0c;考虑放到异步执行3. 空…

网站的消息通知系统设计漫谈

现在的很多网站都有消息通知系统&#xff0c;比如新浪微博页面右上角的小黄签&#xff0c;比如Facebook页面左上角的Notifications。但是消息通知系统的说法是个笼统的概念&#xff0c;我理解的其本质功能是网站把某些对用户有价值的信息及时告知用户。比如常见的SNS关系中谁关…

计算机学习网站

C语言中文网&#xff1a;C语言程序设计门户网站(入门教程、编程软件)http://c.biancheng.net/Python3 os.path() 模块 | 菜鸟教程Python3 os.path() 模块 Python3 OS 文件/目录方法 os.path 模块主要用于获取文件的属性。 以下是 os.path 模块的几种常用方法&#xff1a; 方法说…

HTML资料之网站ico图标

◆ 使用ico图标&#xff1a; 将favicon.ico 这个图标放到根目录下&#xff0c;使用link标签引用。 <link rel"shortcut icon" href"favicon.ico" type"image/x-icon"/>注&#xff1a;后面的type“image/x-icon” 属性可以省略。 ◆ ◆ 制…

curl网站开发指南

我一向以为&#xff0c;curl只是一个编程用的函数库。 最近才发现&#xff0c;这个命令本身&#xff0c;就是一个无比有用的网站开发工具&#xff0c;请看我整理的它的用法。 curl网站开发指南 阮一峰 整理 curl是一种命令行工具&#xff0c;作用是发出网络请求&#xff0c;然…

VuePress + Github Pages 搭建博客网站

VuePress Github Pages 搭建博客网站 VuePress VuePress 是基于 Vue 的静态网站生成器&#xff0c;有以下特点&#xff1a; 简洁至上&#xff1a;以 Markdown 为中心的项目结构&#xff0c;以最少的配置帮助你专注于写作Vue 驱动&#xff1a;享受 Vue webpack 的开发体验&…

黑色大气版织梦资源网网站kyuan源码

介绍&#xff1a; 1&#xff1a;上传源码到根目录 2&#xff1a;修改数据库账号密码 打开文件data 打开common.inc.php文件修改自己的数据库账号密码 点击保存 3&#xff1a;上传数据库文件 4&#xff1a;访问后台 域名yunwu 后台账号&#xff1a;admin 密码&#xff1a;12…

Lerx开源网站内容管理系统

介绍&#xff1a; Lerx 开源网站内容管理系统(CMS)是一个以JavaMySQL进行开发的内容管理系统源码。 一.简介 1.跨平台设计&#xff0c;能无差别运行于Windows、Linux、MacOS等系统平台。 2.采用了安全、稳定的基于Java的SpringMVC框架。 3.数据库ORM持久化框架使用Hibernate 5…

小说站群网站响应式源码

介绍&#xff1a; 绿茶小说站群2.x-秒收隔天速出权重-小说流量稳定收割机-精品轻量级PHP站群系统站群系统,小说行业专用引流精品站群,绿茶小说站群为独立站群系统&#xff08;无需依托CMS&#xff09;&#xff0c;独立的整篇小说优化内容库&#xff08;拒绝句子拼凑&#xff0…

QQ手游网站源码

介绍&#xff1a; 昨天在群聊中看到有人发 直接吧源码上次主机或者宝塔的根目录即可! 网盘下载地址&#xff1a; http://kekewl.net/gY8K11yEtyx 图片&#xff1a;

国内外教学交流合作网页模板是一款适合教育培训机构网站模板

介绍&#xff1a; 国内外教学交流合作网页模板是一款适合教育培训机构网站模板下载 网盘下载地址&#xff1a; http://kekewl.org/aZLRvloifqh 图片&#xff1a;

大气的酒店商务企业网站模板

介绍&#xff1a; 大气的酒店商务企业网站模板 网盘下载地址&#xff1a; http://kekewl.cc/jh8kJhFJGIy 图片&#xff1a;

品优影视建站系统1.3.6.5开源绿色版

介绍&#xff1a; 语言环境&#xff1a;PHP 5.3版本(线程安全版) 数据库&#xff1a;MySql 5.0及以上版本 操作系统&#xff1a;本产品跨平台&#xff0c;支持Windows、Linux、Unix、Mac等操作系统 Web服务器&#xff1a;支持各主流的Web服务器&#xff0c;如&#xff1a;Apac…

新款校园表白墙美化ui页面网站源码

介绍&#xff1a; 源码描述&#xff1a; 花十分钟搭建一款学校的表白校园墙&#xff0c;安装很简单&#xff0c;内附安装教程说明。 修复一些小问题&#xff0c;亲测可安装。 网盘下载地址&#xff1a; http://kekewangLuo.cc/S8dRBmQWSJQ 图片&#xff1a;

超级好看的ZYI官网单页html引导页网站源码

介绍&#xff1a; 一款动态背景特效的html单页引导页面源码&#xff0c;喜欢的可以下载看看。 网盘下载地址&#xff1a; http://kekewl.cc/V0GvkJfV4yC 图片&#xff1a;

网站首页弹窗公告代码

介绍&#xff1a; 代shua网首页弹出公告运行状态美化代码&#xff0c;添加到公告设置首页弹出公告即可 网盘下载地址&#xff1a; http://kekewl.cc/uJLdL2apGgA 图片&#xff1a;

星益在线80个小游戏网站源码

介绍&#xff1a; 本程序由小星合集整理制作。 内置了80个在线小游戏&#xff0c;直接就能玩耍&#xff0c;上传到空间引流用&#xff01; 本程序大部分都是自适应&#xff0c;但是使用电脑端体验更佳~ 网盘下载地址&#xff1a; http://kekewl.net/NUb7vuB72Jn 图片&#xf…

网站介绍三合一缩略图片kyuan源码 可自定义增加广告位

介绍&#xff1a; 网站介绍三合一缩略图片kyuan源码 可自定义增加广告位 上传主机根目录解压打开域名就行。 使用记事本进行修改资料即可 网盘下载地址&#xff1a; http://kekewl.org/E4hICmomNsh 图片&#xff1a;

好看的随机小姐姐404页面网站源码

介绍&#xff1a; 调用自动获取小姐姐图片&#xff0c;shua新一次更换一次&#xff0c;挺美观的&#xff01; 网盘下载地址&#xff1a; http://kekewangLuo.net/BjuynFXkdoq 图片&#xff1a;