python 爬取网站首页并获取资源文件

news/2024/5/10 14:12:33/文章来源:https://blog.csdn.net/json_ligege/article/details/127068915

一、使用requests模块，如果没有安装请使用如下命令，安装requests模块

pip install requests

二、打开PyCharm，创建一个新的py文件

1.请求网站，获取网页信息

首先使用浏览器，获取请求头信息，用于python模拟浏览器行为请求

封装请求方法

def get_html(url):""" 请求网址 返回网页内容 """A = requests.Session()A.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:103.0) Gecko/20100101 Firefox/103.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',}web = A.get(url, timeout=7)# 设置解析编码的方式web.encoding = 'gb2312'return web

2.通过re模块来匹配获取相应资源路径，os模块创建文件夹及创建写入文件

（1）js 路径为src

（2）image 路径为src

（3）css 路径为href 但会与a标签的href重复故要多增加一点字符串以作区分

代码如下：

def get_all_img(content):"""获取网页所有 img css js"""# 更换编码方式content = content.replace('charset=gb2312', 'charset=utf-8')# 获取所有img js文件路径f_re = 'src="(.*?)"'file_paths = re.findall(f_re, content)# 获取单引号的img js文件路径f_re2 = "src='(.*?)'"file2_paths = re.findall(f_re2, content)# 获取所有css文件路径c_re = 'type="text/css" href="(.*?)"'css_paths = re.findall(c_re, content)# 合并到一个列表中file_paths.extend(css_paths)if file2_paths:file_paths.extend(file2_paths)for file in file_paths:# 获取文件链接后缀名 只获取css image文件file_infos = file.split('/')fileName = file_infos[len(file_infos) - 1]fileExts = fileName.split('.')ext = fileExts[len(fileExts) - 1].strip()if file.find('.js') > -1:dirName = 'js/'elif ext == 'css':dirName = 'css/'elif ext in ['jpg', 'png', 'gif']:dirName = 'images/'else:continue# 文件夹不存在 则创建文件夹if not os.path.exists(dirName):os.mkdir(dirName)# # 判断文件格式及是否已存在fileName_end = dirName + fileNameif not os.path.isfile(fileName_end):# 处理相对路径资源if file[1:8] == 'uploads':file = main_url + fileelif file[0:7] == 'scripts':continuetry:pic = get_origin_img(file, main_url)fp = open(fileName_end, 'wb')fp.write(pic.content)fp.close()except BaseException:print('获取【%s】失败' % file)continuecontent = content.replace(file, '../' + fileName_end)return content

获取资源的请求方法

def get_origin_img(url, referer):""" 请求网址图片 增加请求头 返回图片二进制 """A = requests.Session()A.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0','Accept': 'image/webp,*/*','Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','Connection': 'keep-alive','Referer': referer,}return A.get(url, timeout=10)

3.把网页内容写入本地文件

def record_article(fileName, dirName, content):""" 文章内容写入处理 """if not os.path.exists(dirName):# 递归创建目录os.makedirs(dirName)f = os.open(dirName + '/' + fileName, os.O_RDWR | os.O_CREAT)os.write(f, str.encode(content))os.close(f)

最后调用方法：

html = get_html(url)
content = get_all_img(html.text)
record_article('首页.html', '首页', content)

效果如下：

访问本地首页html文件，与原网站一致

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_833184.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python 爬取网站首页并获取资源文件

相关文章

c语言打字测验的系统功能分析,C语言自我测试网站的设计开题报告.doc

pandas 如何删掉第一行_第16篇:Pandas快速爬取网站上的表格数据

手机端网站服务器软件,手机端远程连接服务器的软件

实验五MySQL存储过程_「mysql 存储过程」MySQL | 存储过程 - seo实验室

服务器怎么不用绑定域名搭建网站,一个空间放两个网站，且不用子目录绑定域名的方法...

宝藏网站IPOL：Image Processing On Line 经典图像处理论文+源码+在线仿真

网站开发之数据表开发库——Datatables

vs2013开发64位网站和项目设置

基于bootstrap（H+）的MVC网站开发之一登录页面

FTP发布VS2015网站项目

Spring学习笔记（二十三）——实现网站微信扫码登录获取微信用户信息Demo

ffmpeg+nginx+rtmp+web实现视频直播网站

网站安装打包修改app.config[六]

如何在IIS里对网站限速

换了无线路由网站打不开的解决方法

javaweb 网站邮件发送 javaMail

网站图片延时加载

在线绘图网站

【百度地图API】——国内首款团购网站的地图插件

电商网站接入快递查询