如何用python创建一个下载网站-用Python下载一个网页保存为本地的HTML文件实例...

news/2024/5/20 13:01:13/文章来源:https://blog.csdn.net/weixin_37988176/article/details/109435374

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面,该网页如下:

202006190739464693.jpg

实现代码如下:

import urllib.request

def getHtml(url):

html = urllib.request.urlopen(url).read()

return html

def saveHtml(file_name, file_content):

# 注意windows文件命名的禁用符,比如 /

with open(file_name.replace('/', '_') + ".html", "wb") as f:

# 写文件用bytes而不是str,所以要转码

f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"

html = getHtml(aurl)

saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

202006190739464694.jpg

我们用浏览器打开这个网页文件如下

202006190739464695.jpg

由于我们只是下载了网页的主要源码,其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持软件开发网。

您可能感兴趣的文章:解决python3中的requests解析中文页面出现乱码问题浅谈python requests 的put, post 请求参数的问题详解Python requests 超时和重试的方法python3 requests中使用ip代理池随机生成ip的实例Python基于FTP模块实现ftp文件上传操作示例python实现requests发送/上传多个文件的示例python3 requests库文件上传与下载实现详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_703432.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何用python创建一个下载网站-用Python下载一个网页保存为本地的HTML文件实例...

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。 比如我们要下载山东大学新闻网的一个页面,该网页如下:实现代码如下: import urllib.request def getHtml(url): html urllib.request.urlopen(url).read…

关于大型网站技术演进的思考(一)--存储的瓶颈(上)

首先我们要思考一个问题,什么样的网站才是大型网站,从网站的技术指标角度考虑这个问题人们很容易犯一个毛病就是认为网站的访问量是衡量的指标,懂点行的人也许会认为是网站在单位时间里的并发量的大小来作为指标,如果按这些标准那…

阿里P9架构师讲解从单机至亿级流量大型网站系统架构的演进过程

阶段一、单机构建网站 网站的初期,我们经常会在单机上跑我们所有的程序和软件。此时我们使用一个容器,如tomcat、jetty、jboos,然后直接使用JSP/servlet技术,或者使用一些开源的框架如mavenspringstructhibernate、mavenspringspr…

自学python推荐书籍同时找哪些来实践-Python学习路上有这些论坛、网站、书籍与你同行...

Python学习路上有这些论坛、网站、书籍与你同行 2019-05-03 18:24:41 613点赞 9508收藏 164评论 创作立场声明:希望我的一些经验可以给你少走一些弯路,但人总得走点弯路才可以成长。别怕,在学习python的路上有我陪着你。人生苦短,…

广州去厦门旅游攻略--(转自 #散文吧网站#)

广州去厦门旅游攻略 发布时间:2016-12-11 17:30厦门由厦门岛、离岛鼓浪屿、内陆九龙江南岸海沧半岛、集美半岛、翔安区以及同安等组成,陆地面积1699.39Km2,海域面积300多平方公里。厦门的主体——厦门岛南北长13.7公里,东西宽12.5公里&#x…

怎么在python下载网站内容-分析某网站,并利用python自动登陆该网站,下载网站内容...

本帖最后由 愤怒的小车 于 2019-5-8 09:41 编辑 一:本代码是我研究了好久才写出来,七功能主要有自动登陆、自动识别验证码、以及自动识别下载格式进行判断下载! 首先,搬上我们的主角网址,http://lavteam.org/&#xff…

音乐相册源码php,基于PHP的DIY音乐相册网站的设计与实现(MySQL)(含录像)

基于PHP的DIY音乐相册网站的设计与实现(MySQL)(含录像)(开题报告,毕业论文8000字,程序代码,MySQL数据库)本网站运用MYSQL作为后台数据库,以PHP为前端开发工具,实现了音乐相册等模块,方便了程序的扩展与维护,同时建立了程序功能复用…

python爬虫怎么爬同一个网站的多页数据-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面…

常用技术网站

http://www.maczapp.com/charles抓包工具:Charles for Mac v3.9.1 http://www.cocoachina.com/ios/20160217/15328.html从零开始:你的第一个iOS App http://www.cnblogs.com/wendingding/p/3704562.html文顶顶最怕你一生碌碌无为 http://www.cnblogs.com…

夏俊:深入网站服务端技术(一)——网站并发的问题

编者按】 本文来自拥有十年IT从业经验、擅长网站架构设计、Web前端技术以及Java企业级开发的夏俊,此文也是《关于大型网站技术演进的思考》系列文章的最新出炉内容,首发于CSDN,各位技术人员不容错过。 以下为正文: 一、 引子 …

如何用python创建一个下载网站-用Python下载一个网页保存为本地的HTML文件实例...

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。 比如我们要下载山东大学新闻网的一个页面,该网页如下:实现代码如下: import urllib.request def getHtml(url): html urllib.request.urlopen(url).read…

怎么查询网站的收录量

怎么查询网站的收录量 对于一个新建的网站,我们要时时关注网站的收录情况,一般是查询百度的收录情况,可以用一个地址标志开头搜索这个网页, 就会列出这个网页在这个搜索引擎中的收录量,我们就知道要怎么继续优化网站 打…

如何用python创建一个下载网站-用Python下载一个网页保存为本地的HTML文件实例...

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。 比如我们要下载山东大学新闻网的一个页面,该网页如下:实现代码如下: import urllib.request def getHtml(url): html urllib.request.urlopen(url).read…

大型网站系统架构演化之路

前言 一个成熟的大型网站(如淘宝、京东等)的系统架构并不是开始设计就具备完整的高性能、高可用、安全等特性,它总是随着用户量的增加,业务功能的扩展逐渐演变完善的,在这个过程中,开发模式、技术架构、设计…

大型网站的灵魂——性能

前言 在前一篇随笔《大型网站系统架构的演化》中,介绍了大型网站的演化过程,期间穿插了一些技术和手段,我们可以从中看出一个大型网站的轮廓,但想要掌握设计开发维护大型网站的技术,需要我们一步一步去研究实践。所以我…

android token过期怎么跳转登录_用sa-token轻松解决网站权限验证

sa-token是什么?一个的JavaWeb权限认证框架,强大、简单、好用与其它权限认证框架相比,sa-token尽力保证两点: - 上手简单:能自动化的配置全部自动化,不让你费脑子 - 功能强大:能涵盖的功能全部涵…

自学python推荐书籍同时找哪些来实践-Python学习路上有这些论坛、网站、书籍与你同行...

Python学习路上有这些论坛、网站、书籍与你同行 2019-05-03 18:24:41 613点赞 9508收藏 164评论 创作立场声明:希望我的一些经验可以给你少走一些弯路,但人总得走点弯路才可以成长。别怕,在学习python的路上有我陪着你。人生苦短,…

怎么在python下载网站内容-分析某网站,并利用python自动登陆该网站,下载网站内容...

本帖最后由 愤怒的小车 于 2019-5-8 09:41 编辑 一:本代码是我研究了好久才写出来,七功能主要有自动登陆、自动识别验证码、以及自动识别下载格式进行判断下载! 首先,搬上我们的主角网址,http://lavteam.org/&#xff…

python爬虫怎么爬同一个网站的多页数据-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面…

途牛网站无线架构变迁实践

途牛从一开始的单机系统,发展到现在已拥有数百个分布式部署的系统。本文主要将途牛网站无线系统在从小到大的过程中,遇到的问题以及解决方法与大家分享,希望为大家带来一定借鉴。文章将从服务化推进、南北京机房之痛、性能提升实践、App客户端…