如何用python创建一个下载网站-用Python下载一个网页保存为本地的HTML文件实例...

news/2024/5/14 0:04:09/文章来源:https://blog.csdn.net/weixin_37988176/article/details/109428474

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面,该网页如下:

202006190739464693.jpg

实现代码如下:

import urllib.request

def getHtml(url):

html = urllib.request.urlopen(url).read()

return html

def saveHtml(file_name, file_content):

# 注意windows文件命名的禁用符,比如 /

with open(file_name.replace('/', '_') + ".html", "wb") as f:

# 写文件用bytes而不是str,所以要转码

f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"

html = getHtml(aurl)

saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

202006190739464694.jpg

我们用浏览器打开这个网页文件如下

202006190739464695.jpg

由于我们只是下载了网页的主要源码,其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持软件开发网。

您可能感兴趣的文章:解决python3中的requests解析中文页面出现乱码问题浅谈python requests 的put, post 请求参数的问题详解Python requests 超时和重试的方法python3 requests中使用ip代理池随机生成ip的实例Python基于FTP模块实现ftp文件上传操作示例python实现requests发送/上传多个文件的示例python3 requests库文件上传与下载实现详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_703642.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何用python创建一个下载网站-用Python下载一个网页保存为本地的HTML文件实例...

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。 比如我们要下载山东大学新闻网的一个页面,该网页如下:实现代码如下: import urllib.request def getHtml(url): html urllib.request.urlopen(url).read…

Javascript history pushState onpopstate方法做AJAX SEO

参考MDN: https://developer.mozilla.org/zh-CN/docs/DOM/Manipulating_the_browser_history https://developer.mozilla.org/zh-CN/docs/Mozilla_event_reference/popstate window 对象通过history对象提供对览器历史记录的访问能力。它暴露了一些非常有用的方法和…

自学python推荐书籍同时找哪些来实践-Python学习路上有这些论坛、网站、书籍与你同行...

Python学习路上有这些论坛、网站、书籍与你同行 2019-05-03 18:24:41 613点赞 9508收藏 164评论 创作立场声明:希望我的一些经验可以给你少走一些弯路,但人总得走点弯路才可以成长。别怕,在学习python的路上有我陪着你。人生苦短,…

怎么在python下载网站内容-分析某网站,并利用python自动登陆该网站,下载网站内容...

本帖最后由 愤怒的小车 于 2019-5-8 09:41 编辑 一:本代码是我研究了好久才写出来,七功能主要有自动登陆、自动识别验证码、以及自动识别下载格式进行判断下载! 首先,搬上我们的主角网址,http://lavteam.org/&#xff…

python爬虫怎么爬同一个网站的多页数据-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面…

切换节点服务器网站,服务器手动切换节点

服务器手动切换节点 内容精选换一换1、集群当前的节点数较多,可以选择将部分节点进行删除,对集群进行缩容操作以同时节省费用。2、集群中某个节点出现异常且无法手动恢复后,可使用节点删除将该节点进行删除操作,随后根据需要再重新…

网站访问过程理解(一点记录)

一个普通网站访问的过程 简单概括一下,对于我们普通的网站访问,涉及到的技术就是:用户操作浏览器访问,浏览器向服务器发出一个 HTTP 请求;服务器接收到 HTTP 请求,Web Server 进行相应的初步处理&#xff0…

【错误记录】GitHub 网站和仓库无法访问 ( 域名重定向 | 检查 C:\Windows\System32\drivers\etc\hosts 配置文件中的 GitHub 地址域名配置 )

文章目录一、报错信息二、解决方案一、报错信息 在家里的电脑中 , 出现 无法访问 GitHub 网站 , 使用任何手段都无法访问 GitHub ; 二、解决方案 家里的电脑比较乱 , 使用了各种游戏加速器 , 梯子等工具 , 另外为了解决某些特定问题 , 手动修改 C:\Windows\System32\drivers\et…

SEO优化简要工作流程

SEO技术是复杂的,知识体系也是非常庞大的,但是知识相比实战技巧,知识就显得次要了。SEO初学者往往重知识,却往往忽视其中的技巧,实战技巧也绝非短期内可积累到的。本人其实也是一个SEO新手,虽然有6-7年做站…

webzip下载整个网站工具-WebZip

2019独角兽企业重金招聘Python工程师标准>>> WebZip 把一个网站下载并压缩到一个单独的 ZIP 文件中,也可以下载到你电脑的文件夹当中,可以帮您将某个站台全部或部份之资料以ZIP格式压缩起来,可供你日后快速浏览这个网站。且新一版的功能包括可…

网站自动登录功能的设计[转]

网站的自动登录一直都是有利于提高用户体验的功能,如果设计不好,也非常容易泄漏用户的账户信息。 比较常见的功能实现方案是将用户的登录信息保存在浏览器的Cookie中。看到一些设计有缺陷的网站会将用户的用户名和密码信息保存在Cookie中,这种…

如何用python创建一个下载网站-用Python下载一个网页保存为本地的HTML文件实例...

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。 比如我们要下载山东大学新闻网的一个页面,该网页如下:实现代码如下: import urllib.request def getHtml(url): html urllib.request.urlopen(url).read…

如何用python创建一个下载网站-用Python下载一个网页保存为本地的HTML文件实例...

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。 比如我们要下载山东大学新闻网的一个页面,该网页如下:实现代码如下: import urllib.request def getHtml(url): html urllib.request.urlopen(url).read…

自学python推荐书籍同时找哪些来实践-Python学习路上有这些论坛、网站、书籍与你同行...

Python学习路上有这些论坛、网站、书籍与你同行 2019-05-03 18:24:41 613点赞 9508收藏 164评论 创作立场声明:希望我的一些经验可以给你少走一些弯路,但人总得走点弯路才可以成长。别怕,在学习python的路上有我陪着你。人生苦短,…

怎么在python下载网站内容-分析某网站,并利用python自动登陆该网站,下载网站内容...

本帖最后由 愤怒的小车 于 2019-5-8 09:41 编辑 一:本代码是我研究了好久才写出来,七功能主要有自动登陆、自动识别验证码、以及自动识别下载格式进行判断下载! 首先,搬上我们的主角网址,http://lavteam.org/&#xff…

python爬虫怎么爬同一个网站的多页数据-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面…

白帽社区“乌云”已超9小时无法访问 公告称网站服务升级

7月20日,国内知名白帽子社区“乌云”(http://www.wooyun.org/)今日已无法正常访问,网站挂出公告称“进行升级”。 7月19日晚间23点,微博“互联网的那件事”曝出乌云官方网站显示无法访问。由此算来,截至发稿…

网站发布

转载于:https://www.cnblogs.com/defineconst/p/6380324.html

增长黑盒:零代码基础做智能电商网站,不要重复发明轮子

增长黑盒:零代码基础做智能电商网站 Step0,不破不立,走上增长黑客之路 很多卖货的人最大的问题就是整个团队没有一个懂代码的,更不懂电商网站制作。此时贸然出去外包一个电商网站,问题可能会越来越多。 《增长黑客》中…

【校园先行者】曲径通幽,我用阿里云部署的个人网站及挂机实践分享

未见意趣,必不乐学。目前大二的田程,出于对软件编程的爱好用ECS云服务器部署了一个个人网站。最初使用虚拟机服务的他,认为阿里云服务器的高性价比、丰富的云市场以及详备的售后完美满足了个人需求。 项目初衷 我叫田程,是四川理工…