python 图片文件_初学Python-只需4步,爬取网站图片(附py文件)

news/2024/5/9 23:53:35/文章来源:https://blog.csdn.net/weixin_42567497/article/details/114913719

很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来。

尤其是做我们这一行,产品经理,电商行业。

领导:弄一个买卖游戏周边商品的交易APP出来。

我:行,那我们卖什么呀?

领导:看下友商卖什么我们就卖什么。

我:好吧,那就爬点数据下来吧。

玩笑归玩笑,虽有夸张成分,但也不无道理。

作为入门级别,首先就来学习下怎么爬取网站图片。只需要调用4个方法,即可轻松批量拿到网站图片。

26ff761bdc00f18a650a95f115618f22.png

下面对于每一步调用的方法进行详细说明(主要还是自己拿了别人代码之后遇到的坑)

第一步:获取网页的源代码

urllib.request.urlopen().read()

这个方法是获取到请求的这个URL所返回的网页源代码信息数据,返回值是bytes类型时,要将其转换成utf-8才能正常显示在python程序中,所以还要调用decode()方法进行解码。

最终得到的就是平时我们编写或者查看的页面源代码了。

33a2882eb639bea88cc834748ab20a59.png

这里可能会出现的报错信息:

1.Non-ASCII character '\xe5'

原因:这是编码的问题,Python的默认编码文件是用的ASCII码,而你的Python文件中使用了中文等非英语字符。

解决方法:在第一行添加  # -- coding: UTF-8 --

293f516c3568996d7459513813035d25.png

2.如果爬取的网站是https协议的,需要在请求时会验证一次SSL证书

解决方法:全局加上以下代码

adeb10f420b5da305ea30c7272c23b51.png

第二步:过滤出图片URL

这一步至为关键,因为在一堆网页源代码中,要有效找出目标对象(图片URL)的特点(结构特征)才行。怎么找?

1.了解图片URL的html表达方式

学过html的同学都知道,图片的标签是,src属性定义其图片源路径。

2.使用正则表达式进行匹配

我也没有详细了解过正则表达式各个符号的含义,这里不展开讲。

这里的正则表达式的意思是,过滤出所有标签是,旗下的src属性,且属性值是以http开头jpg结尾的源代码。

每个网站的规则都不一样,不能直接套用代码。

简单例子,你要爬取的网站图片是png格式,直接拿代码去运行肯定是什么都抓不到的。

再例如,我在一开始设定的规则中是没有加上http开头的,结果抓到一些图片URL是相对路径的数据,导致后面是无法访问URL报错的。

3.将所有匹配规则的代码存入list里

re.compile()  根据包含的正则表达式的字符串创建模式对象(直接拿来用就好)

findall()  返回string中所有与pattern相匹配的全部字串,返回形式为数组

07d91cdc1f6660ed8127aa90350642c9.png

我们试一下打印出来imglist是什么结果,看是不是就把所有匹配规则的内容全部找出来呢!

297fa470c109bcfdeff24e46d829567e.png

第三步:定义图片保存路径

这一步看个人习惯,如果只是少数几张图片,就没有必要新建一个文件夹给图片都保存整理到一起。

不过如果是爬一个网站或一个网页相对数量级比较大的时候,建议还是全部整理到一个文件夹里面,好管理嘛。

“新建文件夹”这个基础的操作,就调用os.makedirs()方法即可。

2137ff04d1e31ae4999ce44c5fbff53e.png

但是这里有3个注意的点:

1.新建文件夹,你是希望指定路径还是在当前路径下创建?

指定路径:很简单,直接把你想要创建文件夹的路径复制出来,加上新建文件夹的名称,作为参数直接写到方法里即可。

eg.(windows)

当前路径:先获取当前的目录,再拼接上新建文件夹的名称。

获取当前目录的方式是:os.getcwd()

eg.

434140beed49d62a14ba0506189cb0d1.png

2.新建的文件夹是否已存在?

相同目录下不能有重名的文件/文件夹,如果直接创建的话,就会报错:文件已存在,无法创建。

c51e4105957da61ff1d0949cf5895742.png

3.是否需要考虑windows和macOS的路径表述方式不一样?

注意一下,两个操作系统对于路径的表述方式是不一样的,尤其是指定路径,要输入正确的路径才能创建成功。

第四步:将图片URL保存到文件夹下

现在,图片URL已经存入到list里(见第2步)、保存图片的文件夹也有了,就可以将虚拟的图片url转换成真实的png或jpg文件。

urllib.request.urlretrieve(url, filename)这个方法就是将远程数据下载到本地

url:远程或本地的url,对应这里就是要放图片URL了。

filename:保存的完整地方,即“路径+文件名”。如果未指定该参数,urllib会生成一个临时文件来保存数据。

这里要注意3个地方:

1.图片的文件名怎么生成?

建议使用最简单的方式来生成文件名:递增数字+图片后缀

这里就再次说明要新建文件夹的重要性,新建文件夹后,这个目录下是全新空白的,不用考虑生成的文件名会不会和原有文件名重复的问题。

递增数字:譬如说,第一张图片叫“1.jpg”,第二张图片叫“2.jpg”,如此类推。

2.一般网站爬下来的图片是多张的,如何批量处理?

这里也说明了,为什么要将抓取到的图片url存到list里面了。给list一个循环,每个url调用一次urllib.request.urlretrieve()方法,那就相当于每个url都保存为1个图片。

b9f5423c06eb0e8909d9fca51ee3a9e2.png

3.报错:urllib2.HTTPError: HTTP Error 403: Forbidden

原因:一些网站是禁止爬虫做的处理

解决方法:可以在请求加上头信息,伪装成浏览器访问User-Agent(具体的信息可以通过火狐的FireBug插件查询),再去请求。

3a73de648ff34e65b6d512078ceea5e2.png

运行结果:一堆图片

98f46f75f3c1c8eed2e00e58f92dbc87.png

其他问题

1.没有自动安装或导入第三方库,如urllib.request

报错:ImportError: No module named request

解决方法:安装第三方库,Mac机上在安装python3之后,系统是自动安装了pip3,所以我们只需要每次使用pip3即可安装(Windows请自行百度,注意区分Python2和Python3)

敲入安装命令:pip3 install requests

2.千万千万要注意windows和mac系统的路径表达方式不一样

因为我是两个操作系统切换着用,所以很头痛有这个问题,每次要记得改就是了,没技术难度。或者再加一层系统判断进行兼容就好了。

最后

文章的代码文件可以分享给大家,留下你们的邮箱,我就会把文件发给大家。

代码很小白,很简陋,请勿见笑,请多指正!

初学Python-2018.08.04

慢慢努力,每天学得一点是一点,给自己加油!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_776100.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员入门必备网站 (技术云集的网站)tutorialspoint

https://www.tutorialspoint.com/index.htm 这个网站是印度的一个IT教学网站 前后端技术,应有尽有,还有数据库学习,这个网站很棒,大家,加油~

轻文章-使用URL Rewrite实现网站伪静态

文章目录基础介绍案例代码urlrewrite.xmluserinf.jsp验证结果注意事项参考文档案例来源:《轻量级Java EE企业应用实战(第4版)-Struts2Spring4Hibernate整合开发》,李刚编著 基础介绍 伪静态的作用:将*.jsp、*.php这种…

阿里云服务器Linux主机搭建网站环境

首先准备好连接linux服务器的工具,推荐用xshell和xftp。 xshell 是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。 下载地址:http://www.newhua.com/soft/36383.htmXftp 是一个基于 MS windows 平…

linux 画直线 c程序,绘制直线 - Ubuntu+OpenGL程序设计_Linux编程_Linux公社-Linux系统门户网站...

这次主要学习的是关于在opengl中绘制直线,也比较简单现上图吧这图乍一看上去是不是像是一条条弯曲的直线???我开始就把他看成这样了,不过这是个视觉问题,仔细看过起,其实还是一个同心的直线&…

如何得到一个网站的后台地址

一、猜测常见的网站后台 1、http://你的网址/login.asp 2、http://你的网址/admin/login.asp 3、http://你的网址/admin/ /admini/ 二、查看该网站的robots.txt 如:网站为:http://www.mmfi.net/ 在后面添加:robots.txt 得到: …

Eclipse添加J2EE开发功能(网站开发)

添加J2EE 其实很简单啦: 1、打开Eclipse,点击Help 2、选择Install New Software 3、在work with中输入网址:http://download.eclipse.org/releases/ 在下面出现的选项选择自己的Eclipse版本 4、在下面框框中选择“Web,XML,Java EE and OSG…

手机沙盒隔离软件_手机怎么安全无病毒的访问风险网站和APP

很多小伙伴,总会在夜深人静的时候不由自主的打开浏览器,登上一些不可描述的网站,不经意访问一些风险网站,或者在不知情的情况下下载了一些流氓APP。经常会有一些可恶的木马、病毒也会在这些网站和APP上,它们防不胜防&a…

网站页面左右_网站SEO优化基础入门与教程

掌握SEO基础知识,是我们进行简单的网站建设必备条件之一,没有子弹,如何打鸟呢?今天小编将给各位分享一下关于网站seo优化的基础知识与seo教程,希望新手SEO们认真看完以下内容,相信会给你带来帮助。一、SEO入门基础&am…

php和seo有关系吗_php seo 优化之文章的字数和SEO的关系

文章内容字数与seo的有关系的,下面就来和小编一起了解一下文章字数与SEO的联系,一起来了解一下吧。一篇文章多少字数更有利于收录,有利于网站的优化,从大的方面来讲,有几个共识的点。1、第一考虑用户的需求是什么&…

php同学录网站设计_php校友录网站设计

校友录系统站我们使用 PHP开发工具,利用其提供的各种面向对象的开发工具,尤其是数据窗口这一能方便而简洁操纵数据库的智能化对象,首先在短时间内建立系统应用原型,然后,对初始原型系统进行需求迭代,不断修…

一些网站

考试资源 考试163:www.test163.com大量的资格认证考试试题,计算机,英语视听材料 IT认证考试资源网:www.itexamprep.com大量IT认证考试题库 中国大学生网:www.chinadaxuesheng.com题库模拟题以及论文 中国考试网&am…

软件测试大型网站如何进行压力测试及性能调优优化方案

性能测试在大型网站系统的设计和开发中非常重要,通常会和容量预估等工作结合在一起,穿插在系统开发的不同方案。性能测试可以帮助我们及时发现系统的性能短板,评估系统的能 性能测试在大型网站系统的设计和开发中非常重要,通常会…

经典网页设计:20个美味的餐馆和食品网站

餐馆和食品网站设计目标是吸引更多的人到他们的店中消费或者购买他们的食品,这类网站通常都会搭配美味的食物图片,吊人胃口。有的网站也会应用视差滚动特效和大背景布局设计来吸引消费者。下面分享的这20个精心设计的餐馆和食品网站案例看起来就让人充满…

SEO知识结构

引一张图片待续转载于:https://www.cnblogs.com/mackxu/archive/2012/10/30/2746211.html

【Python自动化测试网站推荐】免费资源网址,帮你找到所有想要的资源!!

软件测试学习思维导图/工具软件汇总 今天来讲一个小伙伴经常问的一个问题——如何高效的去自学Python ​ 我们今天就来讲一讲,我们作为一个基础不好或者刚刚入行软件测试的新手,如何利用宝贵的时间高效自学Python。 今天从三个方面进行讲解。 PARTO1.为…

jquery 访问手机摄像头_手机网站开发选择zepto还是jquery mobile?

移动端网站现在已经不是什么新鲜的话题,毕竟如果哪个企业没做手机网站就意味着跟移动互联脱节。很多开发者用jquery mobile或者zepto进行移动构建,那么我们选择哪一个框架进行开发呢?jquery mobile和zepto哪个更适合移动网站开发?…

查询ecshop网站代码排查方法_一次线上接口超时的排查过程

1、事件还原昨天下午,收到一个504的告警,显然这是一个超时告警。当时由于手头有其他事情,没在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我写的,第一反应有点诧异。诧异之后,继…

python学习网站_超全python资料合集

阅读文本大概需要 15 分钟。今天给大家推荐一些python相关的学习资料。在信息爆炸的时代,获取信息的渠道尤为重要。这篇可以称得上比较全的资料集了,希望对大家有所帮助。Python资料汇总(来源: Python学习交流)包括长期必备、入门教程、练手…

linux网站运行系统下载文件,linux系统中如何打开文本文件_网站服务器运行维护,linux,打开,文本文件...

linux终端显示中文乱码_网站服务器运行维护linux终端显示中文乱码的解决方法:1、首先执行【yum -y groupinstall chinese-suport】命令,安装中文语言包;2、编辑配置文件,添加【export LANG"zh_CN.UTF-8"】;3…

潮流设计!15个现代风格的单页扁平化网站设计

下面是15个现代风格的单页扁平化网站设计的例子。扁平化设计(Flat UI Web Design)和单页网站(Single Page Web Design)这两个概念可以算作是去年网页设计最热门的趋势。所以设计师结合这两个概念来进行网站设计并不奇怪。看看这些…