python最新官网图片_初学Python-只需4步，爬取网站图片

news/2024/5/12 13:01:01/文章来源:https://blog.csdn.net/weixin_39687667/article/details/110320238

很多人学习Python很重要的一个原因是，可以很简单的把一个网站的数据爬下来。

尤其是做我们这一行，产品经理，电商行业。

领导：弄一个买卖游戏周边商品的交易APP出来。我：行，那我们卖什么呀？领导：看下友商卖什么我们就卖什么。我：好吧，那就爬点数据下来吧。

玩笑归玩笑，虽有夸张成分，但也不无道理。注意：很多人学Python过程中会遇到各种烦恼问题，没有人帮答疑容易放弃。为此小编建了个Python全栈免费答疑.裙：七衣衣九起起巴而五（数字的谐音）转换下可以找到了，不懂的问题有老司机解决里面还有最新Python教程项目可拿,，一起相互监督共同进步！

作为入门级别，首先就来学习下怎么爬取网站图片。只需要调用4个方法，即可轻松批量拿到网站图片。

webp

下面对于每一步调用的方法进行详细说明（主要还是自己拿了别人代码之后遇到的坑）

第一步：获取网页的源代码

urllib.request.urlopen().read()

这个方法是获取到请求的这个URL所返回的网页源代码信息数据，返回值是bytes类型时，要将其转换成utf-8才能正常显示在python程序中，所以还要调用decode()方法进行解码。

最终得到的就是平时我们编写或者查看的页面源代码了。

webp

这里可能会出现的报错信息：

1.Non-ASCII character '\xe5'

原因：这是编码的问题，Python的默认编码文件是用的ASCII码，而你的Python文件中使用了中文等非英语字符。

解决方法：在第一行添加 # -- coding: UTF-8 --

webp

2.如果爬取的网站是https协议的，需要在请求时会验证一次SSL证书

解决方法：全局加上以下代码

webp

第二步：过滤出图片URL

这一步至为关键，因为在一堆网页源代码中，要有效找出目标对象（图片URL）的特点（结构特征）才行。怎么找？

1.了解图片URL的html表达方式

学过html的同学都知道，图片的标签是，src属性定义其图片源路径。

2.使用正则表达式进行匹配

我也没有详细了解过正则表达式各个符号的含义，这里不展开讲。

这里的正则表达式的意思是，过滤出所有标签是，旗下的src属性，且属性值是以http开头jpg结尾的源代码。

每个网站的规则都不一样，不能直接套用代码。

简单例子，你要爬取的网站图片是png格式，直接拿代码去运行肯定是什么都抓不到的。

再例如，我在一开始设定的规则中是没有加上http开头的，结果抓到一些图片URL是相对路径的数据，导致后面是无法访问URL报错的。

3.将所有匹配规则的代码存入list里

re.compile() 根据包含的正则表达式的字符串创建模式对象（直接拿来用就好）

findall() 返回string中所有与pattern相匹配的全部字串，返回形式为数组

webp

我们试一下打印出来imglist是什么结果，看是不是就把所有匹配规则的内容全部找出来呢！

webp

第三步：定义图片保存路径

这一步看个人习惯，如果只是少数几张图片，就没有必要新建一个文件夹给图片都保存整理到一起。

不过如果是爬一个网站或一个网页相对数量级比较大的时候，建议还是全部整理到一个文件夹里面，好管理嘛。

“新建文件夹”这个基础的操作，就调用os.makedirs()方法即可。

webp

但是这里有3个注意的点：

1.新建文件夹，你是希望指定路径还是在当前路径下创建？

指定路径：很简单，直接把你想要创建文件夹的路径复制出来，加上新建文件夹的名称，作为参数直接写到方法里即可。

eg.（windows）

当前路径：先获取当前的目录，再拼接上新建文件夹的名称。

获取当前目录的方式是：os.getcwd()

eg.

webp

2.新建的文件夹是否已存在？

相同目录下不能有重名的文件/文件夹，如果直接创建的话，就会报错：文件已存在，无法创建。

webp

3.是否需要考虑windows和macOS的路径表述方式不一样？

注意一下，两个操作系统对于路径的表述方式是不一样的，尤其是指定路径，要输入正确的路径才能创建成功。

第四步：将图片URL保存到文件夹下

现在，图片URL已经存入到list里（见第2步）、保存图片的文件夹也有了，就可以将虚拟的图片url转换成真实的png或jpg文件。

urllib.request.urlretrieve(url, filename) 这个方法就是将远程数据下载到本地

url：远程或本地的url，对应这里就是要放图片URL了。

filename：保存的完整地方，即“路径+文件名”。如果未指定该参数，urllib会生成一个临时文件来保存数据。

这里要注意3个地方：

1.图片的文件名怎么生成？

建议使用最简单的方式来生成文件名：递增数字+图片后缀

这里就再次说明要新建文件夹的重要性，新建文件夹后，这个目录下是全新空白的，不用考虑生成的文件名会不会和原有文件名重复的问题。

递增数字：譬如说，第一张图片叫“1.jpg”，第二张图片叫“2.jpg”，如此类推。

2.一般网站爬下来的图片是多张的，如何批量处理？

这里也说明了，为什么要将抓取到的图片url存到list里面了。给list一个循环，每个url调用一次urllib.request.urlretrieve()方法，那就相当于每个url都保存为1个图片。

webp

3.报错：urllib2.HTTPError: HTTP Error 403: Forbidden

原因：一些网站是禁止爬虫做的处理

解决方法：可以在请求加上头信息，伪装成浏览器访问User-Agent（具体的信息可以通过火狐的FireBug插件查询），再去请求。

webp

运行结果：一堆图片

webp

其他问题

1.没有自动安装或导入第三方库，如urllib.request

报错：ImportError: No module named request

解决方法：安装第三方库，Mac机上在安装python3之后，系统是自动安装了pip3，所以我们只需要每次使用pip3即可安装（Windows请自行百度，注意区分Python2和Python3）

敲入安装命令：pip3 install requests

2.千万千万要注意windows和mac系统的路径表达方式不一样

因为我是两个操作系统切换着用，所以很头痛有这个问题，每次要记得改就是了，没技术难度。或者再加一层系统判断进行兼容就好了。

最后注意：很多人学Python过程中会遇到各种烦恼问题，没有人帮答疑容易放弃。为此小编建了个Python全栈免费答疑.裙：七衣衣九起起巴而五（数字的谐音）转换下可以找到了，不懂的问题有老司机解决里面还有最新Python教程项目可拿,，一起相互监督共同进步！

本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_757891.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python最新官网图片_初学Python-只需4步，爬取网站图片

相关文章

dnf压爆服务器挑战网站,dnf手游压爆服务器挑战在哪里？地下城与勇士压爆挑战体验时间介绍[多图]...

新闻网站项目静态页面--首页

百度seo排名规则_百度SEO排名优化哪家好？做SEO优化网站安全吗？

网站留言板防重复留言_如何为新网站做维护

centos7架设php网站,基于centos7搭建wordpress个人网站的方法详解

access数据库应用期末考试_网站开发中常见的数据库类型有哪些？

html5.js不起作用,js+html onmouseover不管用

火车头采集ajax网址的技巧,使用火车头等采集工具采集的网站怎么做SEO呢？

java源代码众筹网站_【JavaWeb项目】一个众筹网站的开发（三）第一个网页

实习僧网站爬取

用html制作一个网站的步骤,新手怎么做网页新手如何制作一个网页

php投票网站管理员界面,php查询操作实现投票功能

如何用eclipse配置虚拟目录_wordpress建站如何用SMTP配置邮件通知

查询错误_入学派位查询系统现异常，北京西城区：网站代码逻辑错误，不影响派位结果...

html 自动排序代码,SEO中常用HTML代码大全，及权重排序

网站服务器提权,网络安全系列之七网站提权

【SEO】title / robots / description / canonical

SQL在线练习网站

网站请求流程

在安卓手机中调试网站