easyui获取图片路径_初学Python-只需4步,爬取网站图片(附py文件)

news/2024/5/20 11:31:57/文章来源:https://blog.csdn.net/weixin_32905035/article/details/112237589

很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来。

尤其是做我们这一行,产品经理,电商行业。

领导:弄一个买卖游戏周边商品的交易APP出来。
我:行,那我们卖什么呀?
领导:看下友商卖什么我们就卖什么。
我:好吧,那就爬点数据下来吧。

玩笑归玩笑,虽有夸张成分,但也不无道理。

作为入门级别,首先就来学习下怎么爬取网站图片。只需要调用4个方法,即可轻松批量拿到网站图片。

a834bcea1065b320ec5836d0bd300d1c.png

下面对于每一步调用的方法进行详细说明(主要还是自己拿了别人代码之后遇到的坑)

第一步:获取网页的源代码

urllib.request.urlopen().read()

这个方法是获取到请求的这个URL所返回的网页源代码信息数据,返回值是bytes类型时,要将其转换成utf-8才能正常显示在python程序中,所以还要调用decode()方法进行解码。

最终得到的就是平时我们编写或者查看的页面源代码了。

e71baea8e21138929bdbfb21e57e1459.png

这里可能会出现的报错信息:

1.Non-ASCII character 'xe5'

原因:这是编码的问题,Python的默认编码文件是用的ASCII码,而你的Python文件中使用了中文等非英语字符。

解决方法:在第一行添加 # -- coding: UTF-8 --

463de469bc6922ee5a429a61ed0daa00.png

2.如果爬取的网站是https协议的,需要在请求时会验证一次SSL证书

解决方法:全局加上以下代码

d738c76743e6e7d2bbc349d24f74271e.png

第二步:过滤出图片URL

这一步至为关键,因为在一堆网页源代码中,要有效找出目标对象(图片URL)的特点(结构特征)才行。怎么找?

1.了解图片URL的html表达方式

学过html的同学都知道,图片的标签是,src属性定义其图片源路径。

2.使用正则表达式进行匹配

我也没有详细了解过正则表达式各个符号的含义,这里不展开讲。

这里的正则表达式的意思是,过滤出所有标签是,旗下的src属性,且属性值是以http开头jpg结尾的源代码。

每个网站的规则都不一样,不能直接套用代码。

简单例子,你要爬取的网站图片是png格式,直接拿代码去运行肯定是什么都抓不到的。

再例如,我在一开始设定的规则中是没有加上http开头的,结果抓到一些图片URL是相对路径的数据,导致后面是无法访问URL报错的。

3.将所有匹配规则的代码存入list里

re.compile() 根据包含的正则表达式的字符串创建模式对象(直接拿来用就好)

findall() 返回string中所有与pattern相匹配的全部字串,返回形式为数组

614cc2b44a35fcd2f4c8f8d0dd78e389.png

我们试一下打印出来imglist是什么结果,看是不是就把所有匹配规则的内容全部找出来呢!

847cef746255486d3721c57b3d942a33.png

第三步:定义图片保存路径

这一步看个人习惯,如果只是少数几张图片,就没有必要新建一个文件夹给图片都保存整理到一起。

不过如果是爬一个网站或一个网页相对数量级比较大的时候,建议还是全部整理到一个文件夹里面,好管理嘛。

“新建文件夹”这个基础的操作,就调用os.makedirs()方法即可。

d9079872510801470c6113c572f71a5c.png

但是这里有3个注意的点:

1.新建文件夹,你是希望指定路径还是在当前路径下创建?

指定路径:很简单,直接把你想要创建文件夹的路径复制出来,加上新建文件夹的名称,作为参数直接写到方法里即可。

eg.(windows)

当前路径:先获取当前的目录,再拼接上新建文件夹的名称。

获取当前目录的方式是:os.getcwd()

eg.

b0762668bf4fc2041e59f2024b382a03.png

2.新建的文件夹是否已存在?

相同目录下不能有重名的文件/文件夹,如果直接创建的话,就会报错:文件已存在,无法创建。

ed9f14d1b4aae150aa48f6a575f554a3.png

3.是否需要考虑windows和macOS的路径表述方式不一样?

注意一下,两个操作系统对于路径的表述方式是不一样的,尤其是指定路径,要输入正确的路径才能创建成功。

第四步:将图片URL保存到文件夹下

现在,图片URL已经存入到list里(见第2步)、保存图片的文件夹也有了,就可以将虚拟的图片url转换成真实的png或jpg文件。

urllib.request.urlretrieve(url, filename) 这个方法就是将远程数据下载到本地

url:远程或本地的url,对应这里就是要放图片URL了。

filename:保存的完整地方,即“路径+文件名”。如果未指定该参数,urllib会生成一个临时文件来保存数据。

这里要注意3个地方:

1.图片的文件名怎么生成?

建议使用最简单的方式来生成文件名:递增数字+图片后缀

这里就再次说明要新建文件夹的重要性,新建文件夹后,这个目录下是全新空白的,不用考虑生成的文件名会不会和原有文件名重复的问题。

递增数字:譬如说,第一张图片叫“1.jpg”,第二张图片叫“2.jpg”,如此类推。

2.一般网站下来的图片是多张的,如何批量处理?

这里也说明了,为什么要将抓取到的图片url存到list里面了。给list一个循环,每个url调用一次urllib.request.urlretrieve()方法,那就相当于每个url都保存为1个图片。

46f2361d2f85792f14ed0b27b7176c2e.png

3.报错:urllib2.HTTPError: HTTP Error 403: Forbidden

原因:一些网站是禁止爬虫做的处理

解决方法:可以在请求加上头信息,伪装成浏览器访问User-Agent(具体的信息可以通过火狐的FireBug插件查询),再去请求。

ad0cae706d8cd5c0fd5f46f1263ada88.png

运行结果:一堆图片

a70efc4cd393fea85a8f9ba85e34ed06.png

其他问题

1.没有自动安装或导入第三方库,如urllib.request

报错:ImportError: No module named request

解决方法:安装第三方库,Mac机上在安装python3之后,系统是自动安装了pip3,所以我们只需要每次使用pip3即可安装(Windows请自行百度,注意区分Python2和Python3)

敲入安装命令:pip3 install requests

2.千万千万要注意windows和mac系统的路径表达方式不一样

因为我是两个操作系统切换着用,所以很头痛有这个问题,每次要记得改就是了,没技术难度。或者再加一层系统判断进行兼容就好了。

这里小编是一个有着5年工作经验的Python工程师,关于Python有一个完整学习Python的路线,学习材料和工具。需要的伙伴可以私信我,发送“Python”就可以获取领取地址,免费送给大家。对于学习Python有任何问题(学习方法,学习效率,如何就业)都可以问我。希望你也能凭自己的努力,成为下一个优秀的程序员!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_794021.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搜索引擎制作_搜索引擎优化方法_网站制作流程:网站建设7个基本流程!

发布时间:2020-12-08 10:12:16从目前来看,每天都会有大量的初创企业诞生,作为企业主而言,第一时间想到的事情,就是建立一个网站,但由于初创企业,并没有专业相关的网站制作人员,往往是寻求网站建…

apache服务器配置tls_Linux 系统管理及服务配置实战-第43章 APACHE网站服务器构建I...

Apache服务器1 简介1.1 前言UI的转变:B/S架构1.2 名词HTMLHyperText Markup Language 网页使用HTML,PHP,JAVA语言格式书写的文件。主页网页中呈现用户的第一个页面。URLUniform Resource Locator 统一资源定位符1.3 Web ServerNginx(Tengine)…

php网站无法预缆,解决wp-super-cache无法(预)缓存问题

突然发现WP-SUPER-CACHE无法预缓存,点击【立即加载预缓存】后没有任何效果,并且垃圾回收定时器也失效了,缓存文件全是几天前的,感觉很奇怪!闲下来的时候,突然想起前些天对博客做的一些优化,于是…

PPTV网站强化移动视频高端内容

随着移动互联网用户规模的快速增长,移动终端的商业价值也在日益显现。聚力传媒(PPTV.com,以下简称“PPTV网站”)近日在移动终端动作频频,继iPad深度专刊改版后再次发力高端人群,率先行业打造移动终端专业财经视频内容,…

阿里云部署Java网站和微信开发调试心得技巧

阿里云部署Java网站和微信开发调试心得技巧(上) 阿里云部署Java网站和微信开发调试心得技巧(上) 本篇手记旨在帮助大家从0开始: 申请阿里云服务器搭建出程序的执行环境在服务器上发布并运行自己的web project域名解析微信测试号的申请与连接…

探究 Stack Overflow 网站的热点问题排名算法

引入:几乎所有搞开发的人都对Stack Overflow不陌生,它是一个专门的Q&A类型的网站http://dbanotes.net/startup/stack_overflow_success.html (类似这种网站的例子还有很多,比如新浪问问,百度搜搜等)你如…

为什么别人做小说网站轻易IP上万,自己做甚至不收录

2019独角兽企业重金招聘Python工程师标准>>> 最近与博客联盟(blogunion.org)的老曾好友聊了下关于小说网站,听说小说网站轻易IP上万,而自己做甚至不收录(当然不是老曾本人的),感到十分困惑。于是深度了解下,后来发现&a…

公司网站,邮箱,文件服务器搭建实战

项目案例:Tarena公司要求实现公司网站,邮箱,文件服务器的运营,并保证安全可靠,方便管理。项目分析:为实现要求我们首先要购买域名tarena.com。然后配置一台DNS和WEB服务器,因为这是公司的主要业…

网站安全狗Apache 3.5版升级 新增网站后台防护功能

2019独角兽企业重金招聘Python工程师标准>>> 网站安全狗是一款集网站内容安全防护、网站资源保护及网站流量保护功能为一体的服务器网站安全防护软件。功能涵盖了网马/木马扫描、防SQL注入、防盗链、防CC攻击、网站后台防护、一句话木马防护、网站流量实时监控、网站…

【python 3.6】从网站抓图并存放到本地路径

#!/usr/bin/python # -*- coding: UTF-8 -*- _author_ BH8ANKimport urllib.request import re import os import time#os.rmdir("D:/images")#1,打开页面,读取图片张数,抓html wangzhi "https://www.zhihu.com/question/43551423"…

如何把不同尺寸ico格式图标_网站ico 图标不会做?用这个小工具轻松搞定

给自己的网站加上一个小图标,显示既专业又美观。网站左上角显示的小图标一般是ico格式的图片,然后在HTML里使用代码去设置ico小图片为该网站的小标。设计软件设计出来的图标一般是png、jpg这等格式的,但ico图标不同于png、jpg这类常见的图片格…

seo日常工作表_谷歌SEO优化工具大全

在做谷歌SEO工作的时候,我们经常性会强调SEO是一个细节性很强的工作,因此,有的时候我们不能进行批量自动化的工作,比如:①外链自动群发②内容批量伪原创在某种情况下,我们认为这是一种相对情况,…

发布原型html文件_Axure教程:高效访问的原型托管网站(1)

由于Axure自带的服务器 Axshare部署在海外的,导致国内的小伙伴在访问上传的项目原型链接时很慢,有时甚至打不开。接下来,推荐给大家几个国内的原型托管网站。第一个:axhub1、平台链接:https://axhub.imaxhub是一个原型…

企业域名备案流程_个人和企业网站申请公安备案的流程总结

我们常给网站备案是在工信部备案,但现在又多一个备案是在公安的备案,以下耀忠根据近期给客户网站进行公安备案的相关步骤流程简单整理一下,希望对大家有所帮助。1、注册账号。打开全国互联网安全管理服务平台网:www.beian.gov.cn&…

4.Windows Server2012 R2里面部署 MVC 的网站

网站部署之~Windows Server | 本地部署:http://www.cnblogs.com/dunitian/p/4822808.html#iis 后期会在博客首发更新:http://dnt.dkill.net 添加角色 基本功能 默认即可 装一下iis 选4.5和iis核心 其他的下面继续选 安全肯定全要的,常见HTTP和应用程序开…

网站制作流程

提出需求-> 解决方案 -> 工作交流 -> 确立合同 -> 支付定金 -> 安排设计 -> 确认首页  -> 网站制作 -> 客户验收 -> 网站维护 &#x…

服务器上无法重命名文件夹,linux如何重命名文件和文件夹_网站服务器运行维护...

win10显示网络电缆被拔出怎么办_网站服务器运行维护win10显示网络电缆被拔出的解决方法是:1、打开【设备管理器】,展开【网络适配器】选项;2、打开网卡属性窗口,切换到【电源管理】选项,并取消勾选【允许计算机关闭此设…

网站用户头像剪裁上传完整案例

做为网站前段开发人员来说,用户头像剪裁和上传是一个很常用的功能,一般这个功能涉及到图片的放大,缩小,移动,旋转,和剪裁。下面我们来做一个完整的demo,剪裁后的图片以base64的形式返回&#xf…

Ci分开配置网站前台后台的方法

CodeIgniter 是一个简单快速的PHP MVC框架。EllisLab 的工作人员发布了 CodeIgniter。许多企业尝试体验过所有 PHP MVC 框架之后,CodeIgniter 都成为赢家,主要是由于它为组织提供了足够的自由支持,允许开发人员更迅速地工作。 CI 2.0 多目录&…

使用Selenium爬取网站表格类数据

本文转载自一下网站:Python爬虫(5):Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需要学习的地方: 1.Selenium的安装,配置 2.Selenium的初步使用(自动翻页) 利用Selenium爬取东方财富网各上市公司历年的财务报表数据…