Python爬虫实战之爬取网站全部图片(二)

news/2024/5/10 4:09:28/文章来源:https://unclewang.blog.csdn.net/article/details/108699030

通过python 来爬取网站内所有的图片到本地  

第三篇是动态获取参数构造图片地址实现下载图片  传送门:https://blog.csdn.net/qq_33958297/article/details/82316019

 

这篇文章的目的是因为上一个文章里的地址已经无法访问了

考虑到可能有的新手没有办法去实验,这里又出了一个新的。

但是和那个网站的实现方式略微不同。

前面大致是一样的只是后面整套图片获取的时候 需要一些步骤。

 

爬取地址没了:官方又说这个是色情了。还是同样的下面是详细教程了

 

一.获得图片地址 和 图片名称

 

1.进入网址之后 按F12  打开开发人员工具点击elemnts

https://img-blog.csdn.net/20180902122050752?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzOTU4Mjk3/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

 

 2.点击下图的小箭头 选择主图中的任意一个图片   那我们这里点击第一个 图片

 

   3.显示控制台 为了验证xpath是否正确

https://img-blog.csdn.net/20180902122050642?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzOTU4Mjk3/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

 

    4.通过xpath获得a的href  和 title. (我看到好几个在问如何通过xpath获得a的href和title 把下面的图点开 不光有xpath语句,还有结果 )

 

(请放大看)我们看到 他提示的是有24个 我们回到网站中看一下  在主页上数一下 他有32个 为什么我们拿到的是24个呢

其实仔细看一下能看到里面有几个图片位是插入的广告 

广告没有href 和data-origianl这两个属性

也就是说 我们获得的href 和title是没有任何问题的 那么留着为我们后面使用.

 

    5.我们还需要访问这个链接的请求头的信息 以备后面操作的时候来使用

 

这里可以看到 没有什么特别的请求头

 

6.获得每套图里的 所有图片.这也是我们的目的所在 不然前面那么多工序不是浪费吗。

但是我们进来之后发现 他只有一张图,需要点击下一页来获取剩下的图片。

那么我们这里的思路很简单,首先获取图片的地址,同时获取最大的页码,这样我们通过循环就可以自己构造出来他的图片地址

但是构造图片的话 我们需要知道他的规律  这样才可以保证我自己构造的地址不会有问题

那么开始吧:

第一张图

第二张图

 最后一张图

 

我们这里可以发现 他的图片地址很简单就是数字一直向后加就可以了。

 

7.获取图片地址和页码

上面是页码  下面是图片地址 

 

8.获得相应的请求头  

 

可以发现 需要注意的只有一个字段Referer 这里的地址就是我们访问这个页面进来的时候的那个地址 只要把那个地址给上就行了

这里需要Referer的原因是 因为网站基本都有防盗链 而防盗链就是看这个值到底有没有 如果直接请求的话 会返回一些错误的东西 或者错误等问题

 

那么至此 我们所有的东西都获得完成了下面开始写代码了

这里的代码 和上一篇的代码大致是相同的

 

9.对于404的处理 如果出现了404那就只有重新请求了

 

 

二.编写python代码实现爬取.

    1.需要用到的库有: 

      Requests   lxml    如果没有安装的请自己安装一下

    2.IDE : vscode

    3.python 版本: 2.7.15

    4.代码实现的是多线程下载,多线程的好处 就不用我多说了。

下载地址:https://download.csdn.net/download/qq_33958297/12195870

效果图就不放 可能过于有点那啥 代码在python2平台下已经测试通过 在网站没有改变相关数据的情况下可以直接下载完所有的图片,建议下载代码的朋友先检查一下网站布局是否有变。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_722880.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在微软Azure上搭建个人博客网站

手动配置服务器对很多读者来说可能并不是一件容易的事。好在在Azure中,微软已经就搭建WordPress个人博客给出了一站式的解决方案,对于零基础读者来说,在Azure上搭建WordPress即意味着你无需经历繁琐的服务器配置过程。本期的教程,…

CentOS7搭建DVWA网站

Lamp架构搭建DVWA 搭建Lamp请看:https://blog.csdn.net/qq_41709494/article/details/89430834 1.下载DVWA地址:http://www.dvwa.co.uk/ 2. 安装Lamp的所有包 [rootlocalhost ~]# yum install php php-mysql php-gd httpd mariadb mariadb-server -…

记一次网站优化---图片压缩与移动端画面缩放问题

一、背景 前段时间被人吐槽自己负责的官网访问慢 其实自己平时访问的时候是有意识到的,但是没有特别放在心上 在工作的列表中优先级排的不高 最近空闲了下来,使用性能分析工具审计了一遍网站的各项指标 发现了比较严重的问题 二、问题 1、页面内容空白时…

可以发外链的网站_外链是什么意思?发外链的技巧【经验分享.视频】

外链是什么意思?外链是指网站的外链,是指一个网站所拥有的站外推广链接。把自己的网址发布到别人的网站上,这样的链接叫做外链。(可发文章的平台,如58同城、赶集网、百姓网、等外链平台)比如我在百姓网发了…

插码统计点击次数_码迷SEO内参(15) 百度快排原理及百度第三代点击排名统计系统简析...

这是码迷SEO的第42篇原创今天讲百度第三代点击排名统计系统,顺带把百度快排深度原理也刨析一下。自从19年10月份以来,百度对快排打击丝毫没有手软的迹象,码迷发现凡是采集快排模式的网站至今无一幸免,70多天了也没有起色的现象。可…

php动态保存文件名_利用百度地图写个跑腿接单的网站菜鸟教程零基础php为主

忙了几天,终于闲下来了,接着上一篇写。上一篇说怎样在手机上搭建服务器,本篇写创建hello world,第一个页面。其实看过我上几篇教程的都知道大概怎样创建了,就是一页面法。一个主页面,其他页面用函数表示&am…

网站被挂了很多链接 源码里边看不到_网站优化的50个技巧

这次写的《网站优化50个技巧》是为了让那些没有时间深究SEO技术但又想一窥SEO真相的朋友们,希望看了这些你更懂SEO!这些经验和盘托出,希望能够帮助到朋友们!这些规则就像是交通指示灯一样,按照这些规则走的&#xff0c…

多线程导出excel_seo必备网站分析工具,关键词百度搜索结果查询导出源码

seo必备网站分析工具,关键词百度搜索结果查询导出源码两个简单的版本,关于百度搜索结果的采集抓取,可以获取到竞争对手的网站,加以分析和研究,只需输入关键词和搜索页码,即可完成对于竞争对手的获取和研究&…

html5网格布局建站,CSS网格布局的示例代码

本文介绍了CSS网格布局的示例代码,分享给大家,具体如下:浏览器兼容性可以看出CSS网格布局从Safari 10.1, Firefox 52, Chrome 60,Edge 15开始受到支持。网格布局页面基本元素:OneTwoThreeFourFive样式:.wra…

访问不了_浏览器访问不了网站??

话说,总有一些时候就是见鬼了,电脑死活上不去网~最神的操作是“重启”,十有八九会解决滴。but,如果遇到你的电脑QQ啥的还能上网,唯独浏览器(部分以前可以上的去的网站)不好使,那么你应该会百度,…

iis html asp,IIS 部署 ASP.NET 网站

1. 安装 IIS从控制面板中选择“程序和功能”,选择“打开或关闭 Windows 功能”:image_1ceiq3spb1v20r806r61huh2an9.png-156.3kB将 IIS 的选项全部勾选,需要展开子级目录一个一个点,最后的状态需要为勾选状态:image_1c…

禁止查看js文件_robot文件在网站中的重要作用

大家都知道搜索引擎通过蜘蛛爬行来搜索抓取信息,robot.txt文件就是和蜘蛛交流的文件,很多人都会说介绍要怎么让蜘蛛来爬行,却很少人知道可以用robot.txt去操控蜘蛛,robot.txt用得好的话蜘蛛可以为你所用。Robots.txt是网站管理员创…

ajax url 路径怎么写_怎样编写站内的SEO——URL

这期的分享我们接着说站内SEO中的URL。一、什么是URL?URL (Uniform Resource Locator), 通常称为“web地址”,也就是我们常说的“link,链接”,是用户可读的文本,旨在替换计算机与服务器通信时使用的数字(IP地址)。URL由…

简单的物流管理网站制作源码_清远专业制作搬运公司企业网站 | 980元做一个物流搬运公司企业网站...

企业网站设计开发过程中有很多的原则。一个好的网站,设计是非常重要的,如果设计的不能吸引用户,也满足不了用户的需求,那么这个网站之前所做的努力都白费了,我们就只知道不要犯一些基本的错误,那么这个网站…

华为抓取错误日志在哪里_网站日志数据分析教程

网站日志的数据分析主要是使用相关工具进行,工具类型也有很多。网页版可以用拉格好(www.loghao.com),桌面版可以用爱站或者光年,也可以使用shell分析日志。。。分析日志的作用有很多,可以概括几点:1.了解蜘蛛对页面的抓…

HTML个人网站设计(源码)

关于前端,我觉得我是没有太多发言权的,毕竟本身对于设计这一方面并不是太感兴趣,但是学了几天吧,觉得也就这回事,考量的还是数学功底居多,前期很简单,后期的话,制作一些比较由难度的动画效果还是…

ckks方案优化最好的_如何更科学的进行SEO优化?保持排名稳定

网站SEO优化服务,常常被站长们称之为搜索引擎优化,为的是让网站参与关键词排名,获取大量展现和点击咨询,SEO让网站推广宣传变得有迹可循。一、科学制定网站SEO优化方案的前提网站在进行优化之前做好相关的优化方案对后期优化的开展…

seo查询工具源码_怎么查询网站是否被黑,查询网站是否被黑,被恶意污染的方法...

什么是网页挂马 网页挂马是指恶意攻击者攻击WEB网站后,在网页中嵌入一段代码或脚本,用于自动下载带有特定目的木马程序,而恶意攻击者实施恶意代码或脚本植入的行为通常称为“挂马”。 什么是SEO暗链 SEO暗链是SEO黑帽手法中相当普遍的一种手段…

php论坛有哪些_公司网站制作的方式和流程有哪些

每一个企业,务必有自身的网站,这就等同于是一张个人名片,是让他人认识你的必需方式。公司网站制作前,必须搞搞清楚,建网站的目地是啥,吸引住访问者的兴趣爱好点是啥,总体目标不可以设定过多&…

旅游网站的网页设计代码_深圳网页设计公司|高端网页设计【尼高网站设计】...

我们在网页设计前要考虑的比较多,除了网站的定位和目标,还有重要的市场。今天深圳尼高网站设计公司就简单的从线框设计来讲解一下对其他的影响。 我们创造任何产品的最终目的,也是最重要的目标是做到这一点,并使其满足用户的需求并…