python 爬网站上的图片

news/2024/5/10 3:43:30/文章来源:https://blog.csdn.net/dcxhun3/article/details/52485498

最近在做bot的动物识别,最后根据大会给出来的测试数据,发现对简笔画的动物识别处于懵圈状态,识别效果很差~故我需要自己爬取一些简笔画的图片~
手写学习了某一网站的图片爬取:
这里写图片描述
附上代码:

# -*- coding: utf-8 -*-
import urllib
import re
import time
import os#显示下载进度
def schedule(a,b,c):'''''a:已经下载的数据块b:数据块的大小c:远程文件的大小'''per = 100.0 * a * b / cif per > 100 :per = 100print '%.2f%%' % perdef getHtml(url):page = urllib.urlopen(url)html = page.read()return htmldef downloadImg(html):reg = r'src="(.+?\.jpg)" pic_ext'imgre = re.compile(reg)imglist = re.findall(imgre, html)#定义文件夹的名字t = time.localtime(time.time())foldername = str(t.__getattribute__("tm_year"))+"-"+str(t.__getattribute__("tm_mon"))+"-"+str(t.__getattribute__("tm_mday"))picpath = 'H:\\getpic\\pic\\%s' % (foldername) #下载到的本地目录if not os.path.exists(picpath):   #路径不存在时创建一个os.makedirs(picpath)   x = 0for imgurl in imglist:target = picpath+'\\%s.jpg' % xprint 'Downloading image to location: ' + target + '\nurl=' + imgurlimage = urllib.urlretrieve(imgurl, target, schedule)x += 1return image;if __name__ == '__main__':print '''         ***************************************      Welcome to use Spider   ****     Created on  2016-09-08   ****       @author:dcx         ***************************************'''html = getHtml("http://tieba.baidu.com/p/2460150866")downloadImg(html)print "Download has finished."

但是,我其实想爬取百度图片,这些图片来源于不同的网站,这没法直接用上面的代码,需要获取到每个图片的url 查找了各方资料,还是没搞明白 最后索性直接用ctr+s 保存网页就可以将网页上的图片保存下来~

其实我还是想学习怎么将百度图片上的数据爬下来~~继续努力 未完待续!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_827829.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu安装网站服务器,Ubuntu安装服务器

tomcat 的安装安装 Tomcat 需要首先安装配置 JDKJava 的安装在 Ubuntu 和 Linux Mint 上安装 Oracle JDK使用下面的命令安装,只需一些时间,它就会下载许多的文件,所及你要确保你的网络环境良好:sudo add-apt-repository ppa:webup…

织梦tag.php删,DedeCMS的TAG标签SEO问题改进及PHP源代码讲解

DEDECMS是最优秀的中文开源CMS系统之一了,不过,DEDE系统也不是尽善尽美的,存在许多待改善的地方,且不说它那基本广受诟病的安全问题,今天跟版网就找其中一个细节说说它的问题,那就是它的tag标签问题。DEDEC…

怎么把整个段落往左移_单页网站怎么做SEO优化与推广

单页网站SEO是一个相对特别的优化工作,它更多的应用于在线商品快速交易行业,单页网站其实往往更多的应用在SEM竞价推广,而不是SEO。SEO单页排名技术:指的是依赖于一个单独的页面,对目标关键词进行优化,通常…

怎么嵌入到网站的html源代码中_怎么用好结构化数据标记,手把手教你做schema markup code...

什么是结构化数据(schema markup)?Schema Markup( https://schema.org/)是一种代码形式用来帮助你的网页和搜索引擎进行友好的沟通,告诉搜索引擎更多关于你的信息,比如说有时候我们看到搜索结果…

seo管理php源码_网站建设之常用CMS系统的SEO优化功能分析

大家好!我是小熊优化的SEOER,在seo优化这个行业已经从业7年多了,优化过不少的个人和企业网站,根据多年的经验也总结出了不少的优化经验,现在大部分的网站,尤其是单位性质的网站基本都是采用CMS系统来做的&a…

推荐一个学习基础编程技术的网站

推荐一个学习基础编程技术的网站 RUNOOB-菜鸟教程 该网站简介: ----------------------------------------------------------------------------------------------------------------------------------------------------- 关于我们 菜鸟教程提供了最全的基础…

如何免费领取 Pluralsight 等各大学习网站会员?

步骤 首先你需要一个微软账号,如果你没有的话可以去注册一个,点击 注册 。 点击网址 微软 Visual Studio 福利 并登陆你微软账号,这时你会看到下面有很多激活码可以领取。 激活 点击Activate,根据操作步骤,在Pluralsight页面输入…

请检查网站服务器是否正常.,请检查服务器地址是否正确

请检查服务器地址是否正确 内容精选换一换网站的访问与云服务器的网络配置、端口通信、防火墙配置、安全组配置等多个环节相关联。任意一个环节出现问题,都会导致网站无法访问。本节操作介绍网站无法访问时的排查思路。网站无法访问怎么办?如果打开网站有…

实现WorkPress网站文章代码高亮显示

首先需要在WorkPress中下载WP Githuber MD,下载方法如下:插件—>安装插件—>右上角搜索框输入WP Githuber MD—>下载该插件。 有了插件后,在插件—>已安装插件中找到WP Githuber MD—>设置WP Githuber MD的属性。选中模组&am…

CTF_Crypto_MD5【BUUCTF网站题库】

题目 MD5 解压 解题 工具 MD5 解码工具 https://www.somd5.com/ 答案 最后 在flag输入 flag{admin1} 成功!!! 小结 MD5简介 MD5是一种常见的加密方式,但准确来说,它只是一种编码方式,它将任意有限…

CTF_Crypto_Url编码[BUUCTF网站]

题目 Url编码 由此可以看出是url编码和解码操作 即 encode and decode 题目 具体的url编码后的格式 解题 url编码–拓展 浏览器打包表单输入的格式 url编码是一种浏览器用来打包表单输入的格式。浏览器从表单中获取所有的name和其中的值 ,将它们以name/value…

【Ubuntu】}Ubuntu镜像网站

Ubuntu镜像下载 镜像下载 阿里云镜像站-aliyun mirrors 镜像网址: ** 浙江大学;(易进)xjtU(西安交通大学)华为云tsinghua(清华大学)Beijing University of Posts and Telecommunications(北邮大)&#x…

程序员必备网站和工具

程序员必备网站和工具 思维工具:XmindPPT模板:办公资源、站长素材、笨鸟网、PPTStone、六图网、欧酷PPT招聘软件:前程无忧、智联招聘、BOSS直聘Maven仓库:https://mvnrepository.com/清华大学开源软件镜像站:https://…

HttpClient4登陆有验证码的网站

其实就这个问题,本来是很简单的,我自己花了近两个下午才搞定,现在记录一下。也希望能帮助后来的朋友。先说httpclient 操蛋的httpclent!为什么说操蛋呢,因为从httpclient3到httpclient4,有很大的变化,而且我自己水平也不够,在jar包上出了很多问题(例如我不知道还有个httpcore…

大型网站技术架构 读书笔记4 高可用架构

说句掏心窝的话,高可用甚至比高性能更重要。为什么? 因为你把系统的性能优化10倍,你的老板可能会说:小董呀,干的不错。 可是,如果你负责的模块,三天两头就宕掉了,嘿嘿,你懂得。 可用性度量 99%-----网站年度不可用时间小于88个小时 99.9%---网站年度不可用时间小于9个小时 99.…

大型网站技术架构 读书笔记3 高性能架构

很明显,这一章是说性能优化的,那么在说性能之前,我们得先了解性能的具体定义,也就是说如何评定一个系统性能是好还是不好。因此,我们就先说说性能测试,然后分别是前端性能,应用服务器的性能以及存储性能的优化。性能测试 1 不同的人对性能的认识是不一样的对用户来说,他们认为的…

大型网站技术架构 读书笔记2 大型网站核心架构要素

通常情况下,一个网站的架构出来功能性需求外,还应该考量以下五个方面:性能可用性伸缩性扩展性安全性性能 性能的官方解释,我就不说了。对用户来说,就是系统的反应速度是否快。对网站来说,性能问题是无处不在的,继而,我们优化性能的手段也有很多。我们从前到后一个一个来说在浏览…

大型网站技术架构 读书笔记1 大型网站架构模式

架构,又名软件架构,是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计。 关于什么是模式,这个来自建筑学的词汇是这样定义的:“每一个模式描述了一个在我们周围不断重复发生的问题及该问题解决方…

大型网站架构之大型网站的演变过程

大型网站的演变过程 现在网站面临的问题: 1.企业在网站技术上的进行了大量的投入,但总是在关键的时刻频繁宕机(高性能); 2.工程师夜以继日的加班工作,网站缺总是故障频繁、新功能上线缓慢(扩展…

大型网站架构之大型网站架构模式

大型网站架构模式 什么是模式呢?(模式就是针对特定问题目前行业的解决方案) 模式描述了一个在我们周围不断重复发生的问题以及该问题解决方案的核心。借助模式我们可以减少很多重复的工作。 大型互联网公司在实践过程中提出了很多的解决方案,以实现网站…