【python 3.6】从网站抓图并存放到本地路径

news/2024/5/20 14:51:46/文章来源:https://blog.csdn.net/weixin_30550081/article/details/96586152

#!/usr/bin/python
# -*- coding: UTF-8 -*-
_author_ = 'BH8ANK'import urllib.request
import re
import os
import time#os.rmdir("D:/images")#1，打开页面，读取图片张数,抓html
wangzhi = "https://www.zhihu.com/question/43551423"
keywords = ".jpg"def get_html(url):page = urllib.request.urlopen(url)html = page.read()return htmlcontent = str(get_html(wangzhi))
a = content.count(keywords)#print(content)
#print("此页面有%d张图" %a)#2，匹配图片文件,抓jpg
def get_image(html):t = r'src="(.+?\.jpg)"' #正则表达式，匹配的是r后面的内容，这部分内容来自于网页的htmlimg = re.compile(t)#将正则表达式翻译成它的对象html1 = html.decode('utf-8')# html用decode('utf-8')进行解码，由bytes变成string。# py3的urlopen返回的不是string是bytes，如果没有这一步，就会报下面的错#    return _compile(pattern, flags).findall(string)#TypeError: cannot use a string pattern on a bytes-like object
img_list = re.findall(img,html1)#在html中找到所有符合正则表达式的图片，存入列表list# try:                           #要么用异常处理方式，要么用if not判断路径是否存在#     os.mkdir("D:/images")# except FileExistsError:#     passif not os.path.exists("D:/images"):#不存在即创建os.mkdir("D:/images")print("\n\nCreat Success\n")# input()n = 1                              #此处要重点理解的是循环变量n，这个n一边控制循环，一边给抓到的图命名for html in img_list:urllib.request.urlretrieve(html, 'D:/images/%s.jpg' %n)print("抓到第%3d张图"  %n,end="") #如果写为%03d，则不满3位，前面加0，如果写为%3d，则右对齐，前面不加0'''上面print中用到了end=''，表示后面的打印不换行下面的模块负责显示抓到第几张图片时，打印进度条'''N=0.05#每隔0.05秒打印一个=k=1#循环控制变量，一共打印20个=，最后打印Donewhile k < 20:print("=", end='', flush=True)time.sleep(N)k += 1print("Done")n += 1print("\n一共抓到%d张图"   %(n - 1))return img_list# for img_url in img_list:#     urllib.urlretrieve(img_url, 'D:/tmp/%s.jpg' % n)#     return img_list
# c = get_image(get_html(wangzhi))
# d = c.decode('utf-8')
#
# print(d)if __name__ == "__main__":daima = get_html(wangzhi)print(daima)#此为目标网页的html代码
# input()get_image(daima)#从html中取出匹配的图片，并存放

代码部分本身比较简单，重点需要理解的部分是re.compile和re.findall.

容易出错的地方：

1，下面两行，为什么要decode呢

    html1 = html.decode('utf-8')img_list = re.findall(img,html1)

如果不decode，就会报错

原因是：

TypeError: can't use a string pattern on a bytes-like object.

html用decode('utf-8')进行解码，由bytes变成string。

py3的urlopen返回的不是string是bytes，这一点和py2有差异。

2，下面这句的意思是筛选【src="(.+?\.jpg)"】，这部分内容是通过查看网页html来确定的

  t = r'src="(.+?\.jpg)"'

3，创建文件夹时，需要判断当前路径下，是否有这个文件夹，可以采用两种方式，if not 或者try except

转载于:https://www.cnblogs.com/BH8ANK/p/8940562.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_794000.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【python 3.6】从网站抓图并存放到本地路径

相关文章

如何把不同尺寸ico格式图标_网站ico 图标不会做？用这个小工具轻松搞定

seo日常工作表_谷歌SEO优化工具大全

发布原型html文件_Axure教程：高效访问的原型托管网站(1)

企业域名备案流程_个人和企业网站申请公安备案的流程总结

4.Windows Server2012 R2里面部署 MVC 的网站

网站制作流程

服务器上无法重命名文件夹,linux如何重命名文件和文件夹_网站服务器运行维护...

网站用户头像剪裁上传完整案例

Ci分开配置网站前台后台的方法

使用Selenium爬取网站表格类数据

H5竞价单页网站源码带订单系统

网站本地优化方法与技巧

如何傻瓜式的创建网站地图

linux 建站命令,关于linux基础命令的详解

电商网站秒杀倒计时实现

.netcore入门27：使用window服务托管asp.net core网站

网页制作技术革新：《HTML5 网站大观》系列文章导航

Python爬虫入门教程 65-100 爬虫与反爬虫的修罗场，点评网站，字体反爬之三

.net core入门35：在网站中承载多个静态目录资源

2012年最佳免费网站和移动应用 PSD 界面素材揭晓