python爬取网站图像文件（网络爬虫）

news/2024/5/20 2:47:47/文章来源:https://blog.csdn.net/belongname_/article/details/109690932

一、代码

from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import urllib.request
import threading
def imageSpider(start_url):global threadsglobal counttry:urls=[]req=urllib.request.Request(start_url,headers=headers)data=urllib.request.urlopen(req)data=data.read()dammit=UnicodeDammit(data,["utf-8","gbk"])data=dammit.unicode_markupsoup=BeautifulSoup(data,"html.parser")images=soup.select("img")for image in images:try:src = image["src"]url = urllib.request.urljoin(start_url, src)if url not in urls:print(url)count = count + 1T = threading.Thread(target=download, args=(url, count))T.setDaemon(False)T.start()threads.append(T)except Exception as err:print(err)except Exception as err:print(err)def download(url, count):try:if (url[len(url) - 4] == "."):ext = url[len(url) - 4:]else:ext = ""req = urllib.request.Request(url, headers=headers)data = urllib.request.urlopen(req, timeout=100)data = data.read()fobj = open("images\\" + str(count) + ext, "wb")fobj.write(data)fobj.close()print("downloaded " + str(count) + ext)except Exception as err:print(err)# start_url = "http://www.weather.com.cn/weather/101280601.shtml"
start_url = "https://www.fosu.edu.cn/"headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9pre)Gecko / 2008072421 Minefield / 3.0.2pre"}
count = 0
threads = []
imageSpider(start_url)
for t in threads:t.join()
print("The End")

二、细节补充:

fobj = open("images\\" + str(count) + ext, "wb")

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_837836.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python爬取网站图像文件（网络爬虫）

相关文章

html5 交互性网站,HTML5和CSS3的新交互性盘点：炫酷体验

百度云cdn设置州五年制大专_使用CDN提升网站速度

谷歌翻译影响vue_给自己的网站接入谷歌翻译，以及修复了一个谷歌翻译的一个bug...

mysql迅_soxuncms 搜迅电影系统php版是一套采用PHP+MySQL环境搭建的智能建站，拥有海量片信息， Web Server 266万源代码下载- www.pudn.com...

nginx服务器带宽_如何利用nginx搭建一个简单的文件下载网站？

软件测试：测试一个网站

网站服务器放置地怎么填,域名备案服务器放置地怎么填

使用Apache服务部署静态网站

记一次企业邮官网SEO优化

nginx配合前端实现网站分流 ABtest

懂点网站交互（1）：网站设计准则

spring boot和spring cloud 开发必备工具准备和必备网站导航

懂点网站交互（3）：广告牌设计101法则

VUE项目实践--网站管理系统

【Hexo】如何才能在百度搜索到你的博客？SEO优化了解一下（上）

用python爬取需要cookie信息的网站

wordpress 网站迁移步骤

转 PHP网站从Apache转移到Nginx后产生404错误的原因和解决办法

WordPress 迁移网站以后，后台和首页正常，但是内容页出现404错误

解决使用 YoastSEO 生成的 XML 站点地图报 404 Not Found 的问题