python利用urllib实现的爬取京东网站商品图片的爬虫

news/2024/5/9 16:46:26/文章来源:https://blog.csdn.net/weixin_30522095/article/details/95653764

本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码!

 1 # -*- coding: utf-8 -*
 2 import re
 3 import os
 4 import urllib
 5 import urllib2
 6 from bs4 import BeautifulSoup
 7 def craw(url,page):
 8     html1=urllib2.urlopen(url).read()
 9     html1=str(html1)
10     soup=BeautifulSoup(html1,'lxml')
11     imagelist=soup.select('#J_goodsList > ul > li > div > div.p-img > a > img')
12     namelist=soup.select('#J_goodsList > ul > li > div > div.p-name > a > em')
13     #pricelist=soup.select('#plist > ul > li > div > div.p-price > strong')
14     #print pricelist
15     path = "E:/{}/".format(str(goods))
16     if not os.path.exists(path):
17         os.mkdir(path)
18     for (imageurl,name) in zip(imagelist,namelist):
19         name=name.get_text()
20         imagename=path + name  +".jpg"
21         imgurl="http:"+str(imageurl.get('data-lazy-img'))
22         if imgurl == 'http:None':
23             imgurl = "http:" + str(imageurl.get('src'))
24         try:
25             urllib.urlretrieve(imgurl,filename=imagename)
26         except:
27             continue
28 
29 '''
30 #J_goodsList > ul > li:nth-child(1) > div > div.p-img > a > img
31 #plist > ul > li:nth-child(1) > div > div.p-name.p-name-type3 > a > em
32 #plist > ul > li:nth-child(1) > div > div.p-price > strong:nth-child(1) > i
33 '''
34 
35 if __name__ == "__main__":
36     goods=raw_input('please input the goos you want:')
37     pages=input('please input the pages you want:')
38     count =0.0
39     for i in range(1,int(pages+1),2):
40         url="https://search.jd.com/Search?keyword={}&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.T06&wq=diann&page={}".format(str(goods),str(i))
41         craw(url,i)
42         count += 1
43         print 'work completed {:.2f}%'.format(count/int(pages)*100)

 

图片的命名为商品的名称,京东商品图片地址的属性很可能会有所变动,所以大家进行编写的时候应该举一反三,灵活运用! 
这是我下载下来的手机类图片文件的截图: 
这里写图片描述
我本地的爬取的速度很快,不到一分钟就能爬取100页上千个商品的图片!

转载于:https://www.cnblogs.com/kfpa/p/7418843.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_783082.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

卧槽,这才是最强Python刷题网站

大家好,最近经常有粉丝问零基础/基础薄弱,要怎么开始学习python,今天来给大家分享一些python的学习方法,先给大家推荐一个粉丝反馈用起来不错的免费python学习&练习网站 https://www.nowcoder.com/link/pc_gzh_maishubc_pytho…

基于Elasticsearch构建网站日志处理系统

真正的大师,永远都怀着一颗学徒的心! 一、项目简介 基于Elasticsearch构建网站日志处理系统 二、实现功能 支持ElasticsearchTemplate模板插入了20万条数据,耗时60s 支持快速搜索 支持x-park监控 支持用户管理 支持redis日志队列 支持kafka日志队…

基于Elasticsearch构建网站日志处理系统

真正的大师,永远都怀着一颗学徒的心! 一、项目简介 基于Elasticsearch构建网站日志处理系统 二、实现功能 支持ElasticsearchTemplate模板插入了20万条数据,耗时60s 支持快速搜索 支持x-park监控 支持用户管理 支持redis日志队列 支持kafka日志队…

[原创]Python+selenium+Chrome爬取excel网站

最近要写一个水利网站的爬虫脚本,将网页中2个excel的数据,爬到一个excel表里 恩,就是下面的网页截图,一左一右两张表。左边日期控件,输入对应日期查询相应日期的数据。 看到这么简单的网页,真是好开心&…

机器学习读书笔记(二)使用k-近邻算法改进约会网站的配对效果

一、背景 海伦女士一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的任选,但她并不是喜欢每一个人。经过一番总结,她发现自己交往过的人可以进行如下分类 不喜欢的人魅力一般的人极具魅力的人海伦收集约会数据已经有了一段时间&…

程序员最佳网站

https://zhuanlan.zhihu.com/p/38034296 Linux中国 ​ 已认证的官方帐号 作为程序员,你经常会发现自己是某些网站的永久访问者。它们可以是教程、参考或论坛。因此,在这篇文章中,让我们看看给程序员的最佳网站。 W3Schools W3Schools 是…

站长、运维必备| 网站可用性监控产品 OneAPM Cloud Test 上线

白天太忙,到了晚上才发现网站一天都没有访问量? 直到有用户投诉才发现网站完全无法访问? 还要每月付费才能及时了解网站可用情况? 监控频率太低,不能及时发现网站不可用? 第三方服务宕机,导…

是谁拖了网站访问速度的「后腿」 ?

对做前端开发的同学来说,请求排队、网络、Web 应用程序、页面加载、资源下载这些针对网站的性能指标是很熟悉的。对白屏时间、首屏时间、页面加载完成时间、资源下载完成时间以及整页时间这些性能指标也不算陌生。 但是这10个指标分别都是什么意思?跟网…

高流量网站如何做出高性能?

前一段时间接触了一个教育集团的老总,集团本身是在教育实体化阶段也就是各种教科书盛行的时候起来的,最近 10 年互联网教育越来越火,老板也瞅准商机跳了进来。 可是公司的在线教育板块一直不温不火没有什么起色,Google Analytics…

网站性能优化— WebP 全方位介绍

谈到优化网站性能时,主要目标之一就是减少要发送到浏览器的数据量(即 payload)。而当前,图片通常是页面构成中最耗费流量的部分,因此降低图片的大小是一个最为有效的优化网页前端性能的办法。 有很多工具可以压缩图像…

提升网站用户体验—WebP 图片的高效使用

一.WebP 的由来 现代图像压缩技术对我们的生活方式影响很大。数码相机能将上千张高质量图片存储到一张内存卡里、智能手机可以与邻近设备快速分享高分辨率的图片、网站与手机等移动设备能快速展示各种富媒体。 然而,如果图片只能以最原始的格式进行存储的话&#…

如何快速发现网站恶意镜像与网页劫持?

本文作为一篇软文,没错,就是软文,主要目的是宣传产品(太直接了是不是不太好),但是小编保证,本文所说的皆为事实,可作为呈堂证供~! 互联网时代下,每个网站最看…

网站页面优化必然趋势—WebP 图片!

本文梗概:众所周知,浏览器可以通过 HTTP 请求的 Accpet 属性 来指定接收的内容类型。依靠这个技术,可以在不修改任何 HTML/CSS 或者图片的情况下,向浏览器提供优化的图片,从而降低带宽消耗,提高页面加载速度…

旅游移动端网站—慢!慢!慢!

一.前言 随着智能手机和数据网络的不断普及,真正的「移动互联网」的世界必然到来,无论是学生还是工作者,无论是旅行规划时还是旅游途中,使用智能手机进行搜索,应对途中的各种突发请款,这种趋势依然不可避免…

Wordpress 网站搭建及性能监控方法详解!

前言 说到 Wordpress,大家往往想到的是博客,其实,如今的 WordPress 已经成为全球使用量最多的开源 CMS 系统。并且,如果你有一定的技术基础稍加改动,就可以搭建出新闻网站、企业网站、电影网站,甚至是商城…

欺诈网站都注重用户体验!你,还在等什么?!

一.背景介绍 小编是北京 OneAPM 公司 Browser Insight(后文称 Bi)的运营人员,这款产品主要用处是针对网站前端页面进行性能优化,以提升用户体验,所以每天小编都要做很多运营工作,例如:写文章&a…

网站安全:你面临2个至关重要的挑战!

近期的 NAGW(National Association of Government Web Professionals)会议让笔者收获颇深。该会议旨在通过聚集来自联邦/州/地方市政府网络专家来探讨可能存在的领域内机构、教育以及合作。而通过本次会议,笔者不仅了解到了政府在相关方面的动…

网站安全:你面临2个至关重要的挑战!

近期的 NAGW(National Association of Government Web Professionals)会议让笔者收获颇深。该会议旨在通过聚集来自联邦/州/地方市政府网络专家来探讨可能存在的领域内机构、教育以及合作。而通过本次会议,笔者不仅了解到了政府在相关方面的动…

2016全球排名前50的博客网站性能

【编者按】本文由 Royal Pingdom 博客首发,主要介绍其测得的全球排名前50博客的网站性能。文章系国内 ITOM 管理平台 OneAPM 编译呈现。 在Royal Pingdom博客,我们喜欢测评和分析网站的性能。现在,是时候重新评测全球排名前50博客的网站性能…

网站经常崩溃,企业应该如何做好监控?

近些年,我们的生活因互联网发生了翻天覆地的改变。从搜索引擎到即时通讯,从电子购物再到文化娱乐,从吃饭住宿到旅游出行,互联网已经渗透到我们生活的方方面面。但网站、应用崩溃的事情似乎每天都在发生,而且节假日发生…