python 抓取接口数据 ————网站图片---ajax链接地址图片 爬京东图片

news/2024/5/20 5:11:16/文章来源:https://blog.csdn.net/ruiti/article/details/85048811

网站页面分为静态页面和动态页面,动态页面有分很多类,本篇主要是抓取的京东的https://miaosha.jd.com/category.html?cate_id=19链接(为什么不抓淘宝,因为淘宝做了些验证措施,如果验证未通过,跳转登录页面,有跳过验证的文章可以分享给我(* ̄︶ ̄))京东店的页面是通过ajax请求,然后渲染页面

打开页面通过network 查看接口,可以看到一个接口https://ai.jd.com/index_new?app=Seckill&action=pcSeckillCategoryGoods&callback=pcSeckillCategoryGoods&id=19&_=1545027708656

返回的数据应该是主要数据。

接下来就是通过这个接口来取其中的图片

直接贴代码,代码很详细

import requests
from bs4 import BeautifulSoup
import urllib
import json
import os
#下载功能
def download(img_url,headers):req = requests.get("http:"+img_url, headers=headers)name = img_urlname=name.replace("/","\\")#因为的是window,把/换成\path = r'C:'#s设置一个底层路径file_name = path  + nameindexa=file_name.rfind('\\')print(indexa)#print(file_name.rfind("\\"))#print(file_name)print(type(file_name));filepath=file_name[0:indexa+1];print(filepath);print(os.path.exists(filepath))if(os.path.exists(filepath)):#判断文件路径是否存在如果不存在就穿件文件路径在写入print("true11");f = open(file_name, 'wb')f.write(req.content)else:os.makedirs(filepath);print(os.path.exists(filepath));if(os.path.exists(filepath)):print(filepath);f = open(file_name, 'wb')f.write(req.content)f.close#打开一个文件准备上传
def writeIn(txtfile,contain):try:#if(os.path.exists(txtfile)):fobj=open(txtfile,'w') #打开txtFile文件此处   w:      直接打开一个文件,如果文件不存在则创建文件               # 这里的a意思是追加,这样在加了之后就不会覆盖掉源文件中的内容,如果是w则会覆盖。a:以追加模式打开 (从 EOF 开始, 必要时创建新文件)#else:# os.makedirs(txtfile);except IOError:print ('*** file open error create')else:fobj.write(contain)fobj.close()print ("注入数据结束");response = urllib.request.urlopen('https://ai.jd.com/index_new?app=Seckill&action=pcSeckillCategoryGoods&callback=pcSeckillCategoryGoods&id=19&_=1545016559723')
#print(response.read());
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}aaajson=response.read();#读取数据
result=str(aaajson, encoding = "utf-8")#转utf-8
resultJsonStr=result[23:(result.rfind(')'))]#由于请求到的数据是pcSeckillCategoryGoods(json)的格式需要把pcSeckillCategoryGoods(和)去掉
print(resultJsonStr[0:110])#看数据截取头部{
print(resultJsonStr[len(resultJsonStr)-100:len(resultJsonStr)])#看数据截取尾部是否正确}resultJsonDict=json.loads(resultJsonStr)## 对数据进行解码
print(type(resultJsonDict))#<class 'dict'>字典类型
resultJsonList=resultJsonDict['goodsList'];
print(type(resultJsonList))#<class 'list'>
print(resultJsonList[0]);#打印第一个数据
"""
{'sourceValue': '13325860722_抢购中_1',
'wname': '【次日达包邮 充电款】Meilen电子秤称重人体秤精准电子称家用计体重秤 USB充电版黑色',
'miaoSha': 'true', 'isNewGoods': 0, 'startRemainTime': -6173,
'spuId': '10462747607', 'seckillNum': '2000', 'jdPrice': '99', 'soldRate': 34, 'startTimeContent': '', 'endTime': 1545098399000,
'brandId': 0, 'startTimeShow': '10:00', 'promotionId': '15477982159', 'startTime': 1545012000000, 'tagType': None, 'miaoShaPrice': '49',
'endRemainTime': 80226, 'tagText': None, 'startTimeMills': 1545012000000,
'imageurl': '//m.360buyimg.com/mobilecms/s210x210_jfs/t26761/196/2461771515/54423/90816f8b/5c02334eNc57d565d.jpg!q70.jpg',
'wareId': '13325860722', 'almostSoldoutViewUser': 1}
"""""" 将json保存到文件中"""writeIn("jsonfile.json",str(resultJsonList));#将数据保存
""" json保存结束"""
print(resultJsonList[10]["imageurl"]);#打印图片地址数据
for i in range(0,len(resultJsonList)-1):imgUrl=resultJsonList[i]["imageurl"]#if(i==10):#测试使用#print(imgUrl)#download(imgUrl,headers);download(imgUrl,headers);print("结束")

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_835238.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

红言梦语 读红楼梦所记网站

打卡 主要内容是网页布局&#xff0c; **应用小思路&#xff1a;**一个关于红楼梦的一些读后片段摘要和古词查阅结果的网站。一起看看吧&#xff01; 简单说一下制作过程 首先这个布局是学习网站上有&#xff0c;链接在这里— link. &#xff08;这个布局可以自适应页面大小…

使用Nginx如何发布一个网站,以及相关配置,Nginx静态资源404报错

如果你觉得文章帮不到你&#xff0c;请直接评论你的要求&#xff0c;想做一个持续输出的博主 前言:最近找了一个博客的前端模板&#xff0c;发布了一个网站。请求后端数据&#xff0c;配置域名&#xff0c;发现坑还是挺多的&#xff0c;帮大家总结一下吧。 Nginx的几个重要的目…

Apache网站首页全面改版

Apache 软件基金会&#xff08;也就是Apache Software Foundation&#xff0c;简称为ASF&#xff09;&#xff0c;是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中&#xff0c;所发行的软件产品都 遵循Apache许可证&#xff08;Apache Lice…

eweb使用WINDOWS的“备份”工具对网站内容自动备份editor for php任意文件上传漏洞...

前言&#xff1a;一些重要的WEB、FTP、EMAIL等网站&#xff0c;内容很重要&#xff0c;一旦服务器硬盘损坏&#xff0c;数据在恢复时有时很困难&#xff0c;所以作为网站管理员对网站内容的备份工作就十分重要&#xff0c;一些中小型网站&#xff0c;在不投入费用的情况下&…

8月第三周B2B类网站排名:中国供应商升至第四

中国IDC评述网08月24日报道&#xff1a;近日&#xff0c;根据国际统计机构Alexa公布的最新数据显示&#xff0c;8月第三周&#xff08;2012-8-13至2012-8-19&#xff09;&#xff0c;我国B2B类网站排名中&#xff0c;阿里巴巴以9370的用户覆盖数持续稳居第一&#xff0c;慧聪网…

2012年最佳免费网站和移动应用 PSD 界面素材揭晓

眨眼间&#xff0c;2012年又要过去了&#xff0c;长期关注 WDL 的朋友都知道&#xff0c;每到年末&#xff0c;WDL 将发布一系列本年度 Web 开发和设计领域的最佳资源。今天这篇文章与大家一起分享这一年来设计师们分享的最佳免费 PSD 用户界面素材&#xff0c;包含滑块、表单、…

阿里云的服务器,自己的网站申请免费的https证书

首先 你要有个服务器你要有个域名你有一个可以访问的网站内容申请免费的证书 打开页面如下操作 按照要求填写信息,列表会显示,然后点击申请,等待一点时间就完成审核了。 接着可以下载对应的文件。我这里下载的是nginx版本的。 在nginx中的配置 server {listen 443 ssl;…

时间戳引起的网站访问不了的问题

2019独角兽企业重金招聘Python工程师标准>>> 针对有些用户能ping通我们的网站&#xff0c;但是连接时超时服务器没有任何响应&#xff0c;怀疑问题处在了了http的三次握手环节&#xff0c;这是决定通过抓包进行分析&#xff1a; 1、发现问题 从抓包数据发现&#…

亿级流量网站架构核心技术_完美!京东资深架构师爆肝纯手打700页架构进阶宝典我粉了...

前言在这个大家热议的人工智能时代&#xff0c;也使我们有了更多的反思&#xff0c;其实在这些热点议题的背后&#xff0c;一些基础架构与底层系统技术的发展与实现或许更加务实和接地气一些&#xff0c;同时产业界也需要有更坚实的基础架构与底层系统技术来支撑日益增长的庞大…

krpano全球漫游相同的声音和声音添加的场景(文章内容已移至krpano中国网站)...

请关注微信订阅号 krpano 需求&#xff1a; 背景音乐须要一直播放。不管切换场景与否&#xff0c;同一时候循环播放。另外每一个场景都有自己的声音&#xff08;讲解词&#xff09;。 文章内容搬迁到 krpano中文网 请点击链接继续阅读 . 技术支持与需求&#xff1a; 请联系 Q…

JSP+Servlet实现的一个图片分享网站1_创建javaweb项目

文章目录环境要求使用intellij新建并配置项目目录结构理解**关于artifact**环境要求 jdk&#xff0c;tomcat&#xff0c;mysql 使用intellij新建并配置项目 不同intellij的版本可能会有一些差别&#xff0c;所以我就写一下大致步骤和这个步骤的目的和作用&#xff0c;具体教…

JSP+Servlet实现的一个图片分享网站2_使用数据库

文章目录使用可视化工具设计数据表连接数据库操作数据库使用可视化工具 首先要下载mysql&#xff0c;网上也有很详细的教程。 由于我对数据库的各种命令不太熟悉&#xff0c;所以就使用了可视化工具Navicat&#xff0c;新建表、设置外键等关系都比较方便。在连接的时候记得要…

JSP+Servlet实现的一个图片分享网站3_登录注册功能(含验证码和加密功能)

文章目录前言视图&#xff08;view&#xff09;控制器&#xff08;controller&#xff09;模型&#xff08;model&#xff09;我的理解前言 MVC模型是整个项目都采用的一个思想&#xff0c;但是直接讲概念容易知其然不知其所以然&#xff0c;所以就结合这个简单的功能来谈谈我…

阿里云系列——5.网站云解析快速配置(简单+免费+详细+最新)

&#xff08;又称&#xff1a;域名&#xff0c;主机&#xff0c;备案都配置好了&#xff0c;就是不能访问网站的解决方案--1.解析问题&#xff09; 网站部署之~阿里云系列汇总 http://www.cnblogs.com/dunitian/p/4958462.html 直接访问网站发现> 进入管理页面&#xff1a;h…

JSP+Servlet实现的一个图片分享网站7_模糊搜索

文章目录实现功能思路代码实现功能 最基础的搜索功能就是包含连续的搜索框中的值&#xff0c;这个可以用mysql的LIKE很容易实现。但是更高级的模糊搜索应该是可以不连续的包含并且有一定的容错率。 我的搜索功能分为按照标题搜索和按照主题搜索&#xff0c;并且搜索结果可以根…

大型网站架构

大型网站的挑战主要来自庞大的用户&#xff0c;高并发的访问和海量数据&#xff0c;任何简单的业务一旦需要处理数以P计的数据和面对数以亿计的用户&#xff0c;问题就会变得棘手。大型网站架构主要就是解决这类问题。本文内容大部分来自《大型网站技术架构》&#xff0c;这本书…

使用IntelliJ IDEA开发SpringMVC网站(五)博客文章管理

2019独角兽企业重金招聘Python工程师标准>>> 转载请注明出处&#xff1a;Gaussic 。 注&#xff1a;在阅读本文前&#xff0c;请先阅读&#xff1a; 使用IntelliJ IDEA开发SpringMVC网站&#xff08;一&#xff09;开发环境 使用IntelliJ IDEA开发SpringMVC网站&…

cad2008加载 et拓展工具_超好用的SEO工具盘点!外贸推广人员必备

对于许多企业来说&#xff0c;要想取得业务上的成功&#xff0c;要先学会整合各方优质资源为自己助力。而一款好用的工具&#xff0c;不仅能提升效率和提供便利&#xff0c;更能在市场策略上提供必要的数据支持和方向指导。那么对于出海企业来说&#xff0c;到底有哪些工具可以…

wolive-在线客服系统源码_网站在线客服系统功能有哪些呢?

随着互联网的时代到来&#xff0c;最近两年出来的网站在线客服系统日益增加&#xff0c;企业实现网站客服的方式越来越多。网站在线客服是以网站为载体&#xff0c;然后再接入在线客服系统从而提供客服服务。所以想知道网站在线客服系统功能有哪些吗&#xff1f;网站在线客服系…

牛逼的网站

2019独角兽企业重金招聘Python工程师标准>>> 图表展示 石油 http://www.gsmlondon.ac.uk/ 漂亮的模版 个人简历 http://mjarosz.com/ 智能家居服务 http://coolsetup.com/ 活动组织官网 http://encounterfestival.no/ 模版库 http://designmodo.com/ 转载于:https:/…