爬虫python学习代码记录3-抓取某电商网站的商品数据

news/2024/5/11 17:53:31/文章来源:https://blog.csdn.net/m0_59179752/article/details/127195352

Python3 爬虫、数据清洗与可视化实战

第4章 大型爬虫案例:抓取某电商网站的商品数据

目录

抓取某电商网站的商品数据

封装代码,提高可读性

写一个程序test.py定时监控运行结果

 爬虫效率优化


抓取某电商网站的商品数据

# 第4章 大型爬虫案例:抓取某电商网站的商品数据
import requests
import urllib
import time
import pymongo# 建立与mongo的连接
client = pymongo.MongoClient('localhost',27017)
# 新建名为travel的数据库
book_travel = client['travel']
# 在travel数据库中新建名为travel_all的表
sheet_travel = book_travel['travel_all']
url = 'https://touch.dujia.qunar.com/depCities.qunar'
strhtml = requests.get(url)
dep_dict = strhtml.json()  # 出发地列表
for dep_item in dep_dict['data']:   # 循环每个首字母for dep in dep_dict['data'][dep_item]: # 循环每个首字母名下的城市a = []              # 储存出发地对应的目的地print(dep)# urllib.request.quote() 将UTF-8转化为URL编码# URL编码:任何特殊的字符(就是那些不是简单的七位ASCII,如汉字)将以百分符%用十六进制编码url = 'https://touch.dujia.qunar.com/golfz/domestic/domesticDest?dep={}' \'&exclude=&extensionImg=255,175'.format(urllib.request.quote(dep))time.sleep(1)strhtml = requests.get(url)arrive_dict = strhtml.json()   # 获取出发地对应的目的地# 对目的地列表去重for arr_item in arrive_dict['data']['originalData']:for arr_item_1 in arr_item['subModules']:for arr_item_2 in arr_item_1['items']:if arr_item_2['query'] not in a:a.append(arr_item_2['query'])for arr_item in arrive_dict['data']['ossData']:for arr_item_1 in arr_item['subModules']:for arr_item_2 in arr_item_1['items']:if arr_item_2['query'] not in a:a.append(arr_item_2['query'])# 确定出发地、目的地,获取目的地景点产品列表for item in a:url = 'https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&' \'dep={}&query={}&dappDealTrace=true&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C' \'&cfrom=zyx&it=dujia_hy_destination&date=&needNoResult=true&' \'originalquery={}&width=480&height=320&quality=90&limit=0,8&includeAD=true&qsact=search' \'&filterTagPlatform=mobile_touch'.format(urllib.request.quote(dep),urllib.request.quote(item),urllib.request.quote(item))time.sleep(1)strhtml = requests.get(url)routeCount = int(strhtml.json()['data']['limit']['routeCount']) #产品数for limit in range(0, routeCount, 20):url = 'https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&' \'dep={}&query={}&dappDealTrace=true&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C' \'&cfrom=zyx&it=dujia_hy_destination&date=&needNoResult=true&' \'originalquery={}&width=480&height=320&quality=90&limit={},8&includeAD=true&qsact=search' \'&filterTagPlatform=mobile_touch'.format(urllib.request.quote(dep), urllib.request.quote(item),urllib.request.quote(item),limit)url = 'https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&' \'dep={}&query={}&dappDealTrace=true&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C' \'&cfrom=zyx&it=dujia_hy_destination&date=&needNoResult=true&' \'originalquery={}&width=480&height=320&quality=90&limit={},8&includeAD=true&qsact=search' \'&filterTagPlatform=mobile_touch'.format(urllib.request.quote(dep), urllib.request.quote(item),urllib.request.quote(item), limit)time.sleep(1)strhtml = requests.get(url)# 将爬取数据储存入mongoresult = {'date': time.strftime('%Y-%m-%d',time.localtime(time.time())),'dep': dep,'arrive': item,'limit': limit,'result': strhtml.json()}sheet_travel.insert_one(result)

效果

封装代码,提高可读性

import requests
import urllib
import time
import pymongo# 建立与mongo的连接
client = pymongo.MongoClient('localhost',27017)
# 新建名为travel的数据库
book_travel = client['travel']
# 在travel数据库中新建名为travel_all的表
sheet_travel = book_travel['travel_all']# 确定出发地、目的地,获取旅游产品列表
def get_list(dep,item):url = 'https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&' \'dep={}&query={}&dappDealTrace=true&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C' \'&cfrom=zyx&it=dujia_hy_destination&date=&needNoResult=true&' \'originalquery={}&width=480&height=320&quality=90&limit=0,8&includeAD=true&qsact=search' \'&filterTagPlatform=mobile_touch'.format(urllib.request.quote(dep), urllib.request.quote(item),urllib.request.quote(item))strhtml = get_json(url)routeCount = int(strhtml['data']['limit']['routeCount'])  # 产品数for limit in range(0, routeCount, 20):url = 'https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&' \'dep={}&query={}&dappDealTrace=true&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C' \'&cfrom=zyx&it=dujia_hy_destination&date=&needNoResult=true&' \'originalquery={}&width=480&height=320&quality=90&limit={},8&includeAD=true&qsact=search' \'&filterTagPlatform=mobile_touch'.format(urllib.request.quote(dep), urllib.request.quote(item),urllib.request.quote(item), limit)url = 'https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&' \'dep={}&query={}&dappDealTrace=true&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C' \'&cfrom=zyx&it=dujia_hy_destination&date=&needNoResult=true&' \'originalquery={}&width=480&height=320&quality=90&limit={},8&includeAD=true&qsact=search' \'&filterTagPlatform=mobile_touch'.format(urllib.request.quote(dep), urllib.request.quote(item),urllib.request.quote(item), limit)strhtml = get_json(url)# 将爬取数据储存入mongoresult = {'date': time.strftime('%Y-%m-%d', time.localtime(time.time())),'dep': dep,'arrive': item,'limit': limit,'result': strhtml}sheet_travel.insert_one(result)print(limit)# 爬虫并延时
def get_json(url):strhtml = requests.get(url)time.sleep(1)return strhtml.json()if __name__ == "__main__":url = 'https://touch.dujia.qunar.com/depCities.qunar'dep_dict = get_json(url) # 出发地列表for dep_item in dep_dict['data']:   # 循环每个首字母for dep in dep_dict['data'][dep_item]: # 循环每个首字母名下的城市a = []              # 储存出发地对应的目的地# urllib.request.quote() 将UTF-8转化为URL编码# URL编码:任何特殊的字符(就是那些不是简单的七位ASCII,如汉字)将以百分符%用十六进制编码url = 'https://touch.dujia.qunar.com/golfz/domestic/domesticDest?dep={}' \'&exclude=&extensionImg=255,175'.format(urllib.request.quote(dep))arrive_dict = get_json(url)  # 获取出发地对应的目的地# 对目的地列表去重for arr_item in arrive_dict['data']['originalData']:for arr_item_1 in arr_item['subModules']:for arr_item_2 in arr_item_1['items']:if arr_item_2['query'] not in a:a.append(arr_item_2['query'])for arr_item in arrive_dict['data']['ossData']:for arr_item_1 in arr_item['subModules']:for arr_item_2 in arr_item_1['items']:if arr_item_2['query'] not in a:a.append(arr_item_2['query'])# 确定出发地、目的地,获取目的地景点产品列表for item in a:get_list(dep,item)

写一个程序test.py定时监控运行结果

from main import sheet_travel
# 注:python不能读取自定义函数里面的对象
import timewhile True:print(sheet_travel.estimated_document_count())time.sleep(10)    # 每10秒监控一次数据库的记录数

同时运行两个程序

效果:

 爬虫效率优化

将爬虫优化成多进程爬虫,以提高效率

主代码main.py

# 第4章 大型爬虫案例:抓取某电商网站的商品数据
import requests
import urllib
import time
import pymongo# 建立与mongo的连接
client = pymongo.MongoClient('localhost',27017)
# 新建名为travel的数据库
book_travel = client['travel']
# 在travel数据库中新建名为travel_all的表
sheet_travel = book_travel['travel_all']# 确定出发地、目的地,获取旅游产品列表
def get_list(dep,item):url = 'https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&' \'dep={}&query={}&dappDealTrace=true&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C' \'&cfrom=zyx&it=dujia_hy_destination&date=&needNoResult=true&' \'originalquery={}&width=480&height=320&quality=90&limit=0,8&includeAD=true&qsact=search' \'&filterTagPlatform=mobile_touch'.format(urllib.request.quote(dep), urllib.request.quote(item),urllib.request.quote(item))strhtml = get_json(url)# 可能出现对应的出发地和目的地没有旅游产品,加上容错处理try:routeCount = int(strhtml['data']['limit']['routeCount'])  # 产品数except:returnfor limit in range(0, routeCount, 20):url = 'https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&' \'dep={}&query={}&dappDealTrace=true&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C' \'&cfrom=zyx&it=dujia_hy_destination&date=&needNoResult=true&' \'originalquery={}&width=480&height=320&quality=90&limit={},8&includeAD=true&qsact=search' \'&filterTagPlatform=mobile_touch'.format(urllib.request.quote(dep), urllib.request.quote(item),urllib.request.quote(item), limit)url = 'https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&' \'dep={}&query={}&dappDealTrace=true&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C' \'&cfrom=zyx&it=dujia_hy_destination&date=&needNoResult=true&' \'originalquery={}&width=480&height=320&quality=90&limit={},8&includeAD=true&qsact=search' \'&filterTagPlatform=mobile_touch'.format(urllib.request.quote(dep), urllib.request.quote(item),urllib.request.quote(item), limit)strhtml = get_json(url)# 将爬取数据储存入mongoresult = {'date': time.strftime('%Y-%m-%d', time.localtime(time.time())),'dep': dep,'arrive': item,'limit': limit,'result': strhtml}sheet_travel.insert_one(result)print(limit)# 爬虫并延时
def get_json(url):strhtml = requests.get(url)time.sleep(1)return strhtml.json()# 主函数 循环每个出发地城市
def get_all_data(dep):a = []              # 储存出发地对应的目的地# urllib.request.quote() 将UTF-8转化为URL编码# URL编码:任何特殊的字符(就是那些不是简单的七位ASCII,如汉字)将以百分符%用十六进制编码url = 'https://touch.dujia.qunar.com/golfz/domestic/domesticDest?dep={}' \'&exclude=&extensionImg=255,175'.format(urllib.request.quote(dep))arrive_dict = get_json(url)  # 获取出发地对应的目的地# 对目的地列表去重for arr_item in arrive_dict['data']['originalData']:for arr_item_1 in arr_item['subModules']:for arr_item_2 in arr_item_1['items']:if arr_item_2['query'] not in a:a.append(arr_item_2['query'])for arr_item in arrive_dict['data']['ossData']:for arr_item_1 in arr_item['subModules']:for arr_item_2 in arr_item_1['items']:if arr_item_2['query'] not in a:a.append(arr_item_2['query'])# 确定出发地、目的地,获取目的地景点产品列表for item in a:get_list(dep,item)# 出发地城市列表
dep_list = '''澳门阿坝州阿克苏地区阿拉尔阿拉善盟此处省略。。。资阳遵义
'''

 mulpool.py 多进程爬虫

from main import get_all_data # 从文件中导入get_all_data函数
from main import dep_list     # 从文件中导入dep_list字符串
from multiprocessing import Poolif __name__ == '__main__':# Pool()可以自定义多进程的数量,不设置时代表默认有多少个CPU就开多少个进程pool = Pool()# pool.map()将第二个参数映射到第一个参数上pool.map(get_all_data, dep_list.split())

效果: 

 

 电脑上有4个逻辑CPU, 比单进程明显速度要快

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_842042.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙os报名入口,鸿蒙os2 0公测版报名链接网站入口

鸿蒙OS2.0现在已经开启了招募活动,在手机中我们可以通过报名的方法来提前体验到这个系统,那么鸿蒙OS2.0公测招募怎么报名吧,下面就来本文中看看鸿蒙OS2.0公测招募报名网址以及报名条件说明介绍吧!鸿蒙OS2.0测试版资格申请网址鸿蒙OS2.0公测招…

太赞了,京东研发一哥力荐的高可用网站构建技术PDF,备好水,慢慢啃

学习是一种基础性的能力。然而,“吾生也有涯,而知也无涯。”,如果学习不注意方法,则会“以有涯随无涯,殆矣”。 学习就像吃饭睡觉一样,是人的一种本能,人人都有学习的能力。我们在刚出生的时候…

终于拿到了2022阿里技术专家分享的552页大型网站架构实战PDF文档

说在前面 在笔者职业生涯的开端,曾参与了一个合同额每年亿元级的软件项目。 该项目有一个独特的架构,可以让开发人员近似千人一面地完成开发工作,加之该项目有严谨的项目管理流程,使得它迭代十几年至今。 之后参与了一个不太成…

随手记:发布网站时报错;文件创建完第一次无法写入数据

一、Asp.Net网站生成没问题,发布时报错:未能获得项目引用“XXX”的依赖项 解决方案:配置改成“Debug-any cpu” 补充:如果使用Release-any cpu,需要检查相关联的项目中Release文件夹中,可能缺少相关联的dll…

京东技术负责人纯手写:小团队构建大网站中小研发团队架构实战

本书结合作者近几年的工作经验,总结了一套可直接落地、基于开源、成本低、可快速搭建的中小研发团队架构实践方法。本书共5篇22章,开篇是本书的导读;架构篇是设计思想的提升,包括企业总体架构、应用架构设计、统- -应用分层等;框架篇主讲中间…

phpcms实现mysql读写分离_五指CMS(wuzhicms)开源网站管理系统 v4.1.0 简体中文 UTF8 正式版...

五指CMS(wuzhicms)开源网站管理系统简介五指cms由原phpcms V9 负责人王参加主导开发,前后台界面采用html5css3技术,可以进行跨屏、跨设备管理内容,极大的提升了用户体验。五指CMS(wuzhicms)开源网站管理系统功能特点描述模型化设计&#xff1…

一些Java技术相关的博客,专栏,和技术学习网站推荐?

推荐两个视频学习网站 慕课网 第一个推荐的学习网站应该是慕课网(慕课网私聊我打钱哈!),在我初学的时候,这个网站对我的帮助挺大的,里面有很多免费的课程,也有很多付费的课程。如果你没有特殊…

Chrome浏览器安装插件提示“无法从该网站添加应用,拓展程序或脚本”解决办法

新版的Chrome,只可以在官方商店中安装扩展。 准确的说,从主版本号67开始,以后所有版本的Chrome,都无法安装离线插件。 查看chrome版本的方法,在chrome地址栏,输入chrome://version/,回车就能查…

如何解决电商网站超卖现象

所谓超卖现象举例:比如某商品的库存为1,此时用户1和用户2并发购买该商品,用户1提交订单后该商品的库存被修改为0,而此时用户2并不知道的情况下提交订单,该商品的库存再次被修改为-1这就是超卖现象。 究其深层原因&…

Cisco官方网站悄然换标

10月2日,就在所有中国人欢度国庆佳节之际,可能是思科(cisco)历史上最大的市场活动悄然启动。就在今天,51cto.com记者发现,思科网站全面改版!其实,改版的内容不大,主要就是logo的改变。记者发现&…

CYQ.IIS 下载中心[ASP.NET 本地运行网站无需要安装IIS]

CYQ.IIS(QBlog-IIS.exe) 下载中心: 简介:CYQ.IIS(QBlog-IIS.exe) 是由一款改造自开源的CassiniServer的本地IIS运行程序,使用它可以无需要安装IIS,直接运行ASP.NET网站。 使用说明: PS&#xf…

BestSync同步软件使用指南 - FTP自动备份网站数据[转]

文/china#risefly.com 网站数据备份无疑是站长们的一个头疼问题,如服务器损坏,黑客攻击等造成数据损失无疑是一场灾难,那么如何能够安全,定时的把站点自动备份呢? 本文旨在教您如何通过BestSync同步软件,设…

今天需要部署.Net 4的网站提示 Service Unavailable

某Windows 2003服务器,装有IIS6,未安装过.Net Framework 4。今天需要部署.Net 4的网站,于是安装.Net Framework 4。 安装过程一切顺利,安装完成之后现有的几个网站就都无法访问了,提示 Service Unavailable。查看系统日…

iis 6.0上部署.net 2.0和4.0网站

网站环境 IIS6.0,操作系统Windows server2003 sp2,服务器之前已经部署了.net 2.0和asp的网站,现在要部署新开发的.net 4.0网站. 大体部署流程如下: 1.官网下载.net framework4.0,下载地址: http://www.microsoft.com/zh-cn/download/details.aspx?id17718,下载后安…

在IIS7.5中部署PHP网站报错:无法在fastCGI应用程序配置中找到handler scriptProcessor

1&#xff1a;在IIS7.5中部署PHP网站报错&#xff1a;无法在<fastCGI>应用程序配置中找到<handler> scriptProcessor 解决方案&#xff1a;1&#xff09;拷贝PHP必备的应用程序和扩展DLL(复制2个文件夹php和phptmp)2&#xff09;配置好php.ini文件的路径&#xff1…

齐博门户网站:解决百度ueditor支持iframe框架页面的视频播放问题

新下载的ueditor 增加了xss 安全过虑&#xff0c;把iframe过滤了&#xff0c;导致发表的文章包含的视频播放功能被限制了。 说明&#xff1a;新版本ueditor要修改 xss过滤白名单 修改配置文件ueditor.config.js 搜索: whitList 增加下面第二行即可 123,whitList:{iframe: [f…

在宝塔Windows面板中部署PHP网站遇到的问题及解决方法

问题一:404错误:此错误(HTTP 404 未找到) windows 2008R2 截图: windows 2012R2截图(估计是自动做了跳转) 将端口80 改为8001(端口80被IIS占用了,所以报404错误),http://127.0.0.1:8001/index_info.php 或 http://chenxi58.cn:8001/index_info.php, 均能正常打开,由…

禅道 windows 更换网站目录遇到的错误

禅道 windows 更换网站目录遇到的错误&#xff1a; 404 Not Found error was encountered while trying to use an ErrorDocument to handle the 这一个问题弄了1个小时&#xff0c;有点不值&#xff0c;现在分享下解决方案&#xff1a; 解决方案&#xff1a; 网站目录&#xf…

高性能建站之前端优化篇

前言&#xff1a; 这算是对前端优化的总结吧&#xff0c;之前零零星星总结和学习&#xff0c;这次做一个完整的总结。 测试网页性能工具 ⑴Page Speed&#xff1a; 谷歌开发的工具&#xff0c;网站管理员和网络开发人员可以使用 Page Speed 来评估他们网页的性能&#xff0c;并…

记录搭建网站的经历

目录 ​ 网站创建 网站备案 博客搭建 ssl证书部署 网站创建 在运营商买台服务器 我在腾讯云买的轻量级应用服务器 然后进入宝塔后台页面 这是我自己注册的域名 域名要做解析 在刚开始进页面会给你推荐安装LNMP和LAMP&#xff08;根据个人需要安装&#xff09; 在宝塔搭建…