Python爬虫---scrapy框架---下载嵌套数据

news/2024/7/27 8:37:59/文章来源:https://blog.csdn.net/weixin_52053631/article/details/135637816

./spider/movie.py文件

import scrapy
from scrapy_movie_20240116.items import ScrapyMovie20240116Itemclass MovieSpider(scrapy.Spider):name = "movie"# 如果是多页下载的话, 那么必须要调整的是allowed_domains的范围 一般情况下只写城名allowed_domains = ["dy2018.com"]start_urls = ["https://dy2018.com/html/tv/hytv/index.html"]def parse(self, response):# 获取第一页名字和第二页图片a_list = response.xpath("//div[@class='co_content8']//td[2]//a")  # xpath语法for a in a_list:# extract_first()  从某个数据结构中提取第一个元素# 获取第一页的name 和 要点击的链接name = a.xpath("./text()").extract_first()href = a.xpath("./@href").extract_first()# 第2页的地址是:url = "https://dy2018.com" + href# 对第二页的链接发起访问# scrapy.Request就是scrpay的get请求 url就是请求地址# callback是你要执行的那个函数注意不需要加()# meta 把这个方法的name传到parse_second方法中yield scrapy.Request(url=url, callback=self.parse_second, meta={'name': name})def parse_second(self, response):# 获取第2页的图片src = response.xpath("//div[@id='Zoom']/img/@src").extract_first()    # xpath语法# 接受到请求的那个meta参数的值name = response.meta["name"]# 将爬取的数据放在对象里movie = ScrapyMovie20240116Item(src=src, name=name)# 获取一个movie 将movie交给pipelines，将对象放在管道里yield movie

items.py文件

import scrapyclass ScrapyMovie20240116Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# 通俗的说就是你要下载的数据都有什么name = scrapy.Field()src = scrapy.Field()

pipelines.py文件

class ScrapyMovie20240116Pipeline:# 在爬虫文件开始之前就执行的方法def open_spider(self, spider):self.fp = open("movie.json", "w", encoding="utf-8")def process_item(self, item, spider):self.fp.write(str(item))return item# 在爬虫文件开始之后就执行的方法def close_spider(self,spider):self.fp.close()

settings.py文件：

# 开启管道
ITEM_PIPELINES = {"scrapy_movie_20240116.pipelines.ScrapyMovie20240116Pipeline": 300,
}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_925645.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Python爬虫---scrapy框架---下载嵌套数据

相关文章

不同打包工具下的环境变量配置方式对比

excel统计分析——Sidak、Bonferroni法多重比较

多输入多输出 | Matlab实现基于LightGBM多输入多输出预测

【目标检测实验系列】YOLOv5模型改进：融入坐标注意力机制CA，多维度关注数据特征，高效涨点！（内含源代码，超详细改进代码流程）

【2023 我的编程之旅】

机器学习---xgboost算法

STM32——ADC知识总结及多通道采样实验

【征服redis1】基础数据类型详解和应用案例

使用composer生成的DMG和PKG格式软件包有何区别

科研绘图（八）线性热图

InternLM第5次课笔记

Spring Security-查询数据库认证

AIGC ChatGPT 4 Prompt 万能提示词公式

AI大模型预先学习笔记一：transformer和fine tune技术介绍

Android中的SPI实现

使用micro-app将现有项目改造成微前端，对现有项目实现增量升级

Nacos和Eureka比较、统一配置管理、Nacos热更新、多环境配置共享、Nacos集群搭建步骤

SpringCloud 源码系列之全局 Fegin 日志收集（okHttpClient、httpClient）

Python爬虫---scrapy shell 调试

【QT】自定义对话框及其调用