python多页网站目录_2:url有规律的多页面爬取

news/2024/5/18 0:26:34/文章来源:https://blog.csdn.net/weixin_39852491/article/details/110064006

举例网站:http://www.luoo.net/music/期刊号

e.g:http://www.luoo.net/music/760

802718-20151025125429239-77998895.jpg

打算爬取其title:Hello World;pic;desc:本期音乐为......《8-bit Love》。

步骤:

1):建立项目

在shell中你对应的目录下:scrapy startproject luoo

在pycharm中打开luoo文件夹

2):编写items.py

1 importscrapy2 classLuooItem(scrapy.Item):3 url =scrapy.Field()4 title =scrapy.Field()5 pic =scrapy.Field()6 desc = scrapy.Field()

3):编写spider

在spiders文件夹下建立luoospider.py

1 importscrapy2 from luoo.items importLuooItem3

4 classLuooSpider(scrapy.Spider):5 name = "luoo"

6 allowed_domains = ["luoo.net"]7 start_urls =[]8 for i in range(750,763):9 url = 'http://www.luoo.net/music/%s'%(str(i))10 start_urls.append(url)11

12 defparse(self, response):13 item =LuooItem()14 item['url'] =response.url15 item['title'] = response.xpath('//span[@class="vol-title"]/text()').extract()16 item['pic'] = response.xpath('//img[@class="vol-cover"]/@src').extract()17 item['desc'] = response.xpath('//div[@class="vol-desc"]/text()').extract()18 return item

4)pipelines.py不动

5)在command中进入luoo目录

scrapy list 列出可用的爬虫(luoo)

scrapy crawl luoo -o result.csv(执行爬虫并且以result.csv保存到当前目录下)

6)用notepad++打开result.py并且更改格式为ANSI后保存,再用excel打开就不会有乱码了

*遗留to do:

1)数据考虑后期迁移到mysql数据库

2)单独把图片保存到图片格式的文件夹中

memory:顺便附上两个月前用urllib库实现的此功能代码(python3.4)

现在看看用scrapy真的是方便太多了,更别提其牛逼呼呼的可扩展性:

1 importurllib.request2 importre3 importtime4

5 defopenurl(urls):6 htmls=[]7 for url inurls:8 req=urllib.request.Request(url)9 req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.107 Safari/537.36')10 #Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0

11 response =urllib.request.urlopen(url)12 htmls.append(response.read())13 time.sleep(5)14 returnhtmls15

16 defjiexi(htmls):17 pics=[]18 titles=[]19 contents=[]20 for html inhtmls:21 html = html.decode('utf-8')22 pics.append(re.findall('

.*?(.*?)',html,re.S))24 contents.append(re.findall('.*?(.*?)
',html,re.S))25

26 i =len(titles)27 with open('C:\\Users\\Administrator\\Desktop\\test.txt', 'w') as f:28 for x inrange(i):29 print("正在下载期刊:%d" %(746-x))30 f.write("期刊名:"+str(titles[x])[2:-2]+"\n")31 f.write("图片链接:"+str(pics[x])[2:-2]+".jpg\n")32 content = str(contents[x])[4:-2]33 content.strip()34 print(content.count("""
\n"""))35 content.replace("""
\n""","#")36 f.write("配诗:"+content+"\n\n\n")37

38

39 yur='http://www.luoo.net/music/'

40 urls =[]41 for i in range(657,659):42 urls.append(yur +str(i))43

44 htmls =openurl(urls)45 pics = jiexi(htmls)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_715248.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ASP.NET网站入侵第三波(fineui系统漏洞,可导致被拖库)

注:屏蔽本漏洞的紧急通知:http://fineui.com/bbs/forum.php?modviewthread&tid7863 本人小学文化,文采不好,写的不好请各位多多包含, 最近笔者喜欢研究一些代码安全方面的问题,前些日子研究了下力软的…

html网页内容和打印预览不同_分享8款网站开发中最好用的打印页面插件

通常浏览器是通过打印命令来确定需要打印的内容,但它可以在 jQuery 插件打印页面插件的帮助下打印一个特定区域的内容。因此,可以使用这些 jQuery 插件和打印页面给用户在你的网站上所需的接口。1.PrintAreaPrintArea是一个jQuery插件打印指定的页面积。…

python制作一个二位码链接网站_如何用Python搭建股票、期货、数字货币开源本地化量化研究环境? | 零基础入门量化新手指南...

来源 | Fintech独角兽作者 | sniper原文章链接:https://mp.weixin.qq.com/s/0wUNtp6yqXbK6ft6xiL_bw欢迎关注我们!0 1 用Python搭建开源本地化的股票量化研究环境所需环境:Anaconda3Alphalens简介:Alphalens 是一款 Python 的工具…

快照速度_网络推广期间发现网站快照更新过慢会影响正常网络推广吗?

针对搜索引擎对网站快照更新的问题之前就有过分析,其实网站快照更新的快慢与网站权重没有直接影响关系,因为蜘蛛爬虫抓取和网站快照更新分属两个不同的概念。如果网站快照更新比较慢很可能是因为网站内部出现问题,建议站长从网站内部寻找更新…

建站须知

什么是域名? 域名是INTERNET上用来寻找网站所用的名字,相当于主机的门牌号码。 网址:http://www.baidu.com 域名:baidu.com 超文本传输协议:http 万维网:www 什么是空间? 空间是我们存放网站文件…

linux宝塔打开目录慢,Linux系统宝塔面板系统盘爆满解决方案 _ 厦门SEO

服务器系统盘爆满解决思路:首先通过“df -h”命令查看整体磁盘使用情况;然后通过“du -ah –max-depth1 /***/”命令不断查看占用空间最大的目录文件夹下的最大文件/文件夹,直到将最大文件/文件夹找出来!看看该文件/文件夹是否有用…

html5如何绑定域名,墨涩网 - Coding搭建html静态网站后绑定域名+SSL证书——墨涩网...

Coding 是一个面向开发者的云端开发平台 ,目前提供代码托管,运行空间,质量控制,项目管理等功能。此外,还提供社会化协作功能,包含了社交元素,方便开发者进行技术讨论和协作。CODING 支持将您代码…

大型网站性能监测、分析与优化常见问题QA

tanwen110 (唐文),曾负责腾讯四大平台之一网络媒体平台的整体运维、运营规划工作;曾任百度T7架构师和百度性能优化TOPIC、百度UAQ、APM平台负责人;畅销书《海量运维、运营规划之道》作者; mmTrix创始人&…

用手机连pc localhost 学习,调试网站

本文详细介绍如何打开pc端口,手机打开进行调试,学习。前提是网站已经在iis部署好了 第一步,打开控制面板 第二步,打开防火墙 高级设置: 添加规则: 选择端口 输入希望打开的端口: 允许连接 下一步…

ubuntu服务器nginx搭建网站,ubuntu 16.04配置nginx服务器实现一个IP一个端口多个站点...

特点:Nginx 可以部署在网络上使用 FastCGI,脚本,SCGI 处理程序,WSGI 应用服务器或 Phusion 乘客模块的动态 HTTP 内容,并可作为软件负载均衡器。Nginx 使用异步事件驱动的方法来处理请求。 Nginx的模块化事件驱动架构可…

网站同时在线人数_如何建设外贸网站?角点科技讲解外贸网站建设小知识

如何建立外贸网站?国内很多用户经常浏览的网站都是我们国内的,很少有人会去浏览国外的网站,因此我们不知道国外的网站是怎么样的,如果想要建设一个外贸网站,应该怎么做呢?下面小编来为大家讲讲如何建立外贸网站的小知…

My-Blog搭建过程:如何让一个网站从零到可以上线访问

作者:13 GItHub:https://github.com/ZHENFENG13 版权声明:本文为原创文章,未经允许不得转载。 文章中的图片被限制访问,可以查看我的这篇文章My-Blog搭建过程:如何让一个网站从零到可以上线访问 文章简述 5…

陈松松:一个视频如何获得不同视频网站的排名秘诀

每个视频,都是你的金牌业务员这是我写的第22篇视频营销原创文章与其搜索十年,不如花一年的时间学习,去赚9年的高薪!落地,靠的就是细节!不管我们做什么,一旦你深入进去,里面的道道都很…

掌握设计开发维护大型网站的技术之性能

前言在前一篇随笔《大型网站系统架构的演化》中,介绍了大型网站的演化过程,期间穿插了一些技术和手段,我们可以从中看出一个大型网站的轮廓,但想要掌握设计开发维护大型网站的技术,需要我们一步一步去研究实践。所以我…

LinkedIn 推出在线学习门户网站 LinkedIn Learning

LinkedIn 推出在线学习门户网站 LinkedIn Learning 责任编辑:editor006 作者:aiko | 2016-09-24 22:41:46 本文摘自:36kr LinkedIn 宣布推出在线学习门户网站 LinkedIn Learning,该网站整合了 LinkedIn 去年以 15 亿美元在去年收…

SEO页面标题Title的优化

我在一个月前改过页面标题(Title),随后表现是:百度网页快照4天不更新,Google正常。而我仅仅是改了两个词组而已。在建博初期,修改Title的最频繁的时期,下面卢松松就我经历的修改Title过程给大家…

细说地方门户网站运营的六大经验

在几年的地方门户网站运营中,总结以下观点与站长朋友们分享。 一、网站好用好看:做好美工细节、优化交互效果,持续改善用户体验 地方门户网站精美的UI设计与良好用户体验,给用户一个好印象。 常言道:筑好巢&#xff0c…

8.1 排序的基本概念(时间复杂度、空间复杂度、稳定性、内部排序、外部排序、可视化网站)

1. 什么是排序?2. 排序算法的应用3. 排序算法的评价指标4. 排序算法的分类5. 知识回顾 1. 什么是排序? 2. 排序算法的应用 3. 排序算法的评价指标 4. 排序算法的分类 5. 知识回顾 学习链接

SEO优化:网站优化的swot介绍分析

开发十年,就只剩下这套Java开发体系了 >>> 著名的竞争战略专家迈克尔.波特提出的竞争理论从产业结构入手对一个企业“可能做的”方面进行了透彻的分析和说明,而能力学派管理学家则运用价值链解构企业的价值创造过程,注重对公司的…