#scrapy实战# 爬取招标网站信息(一)

news/2024/5/20 12:06:10/文章来源:https://blog.csdn.net/weixin_42961082/article/details/109922243

先贴上项目的背景信息:
在这里插入图片描述如上表格即为需要爬取到的信息,根据提取要求,先分析需要提取的内容都分布在目标网站哪里,
先打开目标网站,这里以必联网为例,假设搜索的关键字为:路由器
此网站打开:https://ss.ebnew.com/tradingSearch/index.htm
可以看到的内容包括:信息类型、标题、产品范畴、招标方式、招标截止时间,招标截止时间
在这里插入图片描述
打开其中一个项目详情,进入到二级页面:
可以看到项目编号(这里为空),所属行业
在这里插入图片描述页面继续往下滑动,可以看到项目编号,在这里插入图片描述确认清楚自己需要的内容在页面何处,那么接下来确认目标实现路径,这里使用scrapy框架,爬虫领域比较知名,确认好实现框架,那按部就班先构建出一个scrapy 项目,
在这里插入图片描述打开终端(可以在pycharm中的terminal操作):

创建scrapy项目:

scrapy startproject zhaobiao

D:\爬虫\pythonProject\实战>scrapy startproject ZHAOBIAO
New Scrapy project 'ZHAOBIAO', using template directory 'd:\python3.8.6\lib\site-packages\scrapy\templates\project', created in:D:\爬虫\pythonProject\实战\ZHAOBIAOYou can start your first spider with:cd ZHAOBIAOscrapy genspider example example.co

进入项目

cd ZHAOBIAO

D:\爬虫\pythonProject\实战>cd ZHAOBIAOD:\爬虫\pythonProject\实战\ZHAOBIAO>

创建爬虫文件

scrapy genspider bilian"ebnew.com

D:\爬虫\pythonProject\实战\ZHAOBIAO>scrapy genspider bilian "ebnew.com"
Created spider 'bilian' using template 'basic' in module:ZHAOBIAO.spiders.bilianD:\爬虫\pythonProject\实战\ZHAOBIAO>

已成功创建scrapy 项目,并创建了bilian这个爬虫文件
在这里插入图片描述接下来要对scrapy里面的内容进行设置,
主要是设置请求头和代理IP
注意:凡是涉及到爬虫,一定优先在脑中建立的意识是,先设置好请求头和代理IP,

那么在哪里设置这些内容呢,这就需要对scrapy框架清理掌握,再给大家看下scrapy框架原理图:
在这里插入图片描述每一个组件的含义,各位可先自行搜索搞清楚每一个概念以及数据流向图,
一篇文章写所有的内容会太多了,着后续的内容会在#scrapy实战# 爬取招标网站信息(二)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_825875.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云服务器nginx部署静态网站,云服务器nginx部署静态网站

云服务器nginx部署静态网站 内容精选换一换华为云Web应用上云解决方案,基于企业业务访问量,提供多粒度Web应用部署解决方案来自:解决方案本文档指导用户使用华为云市场镜像“Moodle LMS在线学习系统(LAMP)”部署Moodle课程管理系统。Moodle是…

大型网站架构演变和知识体系【架构演变第一步:物理分离webserver和数据库】...

大型网站架构演变和知识体系 之前也有一些介绍大型网站架构演变的文章,例如LiveJournal的、ebay的,都是非常值得参考的,不过感觉他们讲的更多的是每次演变的结果,而没有很详细的讲为什么需要做这样的演变,再加上近来感…

大型网站架构演变和知识体系【架构演变第二步:增加页面缓存】

架构演变第二步:增加页面缓存 好景不长,随着访问的人越来越多,你发现响应速度又开始变慢了,查找原因,发现是访问数据库的操作太多,导致数据连接竞争激烈,所以响应变慢,但数据库连接…

大型网站架构演变和知识体系【架构演变第三步:增加页面片段缓存】

架构演变第三步:增加页面片段缓存 增加了squid做缓存后,整体系统的速度确实是提升了,webserver的压力也开始下降了,但随着访问量的增加,发现系统又开始变的有些慢了,在尝到了squid之类的动态缓存带来的好处…

大型网站架构演变和知识体系【架构演变第四步:数据缓存】

架构演变第四步:数据缓存 在采用ESI之类的技术再次提高了系统的缓存效果后,系统的压力确实进一步降低了,但同样,随着访问量的增加,系统还是开始变慢,经过查找,可能会发现系统中存在一些重复获取…

大型网站架构演变和知识体系【架构演变第五步: 增加webserver】

架构演变第五步: 增加webserver 好景不长,发现随着系统访问量的再度增加,webserver机器的压力在高峰期会上升到比较高,这个时候开始考虑增加一台webserver,这也是为了同时解决可用性的问题,避免单台的webs…

大型网站架构演变和知识体系【架构演变第六步:分库】

架构演变第六步:分库 享受了一段时间的系统访问量高速增长的幸福后,发现系统又开始变慢了,这次又是什么状况呢,经过查找,发现数据库写入、更新的这些操作的部分数据库连接的资源竞争非常激烈,导致了系统变…

大型网站架构演变和知识体系【架构演变第七步:分表、DAL和分布式缓存】

架构演变第七步:分表、DAL和分布式缓存 随着系统的不断运行,数据量开始大幅度增长,这个时候发现分库后查询仍然会有些慢,于是按照分库的思想开始做分表的工作,当然,这不可避免的会需要对程序进行一些修改&…

大型网站架构演变和知识体系【架构演变第八步:增加更多的webserver】

架构演变第八步:增加更多的webserver 在做完分库分表这些工作后,数据库上的压力已经降到比较低了,又开始过着每天看着访问量暴增的幸福生活了,突然有一天,发现系统的访问又开始有变慢的趋势了,这个时候首先…

大型网站架构演变和知识体系【 架构演变第九步:数据读写分离和廉价存储方案】...

架构演变第九步:数据读写分离和廉价存储方案 突然有一天,发现这个完美的时代也要结束了,数据库的噩梦又一次出现在眼前了,由于添加的webserver太多了,导致数据库连接的资源还是不够用,而这个时候又已经分库…

大型网站架构演变和知识体系【架构演变第十步:进入大型分布式应用时代和廉价服务器群梦想时代】...

架构演变第十步:进入大型分布式应用时代和廉价服务器群梦想时代 经过上面这个漫长而痛苦的过程,终于是再度迎来了完美的时代,不断的增加webserver就可以支撑越来越高的访问量了,对于大型网站而言,人气的重要毋庸置疑&…

二十个你必须知道的SEO概念

如果你拥有一个网站或独立博客,或者你的工作多少和互联网有关,那你一定耳濡目染多多少少对SEO(搜索引擎优化)有一定了解。本文将列举其中20个SEO领域最常用的名词和概念,如果你打算熟悉和了解他们请继续阅读。当然,如果你已经无所…

分享一个飘浪主题下载的网站

http://www.ommoo.com/ Q:装了某款主题后,进入某些网站输入用户名这些选项框很小,而且不能显示输入的数字.,请问是怎么回事?A:此网友应该是用的IE8的浏览器,目前IE8都是测试版,很多…

免费的PSD分享网站http://freepsdfiles.net/

本文与大家分享42个精美的PSD资源。非常感谢那些很有才华的设计师分享它们的劳动成果,让更多的设计师可以使用他们的创意设计。本文所有素材来自于:http://freepsdfiles.net 在那,你将找到更多更精美的素材! 1. Circle Arrows PS…

MetInfo企业网站管理系统v5.1 正式版【免费下载使用】

MetInfo企业网站管理系统v5.1 正式版【免费下载使用】 MetInfo让你一天甚至更短的时间就能上线网站。而且网站后台操作极其便捷,一切都是基于用户体验和极其简易的操作而设计。

如何测试一个网站的性能(并发数)?

JMeter网站并发性测试 Apache JMeter是Apache组织开发的基于Java的压力测试工具。用于对软件做压力测试,它最初被设计用于Web应用测试但后来扩展到其他测试领域。 它可以用于测试静态和动态资源例如静态文件、Java小服务程序、CGI脚本、Java 对象、数据库&#xff0…

简读clubof网站源码之后的思考

注:本文所阅读的clubof源码版本为FrienDevSourceCode_20081028,即2008年10月28日。按说昨天刚参加“微软技术创新日--北京站”活动之后, 今天就来评论其活动中产品的一些问题显得不太厚道。但本文内容绝不应当看作是关于clubof的负面评论&…

推荐一款niubility的网站技术分析插件

Wappalyzer是一款功能强大的、且非常实用的网站技术分析插件,通过该插件能够分析目标网站所采用的平台构架、网站环境、服务器配置环境、JavaScript框架、编程语言等参数。 Wappalyzer使用方法 1、安装插件 Wappalyzer支持chrome、firefox浏览器。用户可以在官网…

分享10个ico图标搜索下载网站

为大家提供10个icon搜索下载的网站,这些图标都有明确的分类,你可以从中选出很多精美的图标哦。 1. IconsPedia IconsPedia是一个搜索下载png图片的地方,里面含有海量的图标! 2. veryico 超过1000组的20000高质量的web图标。每个图…

css教程–十步学会用css建站(全)

本教程主要参考Creating a CSS Layout from scratch,由Jorux翻译,以意译为主,其间加入了不少Jorux的个人观点,省略了一些多余的说明,请读者明鉴。 目录: 第一步:规划网站,本教程…