scrapy安装_在Python3.5下安装和测试Scrapy爬网站

news/2024/5/10 2:18:54/文章来源:https://blog.csdn.net/weixin_39867594/article/details/110998975

1. 引言

Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是爬虫做大的必备基础。本文将讲解如何快速安装此框架并使用起来。

05dff082b717e55b38b1c0d3c43415f8.png

2. 安装Twisted

2.1 同安装Lxml库

7d06e4c81d812ce2141881987a081ec6.png

2.2 安装twisted

打开命令提示符窗口,输入命令:

pipinstallE:demoTwisted-16.4.1-cp35-cp35m-win_amd64.whl(下载好的twisted模块的whl文件路径)

e6af752a57262c5180b03a06c676755c.png

3. 安装scrapy

twisted库安装成功后,安装scrapy就简单了,在命令提示符窗口直接输入命令: pip install scrapy 回车

6713bfdee2a737a0544ac226fd3c2939.png

安装关联模块pypiwin32,在命令提示符窗口直接输入命令: pip install pypiwin32 回车

bbe9a338766ee659803873dc1d076495.png

4. Scrapy测试,敲一个基于Scrapy框架的爬虫程序

新建一个Scrapy爬虫项目fourth:在任意目录按住shift+右键->选择在此处打开命令提示符窗口(这里默认为E:demo),然后输入命令:

E:demo>scrapy startproject fourth

8cc07cbc194ac6c6a4319c72b9efc894.png

该命令将会创建包含下列内容的fourth目录:

10789d2a4b649299b80f239fe02f0fa5.png

修改项目配置文件settings.py,有些网站会在根目录下放置一个名字为robots.txt的文件,里面声明了此网站希望爬虫遵守的规范,Scrapy默认遵守这个文件制定的规范,即ROBOTSTXT_OBEY默认值为True。在这里需要修改ROBOTSTXT_OBEY的值,找到项目目录(这里为:E:demofourthfourth)下文件settings.py,更改ROBOTSTXT_OBEY的值为False

引入Gooseeker最新规则提取器模块gooseeker.py(下载地址: https://github.com/FullerHua/gooseeker/tree/master/core),拷贝到项目目录下,这里为E:demofourthgooseeker.py

创建爬虫模块,进入项目目录E:demofourth下,在此处打开命提示符窗口输入命令:

E:demofourth>scrapy genspider anjuke'anjuke.com'

e67071299418b98e33efdffec758909e.png

该命令将会在项目目录E:demofourthfourthspiders下创建模块文件anjuke.py,以记事本打开然后添加代码,主要代码:

10c4cc0e67c68209c7b95299c87aacc0.png

启动爬虫,进入项目目录E:demofourth下,在此处打开命提示符窗口输入命令:

E:demofourth>scrapy crawl anjuke

53397dc418a3cf69a52b9e0dc0a8485f.png

注:网站若发现抓取时报重定向错误了,尝试修改user-agent后,再启动爬虫爬取数据。操作步骤如下:

1、在爬虫项目目录(这里为E:demofourthfourth)下创建模块文件middlewares.py,以记事本打开后,添加如下代码:

5814845e7b7179fea75141ad5bcddb92.png

2、修改项目配置文件settings.py,加上如下代码:

831f11cc2f1effd99d93d3beda73e54c.png

查看保存结果文件,进入Scrapy爬虫项目目录,这里为E:demofourth,找到名称为anjuke-result.xml的文件夹然后打开

90886656770701f55ac6d9955f43690f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_775724.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

堆排序为什么不稳定_网站排名不稳定怎么办,为什么会这样?

排名第一,是每一个SEO人员的目标,于是你会花费大量的时间、精力、人力资源去针对某一个特定关键词做深度的优化。 我们知道这里并没有什么SEO秘籍,你只需要一如既往的坚持,认真对待每一个细节即可,但我们总是会遇到各种…

清理垃圾代码_站长必学:如何清理网站垃圾代码

清理垃圾代码是精简代码其中一个重要的环节。垃圾代码是删除后不会影响页面显示的非必要的代码,一个页面在清理了垃圾代码后,可以删除近80%的冗余代码。从而能够达到降低页面体积,提高页面的用户体验和搜索引擎友好性的目的。常见的垃圾代码有…

seo如何优化文章-知识交流_SEO网站优化基础知识搜索引擎优化

等你点关注都等的长毛了网站基础优化知识点﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌网页收录影响网页收录的因素:文章质量度、外链、权重、页面打开速度、网站结构等网站权重 网站在搜索…

织梦网站php源码安装,加固版织梦CMS整站源码通用安装教程

今天先跟大家介绍一下dedecms织梦系统安装的方法步骤,以及织梦数据库还原的教程。详细请看图文讲解:1.运行http://域名/install/index.php(比如你的域名是:http://www.dede58.com/,就输入http://www.dede58.com/install/index.php…

我要自学网polyworks_10个中年人免费自学网站,每天学习一点,将是你东山再起的希望...

人到中年,面对各种人生的突变,如果没有一定的知识积累,可能多少有点力不从心。那么种一棵树最好的时间是十年前,也是现在。今天给大家推荐10个在家就能学习的网站,每天学习提升,让你偷偷变强大。1、哔哩哔哩…

linux程序io.h,基本IO函数操作 - Linux C编程实战之路_Linux编程_Linux公社-Linux系统门户网站...

在学习C语言的时候,基本的输入输出是非常重要的,因为我们时常要接收用户的输入,而且时常要将结果输出到屏幕,因此非常有必要注重地学习一下。最常用的两个基本IO函数莫过于 printf() 和 scanf() 了,下面首先来详细地介…

Java开源建站工具

http://www.ruanyifeng.com/blog/2011/08/opensource_java_web_development_tools.html 美国程序员Jon Scott Stevens,公布了他的创业公司所使用的开发工具清单。 他的语言平台是Java,开发项目是一个网站(还未上线)。所用到的工具…

将w3cplus网站中的文章页面提取并导出为pdf文档

最近在看一些关于CSS3方面的知识,主要是平时看到网页中有很多用CSS3实现的很炫的效果,所以就打算系统的学习一下。在网上找到很多的文章,但都没有一个好的整理性,比较凌乱。昨天看到w3cplus网站中关于CSS3的一些文章,觉…

aix oracle rac搭建,调整AIX - AIX6.1安装Oracle RAC经历_数据库技术_Linux公社-Linux系统门户网站...

很早之前听说AIX上的可调整的参数很少。且见我做了哪些事?(总体感觉aix在系统管理,配置方面是很方做便的)1、遇到最严重的问题:操作系统关机后,就不能启动到这操作系统了。(天哪,这是什么事道!)原来这次的主机没有配置…

网站不稳定关服务器什么原因,什么原因导致网站排名不稳定呢

如果我们要想处理好导致网站关键词排名不稳定的现象,我们就得先找出导致问题发生的原因。相信多的小伙伴在对网站进行了一段时间的优化之后发现,网站关键词排名总是出现波动不够稳定。我们就得针对这种情况做出一些改进,不然网站排名不停动摇…

网站服务器开创云,开创云服务器

开创云服务器 内容精选换一换如果Linux操作系统弹性云服务器未安装密码重置插件,可以参见本节内容重新设置密码。本节操作重置的是root用户的密码,您可以重置完root密码后登录云服务器后再更换密钥或重置非root用户的密码。Windows操作系统请参见重置Win…

多个html页面复用导航栏,使用webpack从0搭建多入口网站脚手架,可复用导航栏/底部通栏/侧边栏,根据页面文件自动更改配置,支持ES6/Less...

之前只知道webpack很强大,但是一直没有深入学习过,这次从头看了一下教程,然后从0开始搭建了一个多入口网站的开发脚手架,期间遇到过很多问题,所以有心整理一下,希望能给大家一点帮助。多HTML网站使用webpac…

巧用ELK快速实现网站流量监控可视化

前言 本文可能不会详细记录每一步实现的过程,但一定程度上可以引领小伙伴走向更开阔的视野,串联每个环节,呈现予你不一样的效果。 业务规模 8个平台100台服务器10个集群分组微服务600用户N 面临问题 随着分布式微服务容器技术的发展&…

gpu服务器跑网站,gpu服务器跑深度学习

gpu服务器跑深度学习 内容精选换一换GPU加速型云服务器(GPU Accelerated Cloud Server, GACS)能够提供强大的浮点计算能力,从容应对高实时、高并发的海量计算场景。GPU加速型云服务器包括G系列和P系列两类。其中:G系列:图形加速型弹性云服务器…

如何通过优化主页大小,将网站大小减少 62%

什么是图像压缩? 压缩图像是指在保持可接受的视觉质量水平的同时减小图像文件的大小。我使用imagemin来压缩我网站上的图像。 要使用 imagemin,请确保已安装了 Node.js,然后打开终端窗口,cd 到项目的文件夹,并运行以…

5个常用的上传图片进行搜索的网站

1.http://www.tineye.com/ 最常用的图片搜索引擎,一般需要尽可能的接近原图的文件才能锁定图片网址,不过准确度极高。目前缺点是图片收录主要为欧美地区,而且收录量也不是很大。 2.http://www.gazopa.com/ 如图所示相似图片搜索,想…

一个知名网站的微服务架构最佳实现

译者语:如果你的项目正在从单体升级为微服务而忧心;或者你在实践微服务过程中手忙脚乱,本文都是你不容错过的好文。 微服务架构的目标是帮助工程团队更快、更安全、更高质量地交付产品。拆分服务允许团队快速迭代的同时,保证了对系…

创业之前,网站先行

可能你们还没有准备好向世人展示你们的产品,但你们可以先做一些前期工作,先为产品搭建个网站,做好形象工作。我并不是说创业公司都不可以在暗地里开发自己的产品,直到产品成型后才公之于众。但我觉得,如果你已经为你的…

IT创业失败案例解析 - 第四篇 (一家失败的招聘网站)

原文标题:My eHarmony for Hiring Failure(查看原文推荐) 原文作者:eHarmony 双语对照 前几天我通读了我最新博文的评论,它着实吸引了很多评论,像其他一些带有煽动性标题的文章一样,最终&#x…

linux 绑定域名到网站目录,教你绑定域名到你空间的子目录(亲测可用)

近日脑洞大开,Project Ai需要一个论坛,然而为了装逼优雅,我想用个二级域名绑定到我论坛。但万网的虚拟主机默认没绑定域名到子目录这个功能的.中间省略经过一番折腾后,我发现了一个方法(亲测万网可用)其实原理也很简单&#xff0c…