在Scrapy项目【内外】使用scrapy shell命令抓取 某网站首页的初步情况

news/2024/5/21 8:16:50/文章来源:https://blog.csdn.net/aimianwo1708/article/details/101975448

Windows 10家庭中文版,Python 3.6.3,Scrapy 1.5.0,

 

时隔一月,再次玩Scrapy项目,希望这次可以玩的更进一步。

本文展示使用在 Scrapy项目内、项目外scrapy shell命令抓取知乎首页的初步情况,重要的一点是,在项目内抓取时,没有response可用

 

在项目【外】执行抓取命令

scrapy shell https://www.zhihu.com

 

得到结果(部分):因为知乎的反爬虫功能,得到了400错误,访问失败。

INFO: Overridden settings: {'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'LOGSTATS_INTERVAL': 0}
[]
2018-08-20 09:11:54 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-08-20 09:11:54 [scrapy.core.engine] INFO: Spider opened
2018-08-20 09:11:59 [scrapy.core.engine] DEBUG: Crawled (400) <GET https://www.zhihu.com> (referer: None)

可用对象如下图:存在response!

 

在项目【内】执行抓取命令

scrapy shell https://www.zhihu.com

注意,项目使用scrapy startproject命令创建,已经在其settings.py中添加了USER_AGENT配置项。

 

得到结果(部分):多了很多内容,还包括USER_AGENT设置。最后服务器返回200,表示页面访问成功。

INFO: Overridden settings: {'BOT_NAME': 'newssci', 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'LOGSTATS_INTERVAL': 0, 'NEWSPIDER_MODULE': 'newssci.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['newssci.spiders'], 'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36-480'}

[]
2018-08-20 09:12:23 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-08-20 09:12:23 [scrapy.core.engine] INFO: Spider opened
2018-08-20 09:12:24 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.zhihu.com/robots.txt> (referer: None)
2018-08-20 09:12:24 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET https://www.zhihu.com>

可用对象如下图:没有response对象!还少了spider对象!

没有response对象,感觉什么也做不了了,网页也无法分析了。

 

总结

看来,还是需要到 项目外 使用scrapy shell命令来对网页做分析才是。不过,对于这种反爬虫的网站,在命令中添加上USER_AGENT配置项,然后就可以用response来做分析了。

项目外添加USER_AGENT配置项的命令如下:-s

scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36-480" https://www.zhihu.com

 

结果如下:发生了一次重定向,所以有302。

INFO: Overridden settings: {'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'LOGSTATS_INTERVAL': 0, 'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36-480'}

[scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.zhihu.com/signup?next=%2F> from <GET https://www.zhihu.com>

[scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.zhihu.com/signup?next=%2F> (referer: None)

 

发现了response对象可用:指明是针对其后的那个200网址的

[s]   response   <200 https://www.zhihu.com/signup?next=%2F>

 

使用response对象:获取页面title成功!

>>> response.xpath('//title/text()')
[<Selector xpath='//title/text()' data='知乎 - 发现更大的世界'>]

 

转载于:https://www.cnblogs.com/luo630/p/9503863.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_866377.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ASP.NET 网站路径

ASP.NET ASP.NET 网站路径 使用网站中的资源时&#xff0c;通常必须指定资源的路径。例如&#xff0c;您可以使用 URL 路径引用页面中的图像文件或网站中其他位置处的页面的 URL。同样&#xff0c;Web 应用程序中的代码可以使用基于服务器的文件的物理文件路径对文件进行读写操…

Python+bs4+xlspdf+mail,获取网站数据转化成要素格式的pdf并发送邮件。

Pythonbs4xlspdfmail&#xff0c;获取网站数据转化成要素格式的pdf并发送邮件。

Web2.0网站性能调优实践

当前web2.0革命风起云涌&#xff0c;web2.0强调服务&#xff0c;而服务最基本的要求是速度快和稳定&#xff0c;离开这两个谈功能强大和易用性都没有任何意义。本文介绍一些关于笔者运营一个web2.0网站的优化心得和经验&#xff0c;希望能够和大家共同探讨。 Web2.0网站不…

Java专业人士必备的书籍和网站列表

Roy Miller (royroywmiller.com), 创始人兼总裁, The Other Road, LLC 对于 Java™ 语言开发人员来说&#xff0c;信息过量是一个真正的问题。每个新入行的程序员都要面临一个令人畏缩的挑战&#xff1a;要进入的行业是一个具有海量知识的行业。要了解的东西简直太多了。对于有…

大型网站技术架构

架构演变第一步&#xff1a;物理分离webserver和数据库 最开始&#xff0c;由于某些想法&#xff0c;于是在互联网上搭建了一个网站&#xff0c;这个时候甚至有可能主机都是租借的&#xff0c;但由于这篇文章我们只关注架构的演变历程&#xff0c;因此就假设这个时候已经是托管…

用Varnish和Memcached缓存给WordPress网站提速-内存级加速

Varnish是一款高性能的缓存加速器&#xff0c;Varnish把数据存放在服务器的内存中&#xff0c;利用内存可以极大的提高PHP页面执行速度&#xff0c;可以设置0&#xff5e;60秒的精确缓存时间&#xff0c;32位的机器支持的缓存文件最大为2 GB。 Varnish采用VCL的配置&#xff0…

正则表达式的符号概念、捕获组与非捕获组、解读方式、练习网站

正则表达式 正则表达式的解读方法符号概念练习的网站看两个现象进行后续思考Group的用途 捕获组和非捕获组捕获组非捕获组组的命名 正则表达式的解读方法 读者最好能养成按照字符来理解正则表达式的习惯。&#xff08;参考自动物书《精通正则表达式》&#xff0c;这种读法对我…

基于VUE使用Hbuilder工具开发的甜品网站

上文已经提到了VUE实现的思维导图&#xff0c;感兴趣的同学可以自己去了解一下VUE&#xff0c;学过JS都会很快上手。本文是开发的甜品网站&#xff0c;适配所有手机的H5网页&#xff0c;你说它是APP、小程序好像都没错。 实现代码界面如下&#xff1a; 实现的主要代码如下&…

IE浏览器高通网站打不开dump分析选择目录总结

首先需要安装jdk与jre最新版本 安装之后配置好路径&#xff0c;重启电脑 如果浏览器提示&#xff1a;Unable to load Java Applet. Please make sure JRE is updated. 就如下图进行操作&#xff1a; 在浏览器设置->安全->去掉ActiveX筛选的前面的√ 当死机之后&#x…

Designing Websites for Performance 如何设计高性能网站 Lynda课程中文字幕

Designing Websites for Performance 中文字幕 如何设计高性能网站 中文字幕Designing Websites for Performance 设计性能网站探索快速模式&#xff0c;提示和技巧的网页设计师 在本文中&#xff0c;Brian Wood向您展示了如何优化和最小化Web图形的大小&#xff0c;实现流畅…

有一个属于自己的网站是不是很酷呢,超详细的建站流程,我都给你总结好了

上篇文章Relax讲到希望在AR这个方向上做一些事情&#xff0c;落实到具体上肯定是要做一些东西出来&#xff0c;从软件层面来说&#xff0c;传统互联网兴起是以成千上万的网站呈现的&#xff0c;移动互联网是以成千上万的APP呈现的&#xff0c;当然其实还有别的方式&#xff0c;…

接口调试网站和工具

调试网站&#xff1a;https://getman.cn/gsgaO 超级好用的一款在线接口调试网站&#xff0c;可以先分析带什么样的请求头部&#xff0c;什么样的数据体可以请求成功&#xff0c;然后调整请求代码格式。 调试工具&#xff1a;fidder 很多app不是我们开发的&#xff0c;但我们…

网站访问速度提升200%以上,阿里云虚拟主机支持PHP最新版本

日前&#xff0c;阿里云虚拟主机推出了新功能&#xff0c;支持PHP的最新版本 7.0和7.1&#xff0c;并支持用户在多个不同PHP版本之间切换。 PHP 作为最好的Web编程语言&#xff0c;最新版本已经更新到了7.0和7.1。阿里云作为国内虚拟主机的领头羊&#xff0c;为了给用户提供更先…

一键清理网站木马文件,从此网站拥有专属保镖 ——阿里云虚拟主机推出木马查杀功能

近日&#xff0c;阿里云推出了云虚拟主机网站木马查杀的新功能&#xff0c;十分适合对网站安全不了解、不熟悉的用户&#xff0c;或网站出现挂马情况不清楚如何处理的用户。 阿里云表示&#xff0c;此次网站木马查杀功能是阿里云安骑士专为虚拟主机推出的安全增值服务。通过周期…

每天自动备份网站数据,发现问题一键恢复 ——阿里云虚拟主机推出网站数据自动备份功能

近日&#xff0c;阿里云宣布推出虚拟主机网站自动备份功能&#xff0c;可自动备份用户的网站和数据库数据至单独的备份区域&#xff0c;用户可随时恢复前三天的网站和数据库的数据。一旦出现意外或者数据丢失情况&#xff0c;可将损失降低到最低。 数据是用户的最重要的财产&am…

10分钟轻松定制网站日志分析大盘

前言 作为站长的你是否也曾想针对站点访问日志信息&#xff0c;分析其中PV、UV、访问地域分布以及访问前十页面等情况。作为开发者的你是否也想记录应用的日志信息&#xff0c;针对top方法进行优化从而提升应用质量。作为运维老大的你是否也曾想过实时监控最近1个小时的服务器…

从网站上加载数据和从文本文件导入数据和超级燃的分列功能

从网站上加载数据 右键单击文件&#xff0c;选择打开方式为ie游览器&#xff0c;复制文件地址 数据——自网站——粘贴地址——选定表格&#xff08;旁有小箭头&#xff09;——导入——任意选定单元格 从文本文件导入数据 数据——自文本——选择文本 选择分隔符号&#x…

友情链接:对网站排名作用都深入了解吗?

说起友情链接的作用也是作为一个站长老生长谈的事情&#xff0c;但是对于新手做seo的站长们&#xff0c;可能就不是那么清楚了它的作用到底对网站有哪些了。往下看&#xff01; 一、友情链接&#xff0c;分为两种 1、双向友情链接&#xff1a;意思就是相互之间互相做链接&…

Gihub网站打不开怎么办

github打不开时&#xff1a; 1、通过IPAddress工具找出它的IP地址&#xff1a; 2、修改host文件&#xff08;windows路径&#xff1a;C:\Windows\System32\drivers\etc&#xff09;,添加以下内容 # github 140.82.112.4 github.com 140.82.112.4 gist.github.com 140.82.1…

javascript之jQuery 打造个性网站

文件结构 网页结构 头部:放LOGO,通往各个页面的链接 内容:放置页面的主体内容 底部:放置页面其他链接和版权信息 [html] view plain copy <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-tra…