第5章 scrapy爬取知名问答网站

news/2024/5/20 14:52:16/文章来源:https://blog.csdn.net/weixin_30588907/article/details/99863943

第五章感觉是第四章的练习项目,无非就是多了一个模拟登录。

不分小节记录了,直接上知识点,可能比较乱。

1.常见的httpcode:

2.怎么找post参数?

先找到登录的页面,打开firebug,输入错误的账号和密码,观察post_url变换,从而确定参数。

3.读取本地的文件,生成cookies。

1 try:
2     import cookielib #py2
3 except:
4     import http.cookiejar as cookielib #py3

4.用requests登录知乎

 1 # -*- coding: utf-8 -*-
 2 __author__ = 'jinxiao'
 3 
 4 import requests
 5 try:
 6     import cookielib
 7 except:
 8     import http.cookiejar as cookielib
 9 
10 import re
11 
12 session = requests.session()  #实例化session,下面的requests可以直接换成session
13 session.cookies = cookielib.LWPCookieJar(filename="cookies.txt") #实例化cookies,保存cookies
14 #读取cookies
15 try:
16     session.cookies.load(ignore_discard=True)
17 except:
18     print ("cookie未能加载")
19 
20 #知乎一定要加上浏览器的头,其他网站不一定,一般都是要的
21 agent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0"
22 header = {
23     "HOST":"www.zhihu.com",
24     "Referer": "https://www.zhizhu.com",
25     'User-Agent': agent
26 }
27 
28 def is_login():
29     #通过个人中心页面返回状态码来判断是否为登录状态
30     inbox_url = "https://www.zhihu.com/question/56250357/answer/148534773"
31     response = session.get(inbox_url, headers=header, allow_redirects=False)  #禁止重定向,判断为是否登录
32     if response.status_code  != 200:
33         return False
34     else:
35         return True
36 
37 def get_xsrf():
38     #获取xsrf code
39     response = session.get("https://www.zhihu.com", headers=header)
40     match_obj = re.match('.*name="_xsrf" value="(.*?)"', response.text)
41     if match_obj:
42         return (match_obj.group(1))
43     else:
44         return ""
45 
46 
47 def get_index():
48     response = session.get("https://www.zhihu.com", headers=header)
49     with open("index_page.html", "wb") as f:
50         f.write(response.text.encode("utf-8"))
51     print ("ok")
52 
53 def zhihu_login(account, password):
54     #知乎登录
55     if re.match("^1\d{10}",account):
56         print ("手机号码登录")
57         post_url = "https://www.zhihu.com/login/phone_num"
58         post_data = {
59             "_xsrf": get_xsrf(),
60             "phone_num": account,
61             "password": password
62         }
63     else:
64         if "@" in account:
65             #判断用户名是否为邮箱
66             print("邮箱方式登录")
67             post_url = "https://www.zhihu.com/login/email"
68             post_data = {
69                 "_xsrf": get_xsrf(),
70                 "email": account,
71                 "password": password
72             }
73 
74     response_text = session.post(post_url, data=post_data, headers=header)
75     session.cookies.save()
76 
77 zhihu_login("18782902568", "admin123")
78 # get_index()
79 print(is_login())
zhihu_requests_login

5.在shell调试中添加UserAgent

 scrapy shell -s USER_AGENT='...' url

6.JsonView插件

可以很好的可视化看json

7.写入html文件

with open(''e:/zhihu.html'',"wb") as f:f.write(response.text.encode('utf-8'))

8.yield理解

  如果是yield item 会到pipelins中处理

  如果是yield Request 会到下载器去下载

9.在mysql中怎么去重,设置主键去重,主键冲突

解决:在插入的sql语句后面加上 ON DUPLICATE KEY UPDATE content=VALUES(content) #这是需要更新的内容

10.手动输入验证码(zhihu.login_requests.py)

 1 def get_captcha():
 2     import time
 3     t=str(int(time.time()*1000))
 4     captcha_url="https://www.zhihu.com/captcha.gif?r={0}&type=login".format(t)
 5     t=session.get(captcha_url,headers=header)
 6     with open("captcha.jpg","wb") as f:
 7         f.write(t.content)
 8         f.close()
 9     captcha=input("输入验证码:")
10     return captcha
#为什么是第五行是session,而不是requests?
#因为requests会重新建立一次绘画 session,这与后面的参数不符,输入的验证码并不是当前的验证码。

作者:今孝

出处:http://www.cnblogs.com/jinxiao-pu/p/6749332.html

本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。

 

转载于:https://www.cnblogs.com/jinxiao-pu/p/6749332.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_790759.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

看完48秒动画,让你不敢再登录HTTP网站(附完整示例代码)

原文转至:http://www.cnblogs.com/baibaomen/p/http-session-hijack.html 在我的 单点登录SSO示例代码 一文中,强烈不建议部署HTTP的SSO服务站点。 在此写个基于网络包嗅探的HTTP会话劫持程序,给大家一个直观的危害性展示。 示例中&#xff0…

阿里云免费SSL数字证书,实现网站Https化

关于http和https不再赘述,参考: https://mp.weixin.qq.downloadcom/s/3NKOCOeIUF2SGJnY7II9hA 说在最前: 在阿里云购买的域名可以免费使用一年免费的SSL证书1. 获取阿里云免费证书方法 https://jingyan.baidu.com/article/6f2f55a17519f1b5b83e6c6b.html…

网站关键词布局设置,这样添加关键词排名很容易上来!

搜索引擎对你站点的识别、抓取、收录等流程都为机器操作,因此他们会识别本文或本站的目标关键词,咱们把这些关键词布局好,很容易会把网站排名给坐上来。为何这么说呢,今天咱们来谈谈网站关键词的布局设置。 拿着本站有排名的一篇文…

jenkins如何构建C#代码写的网站

纯粹是因为同事习惯了写C#代码,开发的网站用C#编译, 对于习惯了用Maven编译的测试人员,真是一头雾水。不用jenkins吧,效率特别低,每次收到开发发过来的版本,还要进行数据库相关配置,是非常累人的…

1080*1920 下看网站很爽

转载于:https://www.cnblogs.com/waynebaby/archive/2009/10/28/1591651.html

[导入]XmlHttp异步获取网站数据的例子

XmlHttp异步获取网站数据的例子文章来源:http://blog.csdn.net/net_lover/archive/2004/07/06/35220.aspx 转载于:https://www.cnblogs.com/zhaoxiaoyang2/archive/2004/07/06/816118.html

Block Site – Chrome™ 网站拦截程序

Block Site – Chrome™ 网站拦截程序 Block Site网站拦截程序的简介Block Site网站拦截程序的功能Block Site网站拦截程序的优点摘要:Block Site 是一款浏览器扩展程序,可让您根据定义的参数拦截特定网站。Block Site 维护和更新一个含有成人内容的已知…

一步步构建大型网站架构

之前我简单向大家介绍了各个知名大型网站的架构,MySpace的五个里程碑、Flickr的架构、YouTube的架构、PlentyOfFish的架构、WikiPedia的架构。这几个都很典型,我们可以从中获取很多有关网站架构方面的知识,看了之后你会发现你原来的想法很可能…

代码编程在线运行网站

目录 菜鸟工具 Dotcpp在线编译 代码测试 代码在线运行工具 在线工具 在线HTML/CSS/JavaScript代码运行工具 菜鸟工具 支持绝大部分语言的在线编译和运行 Dotcpp在线编译 支持的语言较少,有C,C,Java,Python以及PHP。 代码测试…

年度盛宴:2012年最佳25个响应式网站设计作品《上篇》

2012年,响应式网站设计成为主流,这个概念由著名网页设计师 Ethan Marcotte 在2010年5月份提出,其目标是要让设计的网站能够响应用户的行为,根据不同终端设备自动调整尺寸。 响应式设计不再只是一个概念,众多大公司也把…

Apache中如何设置网站默认首页

Apache中如何设置网站默认首页方法11111111111111111111111 步骤: 1)打开apache\conf\extra\httpd-vhosts.conf 2)在 VirturalHost标签对中输入DirectoryIndex index.php //index.php即为网站默认首页 <VirtualHost *:80>DocumentRoot D:\www\abcServerName www.abc.…

推荐有关git的一张图片和2个网站

来源&#xff1a;http://roclinux.cn [正文开始] 一张描述git数据迁移的示意图&#xff0c;很清晰&#xff0c;对于理解git的命令很有帮助&#xff0c;转发分享在这里&#xff1a; 另外&#xff0c;有2个git的网站&#xff0c;推荐给大家&#xff1a; 1 gitready&#xff1a;配…

VAST2.0视频广告投放解决方案改变视频网站未来技术格局

转载&#xff1a;http://www.ipinyou.com.cn/UI/technicalnews/201203/VAST2_0.html 日前&#xff0c;国内最领先的人群定向广告技术公司品友互动宣布&#xff0c;正式推出针对视频网站采用VAST 2.0 标准的视频广告投放解决方案。 这是中国第一家采用视频广告VAST 2.0标准的网络…

转:大型网站后台架构的演变

大型网站后台架构的演变 随着用户访问量的不断增加&#xff0c;网站的后台也会不断变化以应对需求。本文主要从一个小型网站到大型网站的过度与变化来陈述。 1.1 网站后台架构 主要指由web server 、应用服务器、数据库、存储、监控等组成的网站后台系统。 1.2 架构演变 个人站…

Python:抓取百度SERP搜索结果页的网站标题信息

比如&#xff0c;你想采集标题中包含“58同城”的SERP结果&#xff0c;并过滤包含有“北京”或“厦门”等结果数据。 该Python脚本主要是实现以上功能。 其中&#xff0c;使用BeautifulSoup来解析HTML&#xff0c;可以参考我的另外一篇文章&#xff1a;Windows8下安装Beautiful…

在IIS中某一个网站启用net.tcp

绑定 高级设置 http和net.tcp用逗号分隔 //擦擦擦&#xff0c;见鬼了&#xff0c;下面的是tcp.net导致我找了好久&#xff0c;都找不出这个错误 //一定要注意&#xff0c;不要写错了。 否则会收到提示&#xff1a;找不到具有绑定 NetTcpBinding 的终结点的与方案 net.tcp 匹配…

镇江php开发,myweb 我的家乡镇江,web技术开发的网站,三层架构,5大模块设计 WEB(ASP,PHP,...) 238万源代码下载- www.pudn.com...

文件名称: myweb下载收藏√ [5 4 3 2 1 ]开发工具: HTML文件大小: 8226 KB上传时间: 2015-04-11下载次数: 0提 供 者: min详细说明&#xff1a;我的家乡镇江&#xff0c;web技术开发的网站&#xff0c;三层架构&#xff0c;5大模块设计-My hometown of Zhenjiang, web tec…

Linux-某电商网站流量劫持案例分析与思考

【前言】 自腾讯与京东建立了战略合作关系之后&#xff0c;笔者网上购物就首选京东了。某天在家里访问京东首页的时候突然吃惊地发现浏览器突然跳到了第三方网站再回到京东&#xff0c;心里第一个反应就是中木马了。 竟然有这样的事&#xff0c;一定要把木马大卸八块。 【原因排…

关键词词云怎么做_seo关键词优化怎么做?实用技巧有哪些?

随着互联网的快速发展&#xff0c;网站不再是辅助品&#xff0c;已经成为很多企业线上营销推广的“必需品”&#xff0c;所以对很多企业来说网站是必不可少的&#xff0c;因为网站能够更好地协助传统宣传模式&#xff0c;做到线下线上相结合&#xff0c;就可以扩大影响力及提升…

扬子石墨:“网站”这张名片让我们和客户的沟通更高效

空谷网站建设已有10多年经验&#xff0c;积累了良好的业内口碑。目前公司主要业务包含高端定制网站和saas云定制建站产品均有在云市场销售。借助阿里云强大的云计算能力和平台资源&#xff0c;空谷秉承“建有价值的网站”理念&#xff0c;为全国更多的中小企业提供一站式建站服…