认识爬虫:提取网站 cookie 信息,并使用 cookie 信息实现登录

news/2024/5/11 4:32:46/文章来源:https://blog.csdn.net/chengxuyuan_110/article/details/115437874

为什么要使用 cookie 信息来进行爬虫呢?做后端的朋友们都知道,一般情况下,在服务器上发布接口都是要设置身份信息验证,验证的方式就是通过 cookie 信息中包含的身份认证来进行验证。在身份验证通过之后,才能获取到响应接口的信息,所以,掌握这一点在爬虫过程中也是极为必要,不然只能爬取一些不需要验证的公开信息,话不多说,我们进入实战环节。

1、导入依赖的第三方扩展库
 1# -*- coding: UTF-8 -*-23# 导入 urllib 库,对请求参数进行编码4import urllib56# 导入 urllib2 库,完成网络请求7import urllib289# 导入 cookielib 库,用于操作 cookie 信息
10import cookielib
2、登录网站并提取 cookie 信息进行保存
 1# 设置文件路径2filename = u'usr/load/cookie.txt'34# 创建 MozillaCookieJar 对象用于操作 cookie 信息5cookie_obj = cookielib.MozillaCookieJar(filename)6# 构建 opener 对象7opener_obj = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_obj))89# 构建用户名、密码,并进行 encode 编码
10params = urllib.urlencode({
11    'account': '000000',
12    'passwd': '000000'
13})
14
15# 定义网站登录地址
16login_url = 'http://wefd.com/login'
17
18# 向服务器发送请求、实现用户名/密码登录
19result = opener_obj.open(url=login_url, data=params)
20
21# 保存 cookie 信息
22cookie_obj.save(ignore_discard=True, ignore_expires=True)
3、提取保存的 cookie 信息并使用 cookie 信息完成登录
 1# 创建 MozillaCookieJar 实例对象用于操作 cookie 信息2cookie_obj = cookielib.MozillaCookieJar()34# 设置文件路径5filename = u'usr/load/cookie.txt'67# 加载 cookie 信息到 MozillaCookieJar 对象8cookie_obj.load(filename, ignore_discard=True, ignore_expires=True)9
10# 定义网站登录地址
11login_url = 'http://wefd.com/login'
12
13# 创建 Request 请求
14request = urllib2.Request(login_url)
15
16# 构建 opener 对象,并加入 cookie 信息
17opener_obj = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_obj))
18
19# 执行登录请求
20response = opener_obj.open(request)
21print response.read()

更多精彩前往微信公众号【Python 集中营】,专注于 python 技术栈,资料获取、交流社区、干货分享,期待你的加入~

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_826703.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初学者福利:分享五个免费的 Python 学习网站,抓紧收藏吧

最近有好多人说刚开始学习,有哪些免费的学习网站可以自学一下。于是,趁着周末的时间在各大网站上面梳理了一下找出了六个比较好的学习网站,并且都是免费的,比较适合初学者了解一些基础语法、解决BUG问题。如果是大佬的话了解一下就…

Python爬虫建站入门手记——从零开始建立采集站点(三:采集入库)

上回,我已经大概把爬虫写出来了。 我写了一个内容爬虫,一个爬取tag里面内容链接的爬虫 其实还差一个,就是收集一共有哪些tag的爬虫。但是这里先不说这个问题,因为我上次忘了 这次又不想弄。。 还有个原因:如果实际采集…

怎样自己创建一个个人网站,怎样将自己写的网站发布到外网?

注**:本教程是在window平台上的展示: 以下只是一个简单的html网页,如果想了解整体系统功能(包括登录,注册,数据库,后台等功能)可以加我微信号yizheng369咨询哈 华丽分割线 注意&…

生成微信二维码,微信扫码登录网站

微信扫码登录网站 源码地址1(这个是nodejs项目实现):https://gitee.com/618859/wx_login_qrcode 源码地址2(这个是前端vue3项目中实现微信扫码登录源码): https://gitee.com/618859/wx_login_qrcode_vue 源码地址3(这个是前端vue2项目中实现微信扫码登录…

网站流量统计系统 phpMyVisites

phpMyVisites是一个网站流量统计系统,它能够提供非常详细的统计报告和高级图形报表。phpMyVisites不是一个Apache log分析工具,它建有自己的log。它的特点包括: 安装部署:提供可视化的安装向导,并且使用简单只要把一段…

基于LAMP 的NFS数据共享论坛网站

基于LAMP 的NFS数据共享论坛网站实现要求:1.在两台或多台Linux系统上安装LAP(Apache和php),一台安装mariadb,一台安装DNS服务器。2.其中LAP之间的网页数据是相同的,且安装Discuz论坛,论坛上传的…

史上最形象最清晰网站集群物理拓扑及逻辑拓扑图分享!

老鸟谈画图能力对运维人员的重要性http://oldboy.blog.51cto.com/2561410/1686224手把手带你快速做【最专业】的项目文档实战(已有500人看了视频)http://edu.51cto.com/course/course_id-4992.html手把手带你快速画【最专业】的逻辑架构图实战(已有1000人看了视频)http://edu.5…

网站开发流程管理

需求分析阶段:   这一阶段,您的需求分析人员首先设计出站点的SITEMAP,之后规划站点所需功能、内容结构页面等。功能、内容结构页面演示给客户可以让您迅速的了解到客户真实需求。减少变更的可能性。该阶段所要输出的文档:A&…

如何简单的抓取网站数据

1.首先,用带debug的火狐浏览器,访问要抓取的网站,通过debug的控制台或网络找到数据的接口。2.Spring框架自3.0版本起,自带了任务调度功能,好比是一个轻量级的Quartz,而且使用起来也方便、简单,且…

用于加密研究的 5 大网站

用于加密研究的 5 大网站 DeFi是一个术语,指建立在区块链基础上的一组金融工具。这个想法是允许任何有互联网接入的人不经过中间商就可以借贷。DeFi是区块链和去中心化网络空间中增长最快的领域之一。 需要了解能够帮助您利用DeFi趋势的工具。DeFi工具提供了多种不…

10 个Web3 设计灵感网站

10 个Web3 设计灵感网站:Cosmos、Axies Infinity、DeSo Foundation、Foundation App、Llama、Snapshot、Juicebox、Alchemy、RabbitHole 正如Twitter前首席执行官Jack Dorsey最近发的一条推文“你不拥有web3,但风险投资家拥有”,而Marc Andre…

阿里云盾网站安全防御(WAF)的使用方法(图文)

2019独角兽企业重金招聘Python工程师标准>>> 将2个网站搬到阿里云,一个是因为阿里云稳定,另一个就是牛逼轰轰的云盾了。之前在博客联盟群里模拟CC攻击过搭建在阿里云ECS上的博客,结果云盾毫无反应,而网站已经挂了。 这…

05.网站点击流数据分析项目_模块开发_ETL

项目的数据分析过程在hadoop集群上实现,主要应用hive数据仓库工具,因此,采集并经过预处理后的数据,需 要加载到hive数据仓库中,以进行后续的挖掘分析。 ETL:用来描述将数据从来源端经过抽取(ext…

关于'大热网'SEO及百度推广的研究(上)

基本概念 SEO:搜索引擎优化,简单来说就是 靠自己做优化,使得排名靠前,时间长见效慢。 SEM:搜索引擎营销,简单来说就是 给“baidu”等搜索引擎钱,通过推广竞价的方式,达到排名靠前的效果&#xf…

python+flask搭建CNN在线识别手写中文网站

使用pythonflask搭建的一个网站,然后从网页的写字板上获取鼠标手写的汉字经过转码后传回后台,并经过图片裁剪处理之后传入CNN手写中文识别的模型中进行识别,最后通过PIL将识别结果生成图片,最后异步回传给web端进行识别结果展示。…

flask微视频网站(环境准备)

文章目录简介项目结构蓝图数据库简介 跟着做一个微电影视频网站WindowsPython3.9.6MySQL8.0pycharm安装py虚拟环境# 不添加源就会失败,还提示你要升级pip,千万别升级! pip install -i http://pypi.douban.com/simple/ --trusted-host pypi.d…

flask视频网站(前端)

文章目录前端界面前台电影列表404后台小结前端界面 前端的搭建目前水平只能靠模板了 在templates中新建admin/home 前台 搭建顶部和底部,新建 home.html 这部分是所有页面都要用到的,后面的模板继承也是基于此,用block增加内容&#xff01…

flask视频网站(后台管理)

文章目录简介管理员登录标签管理电影管理电影预告管理会员管理评论管理电影收藏管理员密码修改日志管理操作日志管理员登录日志会员登录日志小结简介 这一部分要实现具体的后台管理逻辑基本逻辑如下: 管理员登录 将之前models中数据库的认证部分移动到app初始化…

flask视频网站(权限控制)

文章目录AuthRoleAdmin权限控制Auth 基于角色的访问权限控制 有的管理员只能访问日志,而有的能访问会员列表,有的管理电影这部分还属于admin 从创建表单模型开始,别着急class AuthForm(FlaskForm):"""访问权限控制"&quo…

ASP.NET Core 网站在Docker中运行

Docker作为新一代的虚拟化方式,未来肯定会得到广泛的应用,传统虚拟机的部署方式要保证开发环境、测试环境、UAT环境、生产环境的依赖一致性,需要大量的运维人力,使用Docker我们可以实现一次部署,到处运行。 本文介绍如…