认识爬虫：提取网站 cookie 信息，并使用 cookie 信息实现登录

news/2024/5/11 4:32:46/文章来源:https://blog.csdn.net/chengxuyuan_110/article/details/115437874

为什么要使用 cookie 信息来进行爬虫呢？做后端的朋友们都知道，一般情况下，在服务器上发布接口都是要设置身份信息验证，验证的方式就是通过 cookie 信息中包含的身份认证来进行验证。在身份验证通过之后，才能获取到响应接口的信息，所以，掌握这一点在爬虫过程中也是极为必要，不然只能爬取一些不需要验证的公开信息，话不多说，我们进入实战环节。

1、导入依赖的第三方扩展库

 1# -*- coding: UTF-8 -*-23# 导入 urllib 库，对请求参数进行编码4import urllib56# 导入 urllib2 库，完成网络请求7import urllib289# 导入 cookielib 库，用于操作 cookie 信息
10import cookielib

2、登录网站并提取 cookie 信息进行保存

 1# 设置文件路径2filename = u'usr/load/cookie.txt'34# 创建 MozillaCookieJar 对象用于操作 cookie 信息5cookie_obj = cookielib.MozillaCookieJar(filename)6# 构建 opener 对象7opener_obj = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_obj))89# 构建用户名、密码，并进行 encode 编码
10params = urllib.urlencode({
11    'account': '000000',
12    'passwd': '000000'
13})
14
15# 定义网站登录地址
16login_url = 'http://wefd.com/login'
17
18# 向服务器发送请求、实现用户名/密码登录
19result = opener_obj.open(url=login_url, data=params)
20
21# 保存 cookie 信息
22cookie_obj.save(ignore_discard=True, ignore_expires=True)

3、提取保存的 cookie 信息并使用 cookie 信息完成登录

 1# 创建 MozillaCookieJar 实例对象用于操作 cookie 信息2cookie_obj = cookielib.MozillaCookieJar()34# 设置文件路径5filename = u'usr/load/cookie.txt'67# 加载 cookie 信息到 MozillaCookieJar 对象8cookie_obj.load(filename, ignore_discard=True, ignore_expires=True)9
10# 定义网站登录地址
11login_url = 'http://wefd.com/login'
12
13# 创建 Request 请求
14request = urllib2.Request(login_url)
15
16# 构建 opener 对象，并加入 cookie 信息
17opener_obj = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_obj))
18
19# 执行登录请求
20response = opener_obj.open(request)
21print response.read()