cookielib和urllib2模块相结合模拟网站登录

news/2024/5/17 20:09:20/文章来源:https://blog.csdn.net/weixin_34319111/article/details/92276582

1.cookielib模块

cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。例如可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送。coiokielib模块用到的对象主要有下面几个：CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。其中他们的关系如下：

2.urllib2模块

说到urllib2模块最强大的部分绝对是它的opener，

urllib2模块的 OpenerDirector 操作类。这是一个管理很多处理类（Handler）的类。而所有这些 Handler 类都对应处理相应的协议，或者特殊功能。分别有下面的处理类：

BaseHandler
HTTPErrorProcessor
HTTPDefaultErrorHandler
HTTPRedirectHandler
ProxyHandler
AbstractBasicAuthHandler
HTTPBasicAuthHandler
ProxyBasicAuthHandler
AbstractDigestAuthHandler
ProxyDigestAuthHandler
AbstractHTTPHandler
HTTPHandler
HTTPCookieProcessor
UnknownHandler
FileHandler
FTPHandler
CacheFTPHandler

cookielib模块一般与urllib2模块配合使用，主要用在urllib2.build_oper()函数中作为urllib2.HTTPCookieProcessor()的参数。

由此可以使用python模拟网站登录。

先写个获取CookieJar实例的demo：

 1 #!/usr/bin/env python 2 #-*-coding:utf-8-*- 3  4 import urllib 5 import urllib2 6 import cookielib 7  8 #获取Cookiejar对象（存在本机的cookie消息） 9 cookie = cookielib.CookieJar()10 #自定义opener,并将opener跟CookieJar对象绑定11 opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))12 #安装opener,此后调用urlopen()时都会使用安装过的opener对象13 urllib2.install_opener(opener)14 15 url = "http://www.baidu.com"   16 urllib2.urlopen(url)

然后写个用POST方法来访问网站的方式（用urllib2模拟一起post过程）：

 1 #! /usr/bin/env python 2 #coding=utf-8 3  4 import urllib2 5 import urllib 6 import cookielib 7  8 def login(): 9     email = raw_input("请输入用户名:")10     pwd = raw_input("请输入密码:")11     data={"email":email,"password":pwd}  #登陆用户名和密码12     post_data=urllib.urlencode(data)   #将post消息化成可以让服务器编码的方式13     cj=cookielib.CookieJar()   #获取cookiejar实例14     opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))15     #自己设置User-Agent（可用于伪造获取，防止某些网站防ip注入）16     headers ={"User-agent":"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1"}17     website = raw_input('请输入网址:')18     req=urllib2.Request(website,post_data,headers)19     content=opener.open(req)20     print content.read()    #linux下没有gbk编码，只有utf-8编码21 22 if __name__ == '__main__':23     login()

注意这个例子经过测试，发现只有人人网和开心网之类的网站可以，而像支付宝，百度网盘，甚至是我们学校的教务系统都不能成功登录，就会显示如下的报错消息：

Traceback (most recent call last):File "login.py", line 23, in <module>login()File "login.py", line 19, in logincontent=opener.open(req)File "/usr/lib/python2.7/urllib2.py", line 406, in openresponse = meth(req, response)File "/usr/lib/python2.7/urllib2.py", line 519, in http_response    'http', request, response, code, msg, hdrs)File "/usr/lib/python2.7/urllib2.py", line 444, in error    return self._call_chain(*args)File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chainresult = func(*args)File "/usr/lib/python2.7/urllib2.py", line 527, in http_error_default    raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 405: Method Not Allowed

可能是这些网站在编写时不接受客户端请求该方法，具体原因我也不知道为什么。而且这个程序不能自动通过有验证码验证的网站，所以纯粹学习它的原理吧。

然后放一下用python模拟登录的几个示例（转自：http://www.nowamagic.net/academy/detail/1302882）

#  -*- coding: utf-8 -*-# !/usr/bin/pythonimport urllib2import urllibimport cookielibimport reauth_url = 'http://www.nowamagic.net/'home_url = 'http://www.nowamagic.net/';# 登陆用户名和密码data={    "username":"nowamagic",    "password":"pass"}# urllib进行编码post_data=urllib.urlencode(data)# 发送头信息headers ={    "Host":"www.nowamagic.net", "Referer": "http://www.nowamagic.net"}# 初始化一个CookieJar来处理CookiecookieJar=cookielib.CookieJar()# 实例化一个全局openeropener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cookieJar))# 获取cookiereq=urllib2.Request(auth_url,post_data,headers)
result = opener.open(req)# 访问主页 自动带着cookie信息result = opener.open(home_url)# 显示结果print result.read()

1. 使用已有的cookie访问网站

import cookielib, urllib2ckjar = cookielib.MozillaCookieJar(os.path.join('C:\Documents and Settings\tom\Application Data\Mozilla\Firefox\Profiles\h5m61j1i.default', 'cookies.txt'))req = urllib2.Request(url, postdata, header)req.add_header('User-Agent', \ 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(ckjar) )f = opener.open(req) 
htm = f.read() 
f.close()

2. 访问网站获得cookie，并把获得的cookie保存在cookie文件中

import cookielib, urllib2req = urllib2.Request(url, postdata, header) 
req.add_header('User-Agent', \ 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')ckjar = cookielib.MozillaCookieJar(filename) 
ckproc = urllib2.HTTPCookieProcessor(ckjar)opener = urllib2.build_opener(ckproc)f = opener.open(req) 
htm = f.read() 
f.close()ckjar.save(ignore_discard=True, ignore_expires=True)

3. 使用指定的参数生成cookie,并用这个cookie访问网站

import cookielib, urllib2cookiejar = cookielib.CookieJar()
urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
values = {'redirect':", 'email':'abc@abc.com', 'password':'password', 'rememberme':", 'submit':'OK, Let Me In!'}data = urllib.urlencode(values)request = urllib2.Request(url, data)
url = urlOpener.open(request)print url.info()
page = url.read()request = urllib2.Request(url)
url = urlOpener.open(request)
page = url.read()print page

转载于:https://blog.51cto.com/magicpwn/1753524

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_752956.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！