python模拟登录网站_用python模拟登录网站获取cookies（urllib与requests）

news/2024/5/9 22:47:49/文章来源:https://blog.csdn.net/weixin_39631899/article/details/110041487

最近在学习使用python爬取网页信息，之前也写了几篇网站爬取以及图文混排爬取到word中的例子，有兴趣的可以在本站搜索python。之前大部分是不需要登录就可以访问的资源，所以使用python爬取的时候不需要登录。但是有些网站的信息（比如论坛）必须要登录用户才能访问，使用常规的python方法就无法获取到了。对于这种需要登录才能获取内容的网站，目前接触到两种方法，第一种是使用 Selenium库来调用浏览器（chrome或firefox浏览器），模拟真实的用户操作浏览器来获取数据；另一种方法就是使用模拟登录来获取并保存cookies，并且能实现获取目标url时携带cookies进行身份验证。本文仅介绍第二种方法，部分代码来自网络基于2.x版本修改，如果你使用的时python2.x版本可以尝试修改下再使用。

源码一、python3.7+cookiejar+urllib模拟登录人人获取cookies

#encoding=utf-8

#import urllib2 #ModuleNotFoundError: No module named 'urllib2'

import urllib.request

import urllib

#import cookielib #ModuleNotFoundError: No module named 'cookielib'

import http.cookiejar

def renrenBrower(url,user,password):

#登陆页面，可以通过抓包工具分析获得，如fiddler，wireshark

#login_page用户名及密码post提交的目标url，也可以用网页打开登录地址F12查看form表单的action地址，或netwrok里面查看提交地址

login_page = "http://www.renren.com/PLogin.do"

try:

# 创建cookiejar实例对象

#cookie = http.cookiejar.CookieJar()

cookie = http.cookiejar.MozillaCookieJar("cookie.txt") #这个用于保存cookies

#cookie = cookiejar.MozillaCookieJar() #读取cookies

#cookie.load("cookie.txt")

print(cookie)

# 创建管理器

cookie_handler = urllib.request.HTTPCookieProcessor(cookie)

http_handler = urllib.request.HTTPHandler()

https_handler = urllib.request.HTTPSHandler()

# 创建请求求管理器

opener = urllib.request.build_opener(cookie_handler, http_handler, https_handler)

#获得一个cookieJar实例

#cj = cookielib.CookieJar()

#cj = http.cookiejar.CookieJar()

#cookieJar作为参数，获得一个opener的实例

#opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

#opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

#伪装成一个正常的浏览器，避免有些web服务器拒绝访问。

opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')]

#生成Post数据，含有登陆用户名密码。

#data = urllib.urlencode({"email":user,"password":password})

#urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus)

data = urllib.parse.urlencode({"email":user,"password":password}).encode('utf-8') # 提交类型不能为str，需要为byte类型

# email 及password 是表单的名字浏览器F12里面查看，另外有些站点需要提交csrf隐藏表单

#以post的方法访问登陆页面，访问之后cookieJar会自定保存cookie

opener.open(login_page,data)

#以带cookie的方式访问页面

op=opener.open(url)

print(cookie)

cookie.save()

#读取页面源码

data= op.read().decode("UTF-8")

return data

except Exception as e:

print(str(e))

#访问某用户的个人主页，其实这已经实现了人人网的签到功能。

#result = renrenBrower("http://www.renren.com/home","用户名","密码")

#我们想要获取登录后的http://www.renren.com/309365594/profile?v=info_timeline页面的内容

result = renrenBrower("http://www.renren.com/309365594/profile?v=info_timeline","xxxx@163.com","mima123446")

print(result)

正常使用中还需进一步对返回的结果页面进行处理，这里就不介绍了，可以在本站搜索python查看之前的教程结合使用。

源码二、python3.7+requests模拟登录人人获取cookies

#encoding=utf-8

import requests

def renrenBrower(url,user,password):

#登陆页面，可以通过抓包工具分析获得，如fiddler，wireshark

#login_page用户名及密码post提交的目标url，也可以用网页打开登录地址F12查看form表单的action地址，或netwrok里面查看提交地址

login_page = "http://www.renren.com/PLogin.do"

try:

# 创建Session对象

# requests库的session对象会在同一个session实例的所有请求之间使用cookies保持登录状态

session = requests.Session()

#伪装成一个正常的浏览器，避免有些web服务器拒绝访问。

headers = {'User-agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)'}

#headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'}

#在session中发送登录请求，此后这个session里就存储了cookie

#可以用print(session.cookies.get_dict())查看

resp = session.post(login_page,{"email":user,"password":password})#post提交表单数据到登录地址

# email 及password 是表单的名字浏览器F12里面查看，另外有些站点需要提交csrf隐藏表单

resp = session.get(url,headers=headers)#携带cookies 以get方式访问目标url

data = resp.content.decode('UTF-8')

print(session.cookies.get_dict())

return data

except Exception as e:

print(str(e))

#访问某用户的个人主页，其实这已经实现了人人网的签到功能。

#result = renrenBrower("http://www.renren.com/home","用户名","密码")

#我们想要获取登录后的http://www.renren.com/309365594/profile?v=info_timeline页面的内容

result = renrenBrower("http://www.renren.com/309365594/profile?v=info_timeline","xxxx@163.com","mima123446")

print(result)

总体而言使用requests还是比较方便的，推荐使用这种方法！

基于互联网精神，在注明出处的前提下本站文章可自由转载！

本文链接：https://ranjuan.cn/python-login-getcookies/

赞赏

微信赞赏支付宝赞赏

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_751715.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python模拟登录网站_用python模拟登录网站获取cookies（urllib与requests）

相关文章

网站留言板防重复留言_如何做一个2000年风格复古的个人网站（1）开发环境准备...

用html5做一个介绍自己家乡的页面_想做响应式网站，如何选一家靠谱的响应式网站开发公司？...

网站维护页面_选择网站建设公司应该注意什么？

MD毛豆新发现建站总结2014年8月20_彭世瑜_新浪博客

MD毛豆新发现建站总结2014年8月20

网站中案例怎么用html写,20个案例教你如何在网页中使用纹理图案

上传的图片所在文件夹一般在那个目录下_网站一级目录的制作方法

seo日常工作表_SEO的日常工作范畴。

url 地址参数多 404_网站建设：站内URL配置，基础手册！

wordpress建立php站点地图,WordPress代码实现网站地图sitemap的html和xml的方法

antd编写出来的网页转html,AntdSite - 一个基于React.Js的静态网站生成器

计算机组成原理中断控制器,中断控制器8259-计算机组成原理与汇编语言-电子发烧友网站...

Python编程：socket实现简单的网站服务器

整合营销系统推荐乐云seo_整合营销是什么意思整合营销的特点

服务器知识网站,分享5个服务器的知识点

我的家乡html网页设计,创作一个以“我的家乡”为主题的网站

支持html5的视频网站吗,检测浏览器是否支持html5视频的代码

18个常用的网站性能测试工具

18个常用的网站性能测试工具

分享：ThinkPHP和Webpack前后端结合构建SEO多页应用的一个思路