python 自动登录网站_解放双手，用Python自动登录25个主流网站

news/2024/5/19 20:20:22/文章来源:https://blog.csdn.net/weixin_39874366/article/details/110041374

原标题：解放双手，用Python自动登录25个主流网站

用 Python 写爬虫脚本是大家经常遇到的需求。在这个过程中，避开不了登录这一关。

使用 Python 一般会用 request 库，补充 header 中的 post 要素，有些还会有隐藏的 hidden 参数，可以通过浏览器 F12 或者元素审查来发现，对于初学者来说都是一个坑。

还有需要解决验证码的问题，一种方法是下载验证码图片识别验证码再次post，或者使用云打码平台。当然，有些验证码及其变态就不那么容易解决了，比如选字顺序、滑块、12306那种正常人都会选错的。

本篇我们分享一个GitHub项目《awesome-python-login-model》，主要就是利用 Python 解决模拟登录这个问题。截至目前已经实现了25个主流平台，在GitHub上收到12.1k个星。

Github链接：https://github.com/Kr1s77/awesome-python-login-model

▍已完成的主流网站

上面是作者已经完成的一些主流网站了，其中有的是通过selenium登录，有的是通过抓包直接模拟登录，有的是利用scrapy 框架。

这个很容易理解，因为有的网站设计比较复杂，通过抓包很难实现模拟登录，这样用 selenium+webdriver 就会相对轻松一些。

虽然在登录的时候采用的是selenium，为了效率，我们可以在登录过后得到的cookie维护起来，然后调用requests或者scrapy等进行数据采集，这样数据采集的速度可以得到保证。

▍模拟登录GitHub

这里给大家展示一个模拟登录GitHub的代码。

"""

github第二种登录方式

info:

author:CriseLYJ

github:https://github.com/CriseLYJ/

update_time:2019-3-7

"""

importre

importrequests

fromlxml importetree

classLogin(object):

classGithubLogin(object):

def__init__(self, email, password):

# 初始化信息

self.headers = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',

'Referer': 'https://github.com/',

'Host': 'github.com'

}

self.session = requests.Session

self.login_url = 'https://github.com/login'

self.post_url = 'https://github.com/session'

self.session = requests.Session

self.email = email

self.password = password

# 模拟登录

deflogin_GitHub(self):

# 登录入口

post_data = {

'commit': 'Sign in',

'utf8': '✓',

'authenticity_token': self.get_token,

'login': self.email,

'password': self.password

}

resp = self.session.post(

self.post_url, data=post_data, headers=self.headers)

print( 'StatusCode:', resp.status_code)

ifresp.status_code != 200:

print( 'Login Fail')

match = re.search( r'"user-login" content="(.*?)"', resp.text)

user_name = match.group( 1)

print( 'UserName:', user_name)

response = self.session.post(self.post_url, data=post_data, headers=self.headers)

print(response.status_code)

print(post_data)

ifresponse.status_code == 200:

print( "登录成功！")

else:

print( "登录失败！")

# 获取token信息

# Get login token

defget_token(self):

response = self.session.get(self.login_url, headers=self.headers)

html = etree.HTML(response.content.decode)

token = html.xpath( '//input[@name="authenticity_token"]/@value')[ 0]

returntoken

ifresponse.status_code != 200:

print( 'Get token fail')

returnNone

match = re.search(

r'name="authenticity_token" value="(.*?)"', response.text)

ifnotmatch:

print( 'Get Token Fail')

returnNone

returnmatch.group( 1)

if__name__ == '__main__':

email = input( '请输入您的账号： ')

password = input( '请输入您的密码： ')

email = input( 'Account:')

password = input( 'Password:')

相信这对初学爬虫的朋友是一个很好的教程。

但提示一下，模拟登录的代码随时都有可能失效，因为前端的网页HTML、CSS、JS等结构可能会根据公司业务调整之类的发生变化。

所以，重点是通过实例掌握背后的实现原理和绕过反爬的技巧，学会这些就可以自己调试完成登录，那时候你也可以成为 contributor 了！

Github链接：https://github.com/Kr1s77/awesome-python-login-model

作者：Boy哥

来源：GitHuboy（Handsome_Coder）

爬虫必备工具，掌握它就解决了一半的问题返回搜狐，查看更多

责任编辑：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_807362.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python 自动登录网站_解放双手，用Python自动登录25个主流网站

相关文章

在服务器上同时执行多个kettle_一台服务器上如何创建多个网站？

什么是CDN，网站被攻击时该怎么防

php1139,已解决！php-fpm配置弄错了，面板，网站都502 Bad Gateway

java jpanel 数据刷新6,Java提取网站后台数据进行处理并排名

服务器ip端口ip显示全部未分配,IIS网站属性里，只有(全部未分配)，找不到IP地址的解决方法...

Matlab标定工具箱使用教程（对应英文网站）

html铺满整个页面_自适应网站页面适配实现和基本原理讲解

css不显示_Web 性能优化：21 种优化 CSS 和加快网站速度的方法

html5 企业网站模板多语言,通用HTML5企业网站模板

麒麟服务器上安装.Net Core环境并发布web网站

不吹不黑，“滴滴，移动端静态网站开发

wap网站制作教程，Github标星5.3K

最后的绿洲服务器人数查询网站,末日生存MMO《最后的绿洲》重启压力测试，Steam体验人数回升...

个人网站新功能：聊天室

全球最大同性交友网站的所有用户密码都无法登录！！！

简谈网站架构演变过程

使用WebPageTest评估Web网站性能

创建一个过滤器，实现网站访问计算器的功能，并在web.xml文件的配置中，将网站访问量的初始值设为5000

如何给网站添加百度统计

网站加载速度影响因素以及如何增强