post python爬虫_400集大型Python学习视频,免费分享,用Python登录24个主流网站

news/2024/5/10 17:30:06/文章来源:https://blog.csdn.net/weixin_39763902/article/details/110559161

ef3f96c29485ca9e6d1c90bc585f20cb.png

85ede235f3b70e0788e2130315580d23.png

2020最新Python零基础到精通资料教材,Python基础入门,Python小白书籍,Python学习路线,Python进阶,Python高级,Python爬虫等等一系列关于Python的文档和视频(包括hadoop,fink,hive,MySQL,spark,算法,Linux)

全都打包好了

需要的请主动找我私信“资料”获取,也可在评论区评论,请说明来意

f189665695dc0a7769bb081cab5a7747.png

27b2824df699d4a14a1b5bca966557fe.png

e4a7e8124882cb4dc9e147efec5a59c7.png

c9640f4bb2be6e857452f44503107f22.png

爬虫脚本是大家经常用到的,那就避开不了登录这一关。

使用Python一般需要request库,补充 header 中的 post 要素,有些还会有 隐藏的 hidden 参数,可以通过浏览器 F12 或者元素审查来发现,对于初学者来说都是一个坑。还有需要解决验证码的问题,一种方法是下载验证码图片识别验证码再次post,或者使用云打码平台。当然,有些验证码及其变态就不那么容易解决了,比如选字顺序、滑块、12306那种人为都会选错的。本篇boy哥分享一个GitHub项目《awesome-python-login-model》,主要就是利用Python解决登录主流平台的,包含24个主流平台,目前在GitHub上已经表星11.8k了。Github链接:https://github.com/Kr1s77/awesome-python-login-model

▍已完成的主流网站

1e8a7e8121721697dc1df0ad6e207acb.png

上面是作者已经完成的一些主流网站了,其中有的是通过 selenium登录,有的是通过 抓包直接模拟登录,有的是利用scrapy框架。这个很容易理解,因为有的网站设计比较复杂,通过抓包很难实现模拟登录,这样用 selenium+webdriver 就会相对轻松一些。虽然在登录的时候采用的是selenium,为了效率,我们可以在登录过后得到的cookie维护起来,然后调用requests或者scrapy等进行数据采集,这样数据采集的速度可以得到保证。

▍模拟登录GitHub

这里boy哥给大家展示一个模拟登录GitHub的代码。

"""
github第二种登录方式
info:
author:CriseLYJ
github:https://github.com/CriseLYJ/
update_time:2019-3-7
"""import re
import requests
from lxml import etreeclass Login(object):
class GithubLogin(object):def __init__(self, email, password):# 初始化信息self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36','Referer': 'https://github.com/','Host': 'github.com'}self.session = requests.Session()self.login_url = 'https://github.com/login'self.post_url = 'https://github.com/session'self.session = requests.Session()self.email = emailself.password = password# 模拟登录def login_GitHub(self):# 登录入口post_data = {'commit': 'Sign in','utf8': '✓','authenticity_token': self.get_token(),'login': self.email,'password': self.password}resp = self.session.post(self.post_url, data=post_data, headers=self.headers)print('StatusCode:', resp.status_code)if resp.status_code != 200:print('Login Fail')match = re.search(r'"user-login" content="(.*?)"', resp.text)user_name = match.group(1)print('UserName:', user_name)response = self.session.post(self.post_url, data=post_data, headers=self.headers)print(response.status_code)print(post_data)if response.status_code == 200:print("登录成功!")else:print("登录失败!")# 获取token信息# Get login tokendef get_token(self):response = self.session.get(self.login_url, headers=self.headers)html = etree.HTML(response.content.decode())token = html.xpath('//input[@name="authenticity_token"]/@value')[0]return tokenif response.status_code != 200:print('Get token fail')return Nonematch = re.search(r'name="authenticity_token" value="(.*?)"', response.text)if not match:print('Get Token Fail')return Nonereturn match.group(1)if __name__ == '__main__':email = input('请输入您的账号: ')password = input('请输入您的密码: ')email = input('Account:')password = input('Password:')login = Login(email, password)login = GithubLogin(email, password)login.login_GitHub()

相信这对初学爬虫的朋友是一个很好的教程。但提示一下,模拟登录的代码随时都有可能失效,因为前端的网页HTML、CSS、JS等结构可能会根据公司业务调整之类的发生变化。所以,重点是掌握了各种技巧,学会这些完全可以自己调试完成登录,那时候你也可以成为 contributor 了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_721157.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux对比win10对硬件的要求,硬件兼容性 - Ubuntu 12.10击败Windows 8的十个理由_Linux新闻_Linux公社-Linux系统门户网站...

4. 硬件兼容性为了在自己的PC机上顺利运行Windows 8,大家需要一块主频至少为1GHz的处理器且必须支持PAE、NX以及SSE2。另外,大家还需要至少1GB(32位版本)或2GB内存(64位版本)以及16GB(32位版本)或20GB(62位版本)的硬盘存储空间。根据微软的说法&#xff…

服务器网页打开是什么原因,网站打开速度有哪些原因?

原标题:网站打开速度有哪些原因?假如企业的网站突然间出现了打开速度慢的情况,那么就要开始仔细检测了。经过专业的检测之后,排除那些临时网络波动等情况,如果还是打开速度一直很慢,那么就要确诊原因&#…

新建网站如何跟服务器连接,flashfxp怎么用(新建添加网站[站点]连接)

flashfxp 是一款 ftp 软件,实现本地计算机到远程服务器的文件上传和下载功能。做过网站的用户相信大多数都用过 ftp,因为架设网站前需要把所网站文件上传到购买的虚拟空间(远程服务器),常用的上传工具就 flashfxp。在用 flashfxp 上传网站文件…

网站证书ssl

为什么80%的码农都做不了架构师?>>> 方法一: https://www.sslforfree.com/ #DNS验证下载ssl证书 cat certificate.crt、ca_bundle.crt >> server.crt vi server.crt 没有换行符,第二个文件需要在第一个文件的下一行粘贴&am…

php可行性分析,福州美食网站分析与设计(PHP,MySQL)(含录像)

福州美食网站分析与设计(PHP,MySQL)(含录像)(任务书,毕业论文8000字,程序代码,MySQL数据库)摘要当代中国饮食文化研究热最初肇始于“烹饪研究”,这种“研究”是以20世纪70年代中叶以后开始的餐饮业流行和技工学校需要的美食的编写为前奏。20世纪80年代初以后&#x…

大型系统的java中间件实践_大型网站系统与Java中间件实践

中间件--软件胶水,起到桥梁的作用volatile读:不会有线程的本地副本,只会从主存读取写:只有一份主存的数据synchronized读:保证本地副本与主存的同步写:把当前线程修改的变量的本地副本同步给主存&#xff0…

二进制证书如何显示pem格式_在阿里云购买SSL证书,让网站支持HTTPS

SSL简介以下内容引用自:百度百科:SSLSSLSSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS与SSL在传输层与应用层之间对…

如何解决网站首页老被黑客篡改并被百度安全中心拦截提示 该页面存在木马病毒的实战过程...

2018.6.19当天接到一位新客户反映自己的网站被黑了,网站首页也被黑客篡改了,网站首页被加了一些与网站不相符的内容与加密的代码,导致百度网址安全中心提醒您:该页面可能存在木马病毒!网站在百度的收录与快照也被劫持成什么世界杯投注&#x…

无法修改服务器名称_网站设计:WordPress网站搬家简要教程(修改)

一、背景1、我的axuretop.com(域名已经注销),是用的阿里云香港虚拟主机,访问速度太慢。使用阿里云主机管理控制台进行网站管理2、注册的jidong.tech(域名已经注销)是郑州景安网络备案,服务器是国内郑州的,访…

“双十一”、“双十二”大促期间,如何防止网站崩溃?

“双十一”、“双十二”期间是所有电商行业的流量高峰期,作为一个电商网站,如果不能保障流畅运行,将会对企业造成巨大的经济损失。回顾去年天猫“双十一”,当天日活跃用户到达峰值3.56亿,交易创建峰值32.5万笔/秒、支付…

基于RHEL6使用rsync构建镜像网站

概述1、rsync(Remote Sync远程同步)是一款开源的快速备份工具,可以在不同主机间镜像同步数据,支持本地复制,或与其他SSH、rsync主机同步,rsync应用广泛,大多数Linux都将其作为默认组件已安装。2…

百度网站优化:如何提高蜘蛛抓取量?

在SEO工作中,适当的增加百度蜘蛛对网站的抓取,有利于提升网站内容的收录量,从而进一步排名的提升。这是每个网站运营管理人员,必须要思考的问题,那么在提高网站百度蜘蛛抓取量之前,我们必须要考虑的一个问题…

查看网站服务器操作系统,查看网站的服务器操作系统

查看网站的服务器操作系统 内容精选换一换公网域名解析是基于Internet网络的域名解析过程,可以把人们常用的域名(如www.example.com)转换成用于计算机连接的IP地址(如1.2.3.4)。公网域名解析支持通过直接在浏览器中输入域名,访问网站或Web应用程序。云解…

使用Bootstrap 3开发响应式网站实践04,使用Panels展示内容

在Bootstrap页面中&#xff0c;通常用Panels来展示主要功能的内容。该部分Html为&#xff1a;<div class"row" id"featureHeading"><div class"col-md-12"><h2>更多信息</h2><p class"lead">广州恒大淘…

TLS 1.2协议现漏洞,近3000网站或受影响

雷锋网2月12日消息&#xff0c;Citrix发现SSL 3.0协议的后续版本TLS 1.2协议存在漏洞&#xff0c;该漏洞允许攻击者滥用Citrix的交付控制器(ADC)网络设备来解密TLS流量。 Tripwire漏洞挖掘研究小组的计算机安全研究员克雷格•杨(Craig Yang)称&#xff1a;“TLS 1.2存在漏洞的…

网站被黑该怎么修复漏洞

近日wordpress被爆出高危的网站漏洞&#xff0c;该漏洞可以伪造代码进行远程代码执行&#xff0c;获取管理员的session以及获取cookies值&#xff0c;漏洞的产生是在于wordpress默认开启的文章评论功能&#xff0c;该功能在对评论的参数并没有进行详细的安全过滤与拦截&#xf…

Windows Server 系统查看网站对应的PID

2019独角兽企业重金招聘Python工程师标准>>> 一、Windows Server 系统查看网站对应的PID windows2008&#xff08;iis7&#xff09;操作步骤 1.在Windows任务管理器中点击查看–选择列–选择PID(进程标识符)&#xff0c;这样在进程中就会显示进程ID号。 2.然后在cmd…

php 框架 模板_用PHP制作静态网站的模板框架

用PHP制作静态网站的模板框架更新时间&#xff1a;2006年10月09日 00:00:00 作者&#xff1a;模板能够改善网站的结构。本文阐述如何通过PHP 4的一个新功能和模板类&#xff0c;在由大量静态HTML页面构成的网站中巧妙地运用模板控制页面布局。提纲&#xff1a;分离功能和布局…

php 来访者,php获取来访者在搜索引擎搜索某个关键词,进入网站

php获取来访者在搜索引擎搜索某个关键词&#xff0c;进入网站​​​代码入下&#xff1a;<?php //获取来访者在搜索引擎搜索某个关键词&#xff0c;进入网站$word search_word_from();if(!empty($word[keyword])){echo 关键字&#xff1a;.$word[keyword]. 来自&#xff1…

搜索网页显示找不到服务器,显示:DNS 查找失败,因此找不到 x 的服务器。DNS 是将网站名称解析为互联网地址的网络服务...

【Win7解决方案】【问题描述】&#xff1a;通过网页无法下载文件【原因分析】&#xff1a;1. 下载资源问题&#xff1b;2. DNS设置问题&#xff1b;3. Internet设置问题。【简易步骤】&#xff1a;方案二&#xff1a;打开【网络图标】—打开【打开网络与共享中心】—【更改适配…