如何用 Python 爬取需要登录的网站

news/2024/5/16 5:42:31/文章来源:https://blog.csdn.net/weixin_34306593/article/details/90097947

【原文地址:】http://python.jobbole.com/83588/

 

复制代码
import requests
from lxml import html# 创建 session 对象。这个对象会保存所有的登录会话请求。
session_requests = requests.session()# 提取在登录时所使用的 csrf 标记
login_url = "https://bitbucket.org/account/signin/?next=/"
result = session_requests.get(login_url)tree = html.fromstring(result.text)
authenticity_token = list(set(tree.xpath("//input[@name='csrfmiddlewaretoken']/@value")))[0]payload = {"username": "<你的用户名>", "password": "<你的密码>", "csrfmiddlewaretoken": authenticity_token # 在源代码中,有一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。
}# 执行登录
result = session_requests.post(login_url, data = payload, headers = dict(referer=login_url)
)# 已经登录成功了,然后从 bitbucket dashboard 页面上爬取内容。
url = 'https://bitbucket.org/dashboard/overview'
result = session_requests.get(url, headers = dict(referer = url)
)# 测试爬取的内容
tree = html.fromstring(result.content)
bucket_elems = tree.findall(".//span[@class='repo-name']/")
bucket_names = [bucket.text_content.replace("n", "").strip() for bucket in bucket_elems]print(bucket_names)
复制代码

 

本文转自罗兵博客园博客,原文链接:http://www.cnblogs.com/hhh5460/p/5067678.html,如需转载请自行联系原作者

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_763365.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

反击黑客之对网站攻击者的IP追踪

ip追踪是一件比较难实现的&#xff0c;因为我只有一个ip&#xff0c;而且在没有任何技术支持下对该ip追踪&#xff0c;同时我在公司也没有服务器权限&#xff0c;仅有后台&#xff0c;一般的ip追踪技术分类&#xff0c;反应式ip追踪&#xff0c;主动式的追踪&#xff0c;分享的…

利用squid反向代理提高网站性能

利用squid反向代理提高网站性能 本文在介绍 squid 反向代理的工作原理的基础上&#xff0c;指出反向代理技术在提高网站访问速度&#xff0c;增强网站可用性、安全性方面有很好的用途。作者在具体的实验环境下&#xff0c;利用 DNS 轮询和 Squid 反向代理技术&#xff0c;实现了…

一个很好的命令行分享网站

跟上一篇一样 发现有一个分享的工具 https://asciinema.org/a/24707 看视频处理 还能够 copy出里面的内容 直接看官网 感觉自己知道的太少了.. 还有那么好用的东西 一边教学 一边还能复制东西. mark一下. 以后多学习. 转载于:https://www.cnblogs.com/jinanxiaolaohu/p/9337904…

【阿里云】云服务器 ECS部署网站

我是广告!!! https://promotion.aliyun.com/ntms/yunparter/invite.html?userCodehgk32vx5 领券更优惠,老板看着来~ 1.服务器购买 服务器:(推荐) https://promotion.aliyun.com/ntms/act/campus2018.html?utm_contentse_1000442225 ps:可以放多个网站一个人买觉得贵的话,可以…

移动网站性能优化:网页加载技术概览

性能一直是网站成功的关键。越来越多的研究已经证明&#xff0c;不管是小型电商&#xff0c;还是像沃尔玛那样的连锁店&#xff0c;即使是页面加载时间方面的细微改善&#xff0c;都可以带来更多的业务&#xff0c;更多的广告收入&#xff0c;更多的用户粘性和更多的客户满意度…

小白建站——宝塔Linux配合阿里云服务器搭建属于自己的网站

古之立大事者&#xff0c;不惟有超世之才&#xff0c;亦必有坚忍不拔之志——苏轼 写在前面 由于现在大部分服务器都是 Linux 系统&#xff0c;全球最快的10台超级计算机也是 Linux 系统&#xff0c;由于 Linux 本身有一些难度&#xff0c;上手的成本比较高&#xff0c;这就导…

Linux系统下利用wget命令把整站下载做镜像网站

Linux系统下利用wget命令把整站下载做镜像网站 2011-05-28 18:13:01 | 1次阅读 | 评论&#xff1a;0 条 | itokit 在linux下完整的用wget命令整站采集网站做镜像 的命令是及无视网站根目录下的robots.txt限制。并且可以模拟一个正常浏览者的信息下载该网站。 C/C Code复制内容…

Leader:马上中秋节了,你在网站的console面板中画一个嫦娥奔月,要有逼格

Hello 大家好&#xff0c;我是一碗周&#xff0c;不是你想的那个“一碗粥”&#xff0c;是一个不想被喝掉的前端&#x1f468;&#x1f3fb;‍&#x1f4bb;&#xff0c;如果我写的文章有幸可以得到你的青睐&#xff0c;万分有幸~ Leader&#xff1a;小周&#xff0c;还有十来天…

学习笔记网站之在ASP和PHP语言及数据库选择上的3个要点[图文]

2019独角兽企业重金招聘Python工程师标准>>> 学习笔记网站之在ASP和PHP语言及数据库选择上的3个要点[图文] 去年12月份&#xff0c;我开始着手建立一个学习类的博客网站&#xff0c;由于博客站点我以前就接触过&#xff0c;因此在网站建设方面还是有些心得的&#x…

[个人网站搭建]·极简方式实现打赏功能

[个人网站搭建]极简方式实现打赏功能 可以查看我的个人主页&#xff0c;参看效果--> http://www.yansongsong.cn 个人网站搭建github地址&#xff1a;https://github.com/xiaosongshine/djangoWebs 在个人网站博客中&#xff0c;打赏赞助是对作者的一种支持与鼓励&#xff…

通过小程序实现网站扫码登录!每年都可以省 300 块...代替微信开放平台和服务号的登陆模式!...

我们知道&#xff0c;要接入微信登陆有两种方式 1、微信开放平台2、微信服务号 这两种方式均可生成带参数的二维码&#xff0c;然后扫码获取用户基本信息的&#xff0c;所以我们可以在网站上用这两种方式开发网站的扫码登录&#xff0c;也是现在很多网站的通用做法。 微信开放平…

iis6开户gzip 网站属性里面没有服务选项卡

请注意一点&#xff0c;是直接在名为“网站”的文件夹上面右键选择属性&#xff0c;不是去点下面建立的某一个网站。开户GZIP是整台服务器上面的虚拟主机都同时开启的&#xff0c;不对针某一个单独网站。 开启Gzip具体步骤&#xff1a; 1. 在 "IIS 管理器" 中&am…

MetInfo最新网站漏洞如何修复以及网站安全防护

2019独角兽企业重金招聘Python工程师标准>>> metinfo漏洞于2018年10月20号被爆出存在sql注入漏洞&#xff0c;可以直接拿到网站管理员的权限&#xff0c;网站漏洞影响范围较广&#xff0c;包括目前最新的metinfo版本都会受到该漏洞的攻击&#xff0c;该metinfo漏洞产…

如何部署一个静态网站

简介 静态网站 没有数据库的支持&#xff0c;不会与用户间产生数据交互 如果我们没有与用户间来进行数据交换&#xff0c;可以考虑一下静态网站 不必花钱买 服务器域名&#xff0c;自己制作的静态网站也可以通过网址的方式来分享给小伙伴 安装git软件 官网下载地址&#xff…

如何利用云服务器搭建个人网站

去阿里云进入官网 aliyun.com 注册账号 小林同学在这里用阿里云演示&#xff0c;大家也可以去腾讯云、百度云注册等大型知名企业&#xff0c;步骤雷同&#xff0c;看个人喜欢 注册完&#xff0c;完善个人信息&#xff0c;进行实名认证 主页面 点击 最新活动 并找到 新手上路 和…

五大步骤快速搭建个人网站

导语 现在作为一个IT程序猿&#xff0c;没有一个自己的个人网站怎么行呢&#xff0c;现在就连许多不是IT人员都会搭建自己的个人网站 。那作为一个IT人员&#xff0c;如果别人让你帮忙搭建一下网站&#xff0c;然而你却没玩过&#xff0c;说不会&#xff0c;岂不是很尴尬 。另…

asp登录页面跳转到注册页面_网站注册登录页面大美化!

教程旨在实现网站用户注册登录分为两部分&#xff1a;邮箱设置、注册登录使用三款插件&#xff1a;WP Mail SMTPWP Open Social、Wechat Social先看一下效果图1、登录弹窗2、注册页面3、侧边栏工具Wechat Social侧边栏小工具一、邮箱配置因为在WordPress自带的邮箱基本残废我们…

python爬取安居客二手房网站数据(转)

之前没课的时候写过安居客的爬虫&#xff0c;但那也是小打小闹&#xff0c;那这次呢&#xff0c; 还是小打小闹 哈哈&#xff0c;现在开始正式进行爬虫书写 首先&#xff0c;需要分析一下要爬取的网站的结构&#xff1a; 作为一名河南的学生&#xff0c;那就看看郑州的二手房信…

java写网页_初次尝试通过java写简单网站

一、安装Tomcat及配置1、下载Tomcat2.配置环境变量新建系统变量如下图所示修改path&#xff1a;变量末尾添加(%CATALINA_HOME%\bin)3.查询配置是否成功这样显示表示已经成功4.启动tomcat使用命令startup.bat当出现以上时在浏览器中输入http://localhost:8080注意以上两个命令框…

这个技术网站,恢复更新了!

点击上方“程序IT圈”&#xff0c;选择“置顶公众号”关键时刻&#xff0c;第一时间送达&#xff01;大家好&#xff0c;还记得我之前开通了个在线学习博客网站『程序猿圈』&#xff0c;目前网站已经沉淀了一些对于大家有价值的内容了&#xff0c;已经更新了差不多100多篇干货文…