Python爬某Ecust教务处网站

news/2024/5/12 20:37:04/文章来源:https://blog.csdn.net/Ecust_applied_math/article/details/75949800

1.背景:

某ECUST高校的教务处网站现在查成绩需要验证码了。但是家长登陆的窗口还没有使用验证码,用这个漏子来爬去一下教务处的成绩:

2.工具:

Google chorme浏览器
Python 3.6.0
requests 库
PyQuery 库
lxml 库(代码中并未用到,只是因为PyQuery库调用了lxml库,姑且列入进来吧)

3.解决方法:

3.1寻找教务处家长查询的地址

直接利用chorme查看,的到地址为

    url0="http://inquiry.ecust.edu.cn/ecustedu/K_StudentQuery/K_PatriarchQueryLogin.aspx"

3.2利用chorme开发者工具查看网页要求(requests)的内容,并构造python字典。

登陆后,在chorme中按F12键进入开发者模式,选中network项,即可查看

这里写图片描述

红框即为要构造的字典,构造字典D1

3.3寻找成绩储存网址,利用chorme找到储存成绩信息的标签

很容易找到,储存成绩的地址为:

url1="http://inquiry.ecust.edu.cn/ecustedu/K_StudentQuery/K_BigScoreTableDetail.aspx?key=1"

利用chorme开发者模式的Elements选项找到成绩储存的位置,这里有个小技巧,鼠标放在Elements的位置上的时候,对应的网页内容会有阴影,很好用!具体内容看图

这里写图片描述

3.4编写爬虫,利用PyQuery解析网页

import requests as rq
from pyquery import PyQuery as pq
def main(username,userID):D1={'__EVENTTARGET':'','__EVENTARGUMENT':'','__VIEWSTATE':'/wEPDwUKMTUwODM3MTQ2Nw9kFgICAQ9kFgICCQ8PFgQeBFRleHRlHgdWaXNpYmxlaGRkZGO0jC0dS0YidkgEu6HHtZzJ4QnM','TxtStudentId':username,'TxtSFZH':userID,'BtnLogin':'登录','__EVENTVALIDATION':'/wEWBALtgYX0DwK/ycb4AQLU6rEHAuLjh4YMJ/uMbOy0/fn0UeHoB5DIxlisz08='}#这里的登陆信息及时上文的到的D1,csdn的代码块这么长的字符串可能不支持,复制的时候注意下url0="http://inquiry.ecust.edu.cn/ecustedu/K_StudentQuery/K_PatriarchQueryLogin.aspx"url1="http://inquiry.ecust.edu.cn/ecustedu/K_StudentQuery/K_BigScoreTableDetail.aspx?key=1"s=rq.session()#新建session会话对象,session常用来保持登陆内容r1=s.post(url0,data=D1)#给url0,传递D1内的内容。r2=s.get(url1)#返回爬url1的网页html块pages=r2.text#抓取爬下来的html页面doc=pq(pages)#新建一个pq解析对象k=doc('table').filter("#objDataGrid").find('tr')#找到标签为id="obj.."的table中的名为'tr'的标签的内容,k现在是许多个tr标签,需要用循环处理kN=[]#新建空列表for eachitem in k:N.append(pq(eachitem).text().split())#split 分隔带空格的字符串,N是一个二维Listreturn N
if __name__ == "__main__":username=input('请输入学号:')userid=input('请输入身份证号:')N=main(username,userid)for i in N:#纯粹为了打印的好看一点hhhfor j in range(0,7):print(i[j]+'\t',end='')print('')#

4.总结

1.session 保持登陆的爬虫
2.chorme开发者工具配合pq解析html网页厉害的不要不要的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_893220.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用华为云建WordPress博客网站

一、建站要求 使用主备2台RDS服务器先使用第一台ECS云服务器建站可以用Wordpress镜像,但建议用运行环境镜像搭建服务器,然后下载wordpress软件,解压安装的方式单台ECS正常运行后,通过私有镜像的方式,构建第二台ECS使用…

SEO笔记(一)

1、SEO优缺点 优点:成本低、持久性、不需要承担“无效点击”的风险; 缺点:施工时间长、不确定性(不能保证SEO能够达到什么效果)、被动性(搜索引擎算法改变会给SEO带来灾难性的后果)。 2、搜索…

SEO笔记(二)--URL优化

1.URL简介 URL(Uniform Resource Locator,统一资源定位器)是页面的网址,通过URL才能访问具体的网页。URL优化时网站的六大重要环节之一,在决定页面相关性中有重要作用,而且会直接影响到收索引擎对页面的收…

SEO笔记—网页结构优化(四)

网页结构优化是页面优化的重点之一,它是对网页内容布局的规划,合理的网页结构能够有效地提高用户体验和搜索引擎的友好性。网页主要包含导航栏、栏目以及正文三部分组成,对网页结构的主要也是围绕这三部分进行的。 1、页面重要区域分布规律 …

国外家喻户晓的搜索引擎优化SEO工具商SEOmoz公司获$1800万融资

5.1日,国外著名的SEO(搜索引擎优化)工具商 SEOmoz 获得1800万美元融资,此次投资由风险投资公司 Foundry Group 和 Ignition Partners领头。关于 SEOmoz,目前是一个著名的seo工具提供商,最初为分享优化经验…

SEO笔记—网站结构(五)

网站的结构是指网站中页面之间的层次关系,可分为逻辑结构和物理结构,他直接影响搜索引擎对网站页面收录的数量和页面的权重。 1、搜索引擎首先会抓取网站中权重最大的页面(一般是首页),然后跟踪其中的连接来抓取网站中…

sharepoint 2016 场快速配置(4)mdash;mdash;管理网站集

网站集管理 创建网站集 1. 在管理中心站点单击“创建网站集” 2. 选择相应的web应用程序,并设置标题,管理路径和首要站点的模板,以及网站集管理员 3. 使用powershell命令创建网站集 New-SPSite http://moss2016 -HostHeaderWebApplication…

从shenfenzheng网站获取身份证号码等信息

这个程序是最初学Beautiful Soup时,写的一个程序。 因为相对以前的正则什么的,获取一组数据还是有点麻烦的,这边分割,那边分割。程序代码也没有那么简单直观。 如图,是我们今天要获取数据的网页 本次我们用到的的…

JS特效教程:给网站添加鼠标点击弹出指定汉字特效

网站添加鼠标点击弹出指定汉字特效,就是鼠标点击站点任何位置,都会随机弹出我们指定的一组汉字中的一个。比如指定“文明,自由,民主,公正,和谐”等,点击鼠标时就会随机显示这一组的某个词语&…

中小型网站运营者的基础运营思路

对于中小型网站、尤其是企业展示型官网的运营者,往往技术能力有限,由公司的“网管”负责运营,这就意味着这个网管很可能对网站运营毫无概念,或是一知半解,本篇文章就是基于这个现状,讲述一下这种情况下的基…

揭秘全球最大网站Facebook背后的那些软件

2010年6月,Google公布全球Top 1000 网站。Facebook独占鳌头。 以Facebook现在的经营规模,诸多传统服务器的技术均将崩溃或根本无法支撑。那么面对5亿的活跃用户,Facebook的工程师们又将如何让网站平稳运转呢?伯乐在线 - 职场博客的…

2019仿笔趣阁小说网站源码(PC版+手机版+APP+采集器+教程)下载

第三套杰奇WAP小说模板,使用百度MIP,更重要的是这次使用了百度的MIP来制作模板。 1、底层程序仍然是独立版程序,模板样式和代码已经全部重写,不在有原来的代码。 2、同时本套程序已经更新过底层代码,本套模板中&#x…

苹果cmsv10漂亮大气响应式视频网站模板(自适应手机端)源码下载

苹果CMSV10模板,仿69TAN,黑色大气自适应视频网站模板 提供苹果CMS8X和V10模板、海洋CMS模板、菲菲2、X、3 x、5 x、红兔CMS、X模板 源代码下载链接: https://pan.baidu.com/s/1Gg4ATO1vzq5cZXt8u7YDAA 提取码: sjwg

阿里云主机搭建网站,并使外网可访问到

一、在阿里云主机搭建网站 1.连接上阿里云主机,在里面操作:(在本地的电脑使用远程桌面连接即可,输入公网IP和用户密码进行连接) 下载phpstudy(一个类似WEB服务器的软件工具,搭建服务器环境&…

You-Get,多网站视频下载工具,非常方便

You-Get是一个非常优秀的网站视频下载工具。使用You-Get可以很轻松的下载到网络上的视频、图片及音乐。 按WinR键打开运行,输入cmd,再输入命令 pip install you-get,安装 you-get you-get 中文说明 : https://github.com/soimort/you-get/wik…

大作业rhce(网站.邮件.dns)

一.要求 二.做实验 2.1配置百度网站 1在虚拟机上建库,进入/etc/yum.repos.d/目录,编辑 baser.repo 配置文件 [baseos] namebaseos baseurl/mnt/BaseOS gpgcheck0 [appstream] nameappTream baseurl/mnt/AppStream gpgcheck0 2 在虚拟机上安装 httpd 包…

避免网站在IE6中出现‘无法打开站点,已终止操作’的JS问题

IE6在中国还占据着30%的用户,其中大多数网吧还是使用的IE6.0,所以很多网站必须一直兼容IE6下去。 如果浏览一个网站出现 无法打开站点,已终止操作 的故障,浏览器就会变成一片空白,而用户就会关闭网站,在非…

struts2+hibernate 实现B2C电子商务网站的登录 、注册中验证码的实现(源码)

下边只在注册中实现 1、首先是在Action中写出生成验证码所需的方法(下边是在MemberAction.java中写) [java] view plain copy print ? package www.csdn.dbshop.action; import org.apache.struts2.ServletActionContext; import www.csdn.dbshop…

实际采用 FleaPHP 的网站

下面都是采用 FleaPHP 框架开发的网站列表,如果发现无效连接请在留言。 如果你有采用 FleaPHP 开发的网站,并且愿意公开网址,可以发邮件到 dualface (at) gmail.com 需要提供的信息包括网站名称和连接地址,以及简单的介绍文字。…

阿里云linux服务器------第二章:配置静态网站

有了服务器后我们总想弄点啥,首先我们可以建立一个属于自己的静态网站。 第一步:打开putty连接上自己的服务器 输入一下命令:(以下命令试过多次可以复制使用注意空格) 安装Apache yum -y install httpd 添加linux用户…