记爬取CET4级网站的那一夜

news/2024/4/28 0:24:32/文章来源:https://blog.csdn.net/weixin_34205826/article/details/89426513

首先:

中秋节快乐

然后:

没有了...

回寝室之前在304的晚上

转眼间就大二了,于是就要考四级,考四级就要报名,于是去了报名网站http://cet.tinyin.net/accuse.asp, 上传了照片,报了名,理论上就结束了。但是,中秋要来了,我要做点什么。<br/>
四级报名网站为了公平公正,将每个报名学生的基本信息(姓名、学号、大头照、报考等级)放在了网上,这样同学院、同年级的同学就可以进行监督。不得不说,证件照是很吸引人的部分,于是我审查了页面元素,希望可以发现更多a。

<img width="120" border="0" height="160" src="photos/2014210761.jpg"></img>

photos/2014210761.jpg,有意思,看上去似乎是某个子目录,于是我尝试加上了主机名

http://cet.tinyin.net/photos/2014210761.jpg

于是我可爱的证件照出现了。。。而且,等我登录过期后,我依然可以访问这个url看到图片(现在就可以试试)!!这意味着我可以通过改变学号看到同学的大头照!?

然而我并不知道学号

是的,我知道我的同学的名字,但是记不住学号。但是CET4报名网站已经将姓名学号一并奉上了,我要做的就是抓取姓名和学号信息,并将这些信息写入文件,建立关系,就像这样:

学生学号:2014210761 学生姓名:朱承浩
学生学号:2014210781 学生姓名:我室友
......  ......  ....... .....  ......

买了两瓶啤酒? ,开爬! 当然还有 httpfox

模拟登录

首先就是要登录进报名网站,才可以访问信息页的url。打开 httpfox,监听登录过程
监听过程 <br/>
相关信息 <br/>
CET4网站为了防我这种好奇心很强的人还是做了一些处理,登录url/login.asp实际上是一个refer,真正的登录url是http://cet.tinyin.net/reginfo.asp| 573597a1f9200a18be60068dca9ced0f7 |,我要做的,就是利用我的用户名和密码登入网站,获取cookie,然后利用cookie进行后续登录。当然,首先需要把我自己变成浏览器啦

def __init__(self):self.user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:42.0) Gecko/20100101 Firefox/42.0"self.headers = {'User-Agent':self.user_agent,'Referer':'http://cet.tinyin.net/login.asp','Accept-encoding':'gzip'}self.postdata = urllib.urlencode({'stype':'#','stuno':'2014214761','stupwd':'密码就不说了'})

然后就是登录获取cookie

def analog_login(self):"""登录cet4网站,获取cookie,并将cookie保存至文件"""filename = 'cet4_cookie.txt'cookie = cookielib.MozillaCookieJar(filename)opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))login_url = 'http://cet.tinyin.net/reginfo.asp'request = urllib2.Request(login_url, self.postdata, self.headers)opener.open(request)cookie.save(ignore_discard=True, ignore_expires=True)

cookie get!!!

# Netscape HTTP Cookie File
# http://www.netscape.com/newsref/std/cookie_spec.html
# This is a generated file!  Do not edit.cet.tinyin.net    FALSE    /    FALSE        ASPSESSlllllDAQBASRAC    LKNFEMDCDOLABMFPLLLLL

该正则表达式上场了!

首先实验一下,cookie能否正常使用, 尝试访问 http://cet.tinyin.net/accuse.asp 页面, cookie是没问题,但是html却是中文乱码,没关系,改成utf-8,就行

html = response.read().decode('gbk').encode('utf-8’)

html <br/>
现在,一切都豁然开朗了,我只需要爬取<td>标签,将获取的学号和姓名写入文件就行了。

正则表达式 parttern = re.compile('<td width=25% >(.*?)<br><br>(.*?)<br><br>', re.S)

爬取的信息文件 <br/>

flask 靠你了

接下来就是用flask搭一个搜索引擎了。在文字编码这一块用了很长时间,因为表单的输入数据编码和文件的编码是不匹配的,经过几次实验,我发现需要将表单输入数据decode为汉字编码

name = form.name.data.decode('utf-8')

编码真头痛!!看一下这篇吧http://dengshuan.me/misc/xi-shuo-bian-ma... <br/>

ok了

有图为证 <br/>

备注

实际的过程没有上面说的这么的一气呵成,中间还睡了一觉?

两瓶啤酒没有喝完

信息都是公开的,应该没有侵犯隐私吧?

开心就好?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_793764.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js实现倒计时 类似团购网站

一、demo与效果展示 为节约时间&#xff0c;我就直接套用了企鹅团的界面作为demo的背景。因为是倒计时&#xff0c;所以需要一个固定的时间&#xff0c;为了n年后&#xff0c;某位仁兄打开demo页面依然在倒计时&#xff0c;所以我把倒计时时间设成了2050年7月30日中午12点整&am…

Linux建立两个基于ip地址访问的网站

要求&#xff1a; 目录 一&#xff1a; 第一步&#xff1a;添加两个IP地址 第二步&#xff1a;创建两个文件根目录&#xff0c;并定义网页内容 第三步&#xff1a;定义基于不同ip地址来访问网站的配置文件 第四步&#xff1a;重启apache服务 验证&#xff1a; 二&…

ISS服务上网站(asp程序)

2019独角兽企业重金招聘Python工程师标准>>> 图片能正常保存到指定路径&#xff0c;但现实不出来&#xff0c; 原因是因为没有指定图片所在虚拟路径的访问权限。 转载于:https://my.oschina.net/21F4ttSP7/blog/422302

大型网站seo方案_网站SEO优化方案选哪家?

什么是SEO优化&#xff1f;SEO&#xff08;Search Engine Optimization&#xff09;汉译为搜索引擎优化&#xff0c;也可称为网站优化。是指通过对网站的内容、设计及结构等方面进行优化改进&#xff0c;使之符合搜索排名的规则&#xff0c;提升用户体验度&#xff0c;进而网站…

一个完整网站的代码_SEO实操方法,从零到精通完整流程

SEO是企业降低成本最有效的渠道&#xff1b;优势免费的&#xff0c;劣势见效慢。SEO是针对网站来进行的;网站的类型分为&#xff1a;企业站、资讯站&#xff0c;个人博客等;如果你应聘的企业还没有网站的情况下&#xff0c;首先要先搭建网站&#xff0c;然后通过优化关键词来实…

将解决方案和项目放在同一目录中_中英双语企业网站建设如何避免人财双损失?...

中英双语企业网站建设-Flow Asia全球经济一体化&#xff0c;让各国和地区之间的经济活动相互依存、关联&#xff0c;而互联网技术的发展更使得各国企业便捷地获得全球市场信息。更多外国企业瞄准了中国市场同时国内的企业也都发现了国外的广阔市场前景&#xff0c;于是&#xf…

SEO优化笔记

1,清理垃圾代码. 清理垃圾代码是指删除页面中的冗余代码&#xff0c;可以删除80%的冗余代码&#xff0c;垃圾代码主要指那些删除了也不会对页面有任何影响的非必要代码。最常见的垃圾代码&#xff1a;空格空格字符是网页中最常见的垃圾代码。但并不是指标签&#xff0c;而是有代…

centos linux安装telnet 过程及问题(源于内部tomcat网站,外部无法访问)

首先本地没有telnet客户端及服务器 root权限下安装 yum install telnet yum install telnet-server vi /etc/xinetd.d/telnet  这时此处并没有这个文件&#xff0c;也就不能修改disableno了&#xff0c;所以&#xff0c;在此编辑模式下直接插入内容 service telnet{ flags R…

大型网站架构演变和知识体系

大型网站架构演变和知识体系之前也有一些介绍大型网站架构演变的文章&#xff0c;例如LiveJournal的、ebay的&#xff0c;都是非常值得参考的&#xff0c;不过感觉他们讲的更多的是每次演变的结果&#xff0c;而没有很详细的讲为什么需要做这样的演变&#xff0c;再加上近来感觉…

爬虫概念与编程学习之如何爬取视频网站页面(用HttpClient)(二)

先看&#xff0c;前一期博客&#xff0c;理清好思路。 爬虫概念与编程学习之如何爬取网页源代码&#xff08;一&#xff09; 不多说&#xff0c;直接上代码。 编写代码 运行 <!DOCTYPE html><html><head><meta http-equiv"X-UA-Compatible" con…

如何在两周之内用C语言对网站进行重写

为什么80%的码农都做不了架构师&#xff1f;>>> **先说前提&#xff1a; 网站流量开始爆炸&#xff0c;最开始的时候选用的是JAVA语言&#xff0c;java大家都知道的&#xff0c;巨吃内存&#xff0c;而且性能并不是很高&#xff0c;于是&#xff0c;哼哼&#xff0…

勒索?没钱!—— 有了这个网站,你或许能把勒索者怼回去了

雷锋网编辑最近发现了一个神奇的网站 &#xff0c;看名字就感觉牛逼轰轰的&#xff1a; No more Ransom ( 不再付赎金&#xff09; 遇到网络勒索&#xff0c;No more Ransom &#xff0c;不再付赎金&#xff01;—— 没钱&#xff01;是不是有点 “要钱没有&#xff0c;要命一条…

二线城市SEO不需要深入,就能自动赚钱

首先我不太懂SEO&#xff0c;我是机械维修行业出身&#xff0c;一点都不会代码&#xff0c;也没学过&#xff0c;因为工作&#xff0c;因为兴趣我步入了互联网;其次说能自动赚钱&#xff0c;这点我很自信&#xff0c;我的方法很简单&#xff0c;特别适合二三线城市的互联网创业…

五种方法教你鉴别山寨、欺诈和钓鱼网站

2019独角兽企业重金招聘Python工程师标准>>> 互联网的发展给我们购物、存取款以及与周围的人交流的方式都带来了很多极其便利的进步。然而与此同时&#xff0c;层出不穷的各种山寨、欺诈和钓鱼网站也带来了新的风险——针对那些毫无防范的人&#xff0c;犯罪分子有了…

使用Visual Studio迁移远程网站到Micorosft Azure

Microsoft Azure中的WebSite我们除了能直接创建网站以外&#xff0c;还支持直接从本地或者远程迁移WEB应用程序&#xff0c;本例子中将采用Visual Studio 2013迁移一个远程asp.net应用程序。 本示例的WEB站点&#xff0c;下面步骤将进行该网站到迁移。 打开Visual Studio&#…

批量**网站拿 管理员权限

1.开启软件、然后打开谷歌浏览器2.打开谷歌浏览器3.输入&#xff1a;inurl:asp?id **&#xff08;**随便输入整数数字&#xff09;也可以输入inurl:show_news.asp?id**如&#xff1a;inurl:CompHonorBig.asp?id6 就可以找到很多有可能存在注入点的网页。4.打开“明小子”&am…

halcon实例实战第二版_【热门推荐】SEO艺术、精通STM32F4.库函数版

《SEO艺术》索书号&#xff1a;G254.928/7作者&#xff1a;(美) Eric Enge, Stephan Spencer, Jessie C. Stricchiola著出版社&#xff1a;电子工业出版社,2019馆藏地&#xff1a;新馆601室简介&#xff1a;本书涵盖SEO的各个领域, 有丰富的实例, 不仅详细剖析了不同类型网站在…

web作业制作网站源代码_[答疑]可视化前端开发和web前端开发有什么区别?

这是一篇[答疑]&#xff0c;原题来自知乎&#xff1a;可视化前端开发和web前端开发有什么区别&#xff1f;两者学习方向差别大不大&#xff1f;https://www.zhihu.com/question/433768421/answer/1617960363Contra答&#xff1a;字面意思上&#xff0c;可视化前端开发&#xff…

开源代码网站_你不能错过的开源代码网站

浪浪的第5篇1、https://github.com/这个网站对于学计算机的人来说再熟悉不过了&#xff0c;不管是论文中的代码链接还是平时搜索需要的代码&#xff0c;这个网站都是首选。同时它与git相连&#xff0c;能够很好的对代码进行版本控制&#xff0c;并将本地代码实时上传到github中…

集约化建设迎来政府网站的互联网+转型

互联网时代的到来正变革着不同行业&#xff0c;随着国家互联网战略的实施&#xff0c;政府在互联网应用服务领域&#xff0c;面临很大的挑战&#xff0c;为强化政府职能部门的服务水平&#xff0c;国办正积极推动政府网站集约化建设&#xff0c;要求加大服务资源的整合力度&…