Python爬取网站用户手机号_用Python爬虫爬取学校网妹子QQ号,100行代码撩妹,用技术脱单...

news/2024/5/17 10:15:47/文章来源:https://blog.csdn.net/weixin_39760368/article/details/110216116

前言:

其实这个项目没什么难度,稍微懂一点爬虫的人或者是已经就业的程序员都可以用自己学的编程语言写出来,但是正是这也原因,也间接证明现在网络很多安全问题的存在,简单的说就是这个网站的程序员偷懒,让用户的信息暴露在网上。

11da1adabb06291f68e0016fb50a5c35.png

好了,言归正传,我们直接进入文章的主题。

既然我们要准备用Python爬虫,那么首先需要做好Python爬虫的准备:

  • python2.7
  • 库文件(xlwt,urllib2,BeautifulSoup4,xlrd)

安装库文件的方法:

最好在你的python2.7/script/下面打开power shell(可以shift+右击) 执行下面的:

安装库文件的代码:

在这段代码中,pip install 指的是上面的库文件,在后续的代码中不一定要都用,只要上面的,这样如果之后出什么错,继续pip imstall就行了。

2f3d9b57794ad973342f8465fe16986a.png

然后看一下我们要爬取的网站结构,也就是登录用户的密码规则:

3ecad2691294bbe0665e488b07725c92.png

可以看到这是顶岗实习管理系统,所以说是针对大三大四的学生或者是已经毕业的了,从图中可以看到并没有需要输入验证码的环节,而规则则是用户名==密码,也就是说用户名和密码相匹配才能成功登录

符合条件

f8a769066b509c54f6692950b9e76cb6.png

然后看一下信息,上面的是符合标准的,毕竟不能找那种毕业十多二十年的学生,别人估计孩子都有了......不要在意这些马赛克,朦胧美一直是我的追求。

具体的爬虫思路我把它分为四个步骤

模拟登陆制作学号的规则信息查询和爬取存入表格模型

模拟登陆:

  • 需要登陆才可以访问网站的信息
  • 用脚本访问一个网页时,需要cookie存贮我们的个人信息

python 中cookie维持会话访问:

c6d93b06c6a6a903dc2add6d8c9da914.png

具体的模拟登陆代码:

af8c0479a8bf543f34ce8bee36136f1d.png

然后是制作学号的规则:

6170b3903e05340fb48944269e39108c.png

之后是最关键的一个步骤,爬取用户信息,这里需要用到第三beautifulsoup库:

74d498de67609bbef05fed8d12967d13.png

然后把爬取到的信息写入到表格里面,这里在写的时候因为编码的问题,不能写入中文:

24d4ee78c33eaf8851c2f7f4904822f7.png

这里需要注意的是,如果直接整合上面的代码然后运行的话,爬取速度会很快,可能会被网站服务器发现从而被封IP,所以我们需要添加延迟访问:time.sleep(1),设置间隔然后爬取,避免给此网站带来不好的影响,防止被封IP。

具体的代码实现如下:

6be60201d356a6c0afa66d668aeda2d4.png

好了,到了这一步项目基本就已经大功告成了,来看一下爬取的结果:

77e30c6f980825629a5bfddc6a0c819e.png

有图有真相,避免无脑的喷子,获取到的都是电话号码和QQ号码,可不要用这些东西去做坏事哦,毕竟我们主要还是学习里面的技术,有案例只是让我们学起来不那么无聊。

最后分享我准备的python学习资料,给那些正在学习python的同学,或者准备学习python的同学,关注,转发,私信小编“01”即可免费获取!

38269f6ab0164c3446ff5f736b34409b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_746932.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP使用CURL实现对带有验证码的网站进行模拟登录的方法

2019独角兽企业重金招聘Python工程师标准>>> /*** 模拟登录*///初始化变量 $cookie_file "tmp.cookie"; $login_url "http://xxx.com/logon.php";//登录接口地址 $verify_code_url "http://xxx.com/verifyCode.php";//验证码图片地…

在IIS7上部署ASP.NET MVC3网站应用程序遇到的错误及解决方案

系统环境:Windows2008R2,安装IIS,安装.NET 4,安装SQL Server, 安装ASP.NET MVC3服务器独立安装版本。 接下来将Web应用程序Deploy到服务器,运行网站出现如下错误:HTTP错误 403.14-Forbidden Web 服务器被配置为不列出此…

复盘Prime Day:剁手党们是如何挤垮世界上最大电商网站的?

西雅图IT圈:seattleit【今日作者】Dexter读书巨慢理事会会长对于西雅图的科技巨头亚马逊来说,一年一度的Prime Day(也被叫做“电饭锅节”)绝对是全年度最重要的一天了。作为效仿马云爸爸的美国版“双11购物节”,Prime …

构建百万访问量电子商务网站之LVS负载均衡(前端四层负载均衡器)[连载之电子商务系统架构]...

构建百万访问量电子商务网站之LVS负载均衡(前端四层负载均衡器)[连载之电子商务系统架构] 版本:V1 出处:http://jimmyli.blog.51cto.com/我站在巨人肩膀上Jimmy Li 作者:Jimmy Li 关键词:电子商务,系统架构&#xff0c…

威联通架设php网站_如何使用群晖、威联通NAS进行网站自动签到?

本文仅做抛砖引玉,请小伙伴们自行深入研究,欢迎交流。写在前面hello,大家好,爱折腾,爱捡垃圾,人见人爱花见花开的来自张大妈的晋升奶爸的垃圾佬来啦。今天为大家带来的是docker下的自动签到应用——qiandao…

尴尬!Facebook 员工被爆在亚马逊网站上给自家产品刷好评

西雅图IT圈:seattleit【今日作者】宇直宇宙第一直男Facebook 去年十月份发布了一款新的家用视频和智能音箱 Portal这也是第一个以Facebook命名的硬件然而该产品已经被爆出收集用户信息以帮助 Facebook 推广广告就在上周又被爆出 Facebook的员工在亚马逊上给 Portal …

拜登上任高价引诱“白帽子”挖漏洞,白宫网站却暗藏招聘“彩蛋”

更多黑客技能 公众号:暗网黑客 近期,美国国土安全部和 HackerOne 平台共同推出了Hack the Army 3.0 漏洞奖励计划。 想想就很让人心动,作为一名白帽子,如果挖到政府官网的漏洞,立马就树立起了国家安全守护者的光辉形象…

网友发了个钓鱼网站,我用 Python 渗透了该网站所有信息

更多黑客技能 公众号:渗透师老A## 前言:这篇文章不是像大佬们所想的那样是来炫技的,更多的是来给大家科普一些实用的渗透工具和方法,我相信不是所有的人都用过文中提到的这些方法。来看看吧~刚才在知乎上看到一篇文章《你的QQ号是…

快速找出网站中可能存在的XSS漏洞

更多渗透技能 欢迎搜索公众号:白帽子左一作者:汤青松 地址:https://zhuanlan.zhihu.com/p/42604854 一、背景 在本篇文章当中会一permeate生态测试系统为例,参考文档:利用PHP扩展Taint找出网站的潜在安全漏洞实践 二、漏洞简介…

代码审计 | 入门MVC框架之私密小网站

> 更多渗透技能 欢迎搜索公众号:白帽子左一作者:掌控安全- 秋紫山 因为自己一直在学习用python编写小工具,然后看到了一些文章关于扫描网站后台备份文件的脚本 我就参照着写了好久的脚本代码,都是低效率代码 然后勉强算是写…

Nginx主配置参数详解,Nginx配置网站

Nginx主配置参数详解,Nginx配置网站 阅读目录 1.Niginx主配置文件参数详解2.Nginx.conf配置文件详细说明(附备注)3.Nginx代理网站回到顶部1.Niginx主配置文件参数详解 a.上面博客说了在Linux中安装nginx。博文地址为:http://www.cnblogs.com/hanyinglong…

经典网页设计:超炫的动画效果单页网站设计

单页网站是把所有的内容都展示在一个页面中,这样访客就不需要跳转到其它的页面。如果一个网站的内容不是很多而且将来内容也不怎么增加的情况下,那么制作成单页网站(Single Page Websites)的形式是很好的选择。 随着视差滚动&…

西雅图SEO初创公司被收购

西雅图IT圈:seattleit【今日作者】拖拉机IT圈里的拖拉机01西雅图SEO软件初创公司Moz 上周宣布被J2 Global的子公司iContact收购Moz 2004年由Rand Fishkin和他的母亲Gillian Muessig在西雅图创立最初的名字是SEOMoz后来成长为了西雅图地区的顶级初创公司02Moz这17年也…

SEO光辉道路

SEO是英语Search Engine Optimization的缩写,即搜索引擎优化。它又被泛指为进行搜索引擎营销的工作,以及从事搜索引擎营销的人。如今,所谓的“网络营销专家”也喜欢称自己为SEO。 我从1999年就开始从事SEO的研究和实践,不是在网络…

Windows Server 2008 R2 下配置证书服务器和HTTPS方式访问网站

目录配置环境了解HTTPS配置CA证书服务器新建示例网站并发布在IIS新建自签名证书并配置HTTPS 故障排除 其它机器无法通过访问配置环境 Windows版本:Windows Server 2008 R2 Enterprise Service Pack 1 系统类型:64 位操作系统 了解HTTPS 为什么需要 HTTPS…

WordPress 网站迁移

最近想把本地的WordPress迁移到我的Linux虚拟机里面,是不是很无聊,哈哈哈,接下来就是一过程了,其实这个和迁移到线上是一样的, 1、首先将本地的文件WordPress通过FTP传到虚拟机上; 2、然后将本地的数据库导…

漏洞网站DVWA的搭建

一、系统介绍 全名叫Damn Vulnerable Web Application,是一个基于PHP/MYSQL的web应用。专门就是为了帮助安全测试人员去学习与测试工具用的。就是搞了一个应用,有各种各样的漏洞,专门让你用来联系安全测试的. 二、安装 1.安装环境 1 到http:/…

用户体验分析 是什么让用户离开您的网站?

之前在图说网上看到一张图片,主要讲的是用户体验方面的,感觉很有意思,所以就想写出来,看看你的网站访问者是否因为这些原因而退出的呢?从而提高你网站的回头率,提高用户体验。 错误导航 当用户进入你的网站的时候&…

ISA Server中***客户端打开非80端口网站速度慢的解决访问

ISA Server中***客户端打开非80端口网站速度慢的解决访问 河北 王春海 某政府信息中心,使用ISA Server组建***服务器,所有需要访问政府内网的用户需要用***客户端访问上级政府内网,网络拓扑如图1所示。 图1 ***网络拓扑 在图1中,有…

【转】分享36个收集精美网页设计作品的网站

分享36个收集精美网页设计作品的网站36 Aspiring Galleries You Should Visit To Get Amazing Web Design InspirationRead more: http://www.smashingapps.com/2011/03/24/36-aspiring-galleries-you-should-visit-to-get-amazing-web-design-inspiration.html#ixzz1JNA1VbxET…