前言:
其实这个项目没什么难度,稍微懂一点爬虫的人或者是已经就业的程序员都可以用自己学的编程语言写出来,但是正是这也原因,也间接证明现在网络很多安全问题的存在,简单的说就是这个网站的程序员偷懒,让用户的信息暴露在网上。
好了,言归正传,我们直接进入文章的主题。
既然我们要准备用Python爬虫,那么首先需要做好Python爬虫的准备:
- python2.7
- 库文件(xlwt,urllib2,BeautifulSoup4,xlrd)
安装库文件的方法:
最好在你的python2.7/script/下面打开power shell(可以shift+右击) 执行下面的:
安装库文件的代码:
在这段代码中,pip install 指的是上面的库文件,在后续的代码中不一定要都用,只要上面的,这样如果之后出什么错,继续pip imstall就行了。
然后看一下我们要爬取的网站结构,也就是登录用户的密码规则:
可以看到这是顶岗实习管理系统,所以说是针对大三大四的学生或者是已经毕业的了,从图中可以看到并没有需要输入验证码的环节,而规则则是用户名==密码,也就是说用户名和密码相匹配才能成功登录
符合条件
然后看一下信息,上面的是符合标准的,毕竟不能找那种毕业十多二十年的学生,别人估计孩子都有了......不要在意这些马赛克,朦胧美一直是我的追求。
具体的爬虫思路我把它分为四个步骤
模拟登陆制作学号的规则信息查询和爬取存入表格模型
模拟登陆:
- 需要登陆才可以访问网站的信息
- 用脚本访问一个网页时,需要cookie存贮我们的个人信息
python 中cookie维持会话访问:
具体的模拟登陆代码:
然后是制作学号的规则:
之后是最关键的一个步骤,爬取用户信息,这里需要用到第三beautifulsoup库:
然后把爬取到的信息写入到表格里面,这里在写的时候因为编码的问题,不能写入中文:
这里需要注意的是,如果直接整合上面的代码然后运行的话,爬取速度会很快,可能会被网站服务器发现从而被封IP,所以我们需要添加延迟访问:time.sleep(1),设置间隔然后爬取,避免给此网站带来不好的影响,防止被封IP。
具体的代码实现如下:
好了,到了这一步项目基本就已经大功告成了,来看一下爬取的结果:
有图有真相,避免无脑的喷子,获取到的都是电话号码和QQ号码,可不要用这些东西去做坏事哦,毕竟我们主要还是学习里面的技术,有案例只是让我们学起来不那么无聊。
最后分享我准备的python学习资料,给那些正在学习python的同学,或者准备学习python的同学,关注,转发,私信小编“01”即可免费获取!