将爬取的实习僧网站数据传入HDFS

news/2024/5/9 22:05:30/文章来源:https://blog.csdn.net/weixin_30646315/article/details/98266415

 一、引言:

作为一名大三的学生,找实习对于我们而言是迫在眉睫的。实习作为迈入工作的第一步,它的重要性不言而喻,一份好的实习很大程度上决定了我们以后的职业规划。

那么,一份好的实习应该考量哪些因素呢?对于我们计算机专业的学生而言现在的实习趋势是什么呢?

我从实习僧网站爬取了5000条全国互联网行业的职位信息(时间节点06/17),下面开始从职位、薪资、地点、时长、工作要求五个维度进行分析。

 

二、数据提取与分析

  • 爬取的页面

软件类实习中的实习月份需求、实习天数需求、实习岗位、公司名称、薪资范围 和 职业描述(这个需要在 点击实习名称 后 的页面中实现)

 

  •  

     

  • 数据获取工具

主要工具:Python 3.6、Excel2016

涉及爬虫库:requests、Beautiful Soup

涉及反爬虫库:fontTools.ttLib

涉及可视化库:matplotlib、wordcloud、pyecharts

  • 使用反爬虫手段对解析页面的数据进行清洗

     爬虫是一段自动获取网站数据的程序,一些网站为了保护数据或者避免爬虫过多对服务器造成太大压力就使用了反爬虫技术,在我们所获取信息的实习僧网站就用了反爬虫技术。

    由此我们的爬取需要解析完他们某个时间段内的反爬虫代码之后,在一次性、有限内爬完不然将会在爬到一半的时候无法解析实习僧网站的反爬虫代码,爬出来的数据将会是空。

  • 部分代码

 通过选取实习僧网页中的数字,在中文转换网站转换编码后,得出下面数字的编码。

# 数字解析
replace_dict = {'\ueae5': '0','\ueff5': '1','\uf17d': '2','\ue5f2': '3','\uf5ce': '4','\uf5e8': '5','\uef8f': '6','\ue64a': '7','\ued3c': '8','\uf775': '9',
}
def get_pageInfo(urlList,replace_dict):'''解析request获取的信息:param urlList: 保存url:param replace_dict: 数字解析:return: 无'''info={}for url in urlList:response=requests.get(url)soup = BeautifulSoup(response.content, 'html.parser', from_encoding="utf-8")text = soup.prettify()for key, value in replace_dict.items():text = text.replace(key, value)soup = BeautifulSoup(text, 'html.parser')jobName=soup.select('.new_job_name')[0].text.strip()jobMoney=soup.select('.job_money')[0].text.strip()jobPosition=soup.select('.job_position')[0].text.strip()jobAcademic=soup.select('.job_academic')[0].text.strip()jobWeek=soup.select('.job_week')[0].text.strip()jobTime=soup.select('.job_time')[0].text.strip()jobDetail=soup.select('.job_detail')[0].text.replace(' ','').replace('\n','')comName=soup.select('.com-name')[0].text.strip()info['jobName']=jobNameinfo['jobMoney']=jobMoneyinfo['jobPosition']=jobPositioninfo['jobAcademic']=jobAcademicinfo['jobWeek']=jobWeekinfo['jobTime']=jobTimeinfo['jobDetail']=jobDetailinfo['comName']=comNamesave_item(info)

 

  • 爬取结果展示

 

  • 词云分析

 

这次爬取的信息一共5000条,除去无用信息一共有4700+数据,可以看到所有岗位中最热门的当属软件测试,可以说软件工程和运营类的同学相对来说最容易找到实习。

紧随其后的则是前端,java,数据分析之类。

 


 


 

 

一.将爬虫大作业产生的csv文件上传到HDFS

 

二.对CSV文件进行预处理生成无标题文本文件

 

 

 

三.把hdfs中的文本文件最终导入到数据仓库Hive中

启动数据库后开启hive —> 查看数据库是否传入—>在数据仓库中建表

 service mysql start #启动mysql数据库

 

 

四.在Hive中查看并分析数据

查看全部信息验证是否上传成功:1 select * from yh.data limit 20(前20条)

2:查看在HIVE中csv文档的工作名称前200条内容。

 

五.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

 1.查看发布招工数量最多的城市。最终结论:北上广深还是名列前四,经济越发达的地区招实习生的数量也是比较多的,其中北京和上海的招实习生数量更是广州和深圳的2-3倍之多。

接着就是杭州、成都、南京等二线城市。

2.通过数量多少排序,将每个招聘的名称进行统计,最后得出测试实习生是招实习生最多包括软件测试实习生在内的一个职业有198个,再是前端开发和java开发都在70个左右。

由此可见,现阶段关于软件相关职业而言,测试岗位还是比较缺人的。

3.将实习周期进行统计排名得出,一般单位会要求你实习4个月,再而是7个月,经过调查了解7个月的一般都是签订了三方协议,以保障公司和实习生的利益。

4.经过对学历要求的统计,目前来讲,本科的要求是比较多的有3561超过统计总数的五分之三。第二个是不限学历,第三个是硕士生再后就是大专。由此可见对于当代的就职而言,相较于本科生和大专生,本科生的择业选择多于大专生。

5.将本科生的薪资统计和排名得出,对于本科类学业的学生而言,工资一般是100-200这个区间所占的比例比较大。

 

 6.将专科的工资进行排名和统计得出,对于专科毕业的学生而言,一般也是100-150,。从数据上看相比较于本科生而言,专科生的平均实习工资会比本科生少80左右。

7.这个是对硕士生的薪资的排名,结果是150-200的居多,100-150的排名第三,所以三个数据一起看我们也可以得出结论,学历越高找到高薪资的可能性会更大。

 

8.对所发布应聘的公司进行统计,发布兼职数目最多的是CVPR,ECCV这些企业,然后是亚信科技 和 字节跳动(抖音)而且他们基本是在北京。

9.对所有城市的工资做一个统计。一般是11-150的居多,其次是150-200的。所有如果以后找实习,工资找到100-200的算是差不多的了。

10对广州的薪资情况进行分析,大部分的工资是100-150,少数为50-100及面议。如果有想从事软件方面的小伙伴考虑以后可能在广州工作的话可以参考100-150这个薪资区间。

 11.这个是对深圳的薪资分析,相比于广州,深圳的工资100-150和150-200所占的比例相差不大。如果有软件专业的同学对于以后工作的地点是在广州还是深圳之间有所犹豫的话,这个结论也是可以当做参考的。

 

 总结~~

对于想软件方面职业的朋友而言,学历越高的朋友找工作的薪资会更高一点,在北上广深这些经济发达的地方找工作会比二三线城市方便 找到工作且薪资普遍会比较高一些。一般北京的公司规模会大一些,需要招收的实习生也是比较多的。在现阶段,本科生是大部分公司的招人方向。硕士生的薪资一般是150-250,本科学生的薪资一般是100-200居多,专科生普遍50-150。工作时长一般是要求实习4个月,其次是7个月。

测试实习生是招实习生最多包括软件测试实习生在内的一个职业有198个,再是前端开发和java开发都在70个左右。现阶段关于软件相关职业而言,测试岗位还是比较缺人的。

转载于:https://www.cnblogs.com/WYuHan/p/11040990.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_756856.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI绘画工具软件网站合集:这些人工智能绘画生成器效果太赞了

那么有哪些口碑比较高的文本转图片的AI绘图软件呢?本文将跟大家分享一波出图效果相当不错的人工智能绘画工具网站,让大家实现“绘画自由”。 一、Disco Diffusion 简介:这是一款最早流行起来的AI绘图工具,直接在谷歌云端运行的程序,对电脑配…

夺命雷公狗—玩转SEO---29---DEDE快排之高效率批量高质伪原创文章

高速 批量 高质量 伪原创 站点:茂名旅游网 内容来源: 1:竞争对手 抄袭,没错,但是是有技巧的借鉴,比如我们是旅游的,那么我们就不能去找旅游的同行来进行抄袭,那么我们可以借鉴其他游…

使用Nginx的压缩功能提升蝉知建站系统的访问速度

2019独角兽企业重金招聘Python工程师标准>>> 众所周知,一个网站的加载速度越快,效果越好。提升网站的加载速度可以从很多方面来入手,比如提高服务器的配置,增大带宽等等。这 其中比较常用的一个手段就是对HTML&#xf…

爬取自如网站杭州市的租房信息

爬取自如网站杭州市的租房信息 最近看到自如网的整体网页结构比较简洁,因此尝试获取一下杭州市的租房情况,简单做一个分析。 需要获取的内容如图所示1.获取网页内容 web_urlhttp://hz.ziroom.com/z/nl/z2.html?p1 #对一些需要登录的网站,如果…

一个纯采集站长的SEO、采集、运维总结

我是一个纯采集站长,下面的这些总结,有些是关于关于SEO,有些是关于采集和运维,都是很基础的个人见解,仅作分享,请自辨好坏是非,实践出真知。原创好还是采集好?当然是原创好,因为百度…

周六周日闲着做一个视频小webapp免费视频网站

2019独角兽企业重金招聘Python工程师标准>>> 一次无意中浏览网站 ,发现了一些免费的去广告免会员的视频网站, 抓包发现了他们网站的一些接口, 我就拿过来借用了 哈哈,主要是因为那些网站的广告太多了,只是想…

[置顶] 高性能建站之前端优化篇

高性能建站之前端优化篇 2011-10-25 17:50 by PHP淮北, 560 visits, 收藏, 编辑 前言: 这算是对前端优化的总结吧,之前零零星星总结和学习,这次做一个完整的总结。 测试网页性能工具 ⑴Page Speed: 谷歌开发的工具,网站…

40款非常漂亮的免费 HTML5 CSS3 网站模板【上篇】

HTML5 作为下一代网页语言,加入中众多更具语义的标签,例如video、audio、section、article、header 和 nav 等。而 CSS3 作为 CSS 的下一代版本,同样引入了很多很酷的属性,以前很多需要 JavaScript 才能实现的复杂效果&#xff0c…

IIS或Apache启用GZIP压缩优化网站

先来了解一下GZIP,gzip 是GNU zip的缩写,它是一个GNU自由软件的文件压缩程序,也经常用来表示gzip这种文件格式。软件的作者是Jean-loup Gailly和Mark Adler。1992年10月31日第一次公开发布,版本号是0.1,目前的稳定版本…

使用Apache服务部署静态网站

Apache程序是目前拥有最高市场占有率的web服务程序之一,其跨平台和安全广泛被认可且拥有快速、可靠、简单的API发展。下面是使用Apache服务部署静态网站 一.1.我们首先创建目录/media/cdrom,把光盘设配系统中镜像挂载到目录/media.cdrom命令为&#xff1…

看我如何发现Uber合作方网站XXE 0day漏洞并获得9000美元赏金

近期,俄罗斯渗透测试人员Vladimir Ivanov发现了反勒索数据备份服务商Code42的一个XXE 0day漏洞,利用该漏洞可以从使用Code42服务的公司窃取相关备份数据,这些公司包括Uber、Adobe、Lockheed Martin(洛克希德马丁)等。作…

C# 实现导出网站功能

C# 实现导出网站功能 这个导出网站功能指通过前台javascript触发进入ashx函数中,实现将服务器中某个文件夹(包含其子文件夹和文件)通通复制到服务器中另一处位置,当然该文件夹本身就是一个网站。 所以导出网站最重要的两个功能&am…

如何更有效使用Rational AppScan 扫描大型网站

Rational AppScan 工作原理 Rational AppScan(简称 AppScan)其实是一个产品家族,包括众多的应用安全扫描产品,从开发阶段的源代码扫描的 AppScan source edition,到针对 Web 应用进行快速扫描的 AppScan standard edit…

WordPress快速增加百度收录,加快网站内容抓取

本文已同步到专业技术网站 www.sufaith.com, 该网站专注于前后端开发技术与经验分享, 包含Web开发、Nodejs、Python、Linux、IT资讯等板块. 利用百度站长平台提供的链接自动提交代码, 快速增加百度收录, 加快网站内容抓取。 1.创建名为 “baidu_js_push.php”的文件, 内容如下(…

蚂蚁变大象:浅谈常规网站是如何从小变大的

2005年,我开始和朋友们开始拉活儿做网站,当时第一个网站是在linux上用jsp搭建的,到后来逐步的引入了多种框架,如webwork、hibernate等。在到后来,进入公司,开始用c/c,做分布式计算和存储。&…

如何快速把PC网站模板改为自适应模板

网站自适应,很多人都认为是很高级需要很多时间去实现的东西,不愿意去把一个现成的网站改成自适应,宁愿单独另外做一个移动站。我之前觉得实现网站自适应,要设计很多套CSS,并且要结合jQuery,来实现自适应不同…

Mysql在大型网站的应用架构演变

本文主要描述在网站的不同的并发访问量级下,Mysql架构的演变。架构的可扩展性往往和并发是息息相关,没有并发的增长,也就没有必要做高可扩展性的架构,这里对可扩展性进行简单介绍一下。写在最前:本文主要描述在网站的不同的并发访…

《从零开始学Swift》学习笔记(Day 2)——使用Web网站编写Swift代码

Swift程序不能在Windows其他平台编译和运行,有人提供了一个网站swiftstub.com,左栏是代码编辑窗口,右栏是运行结果窗口。可以在任何平台下编译和运行Swift程序。 本文转自 tony关东升 51CTO博客,原文链接:http://blog.…

一个非常不错的背景纹理图的网站

今天闲逛的时候发现的:http://subtlepatterns.com/。里面的纹理图质量都非常高,并且预览也非常方便,无需注册即可下载,这里强烈推荐下。 转载于:https://www.cnblogs.com/TianFang/p/4008345.html

旅游网站的主页代码_网站建设应该怎么样考虑主页的设计?

网站建设在进行深圳网站建设的那时,主页的设计方案是十分重要的。因为用户在访问网站的那时,先看到的就是网站的主页。因而主页是网站给用户的第一印象。大家在企业深圳网站建设的那时一定要十分重视主页的设计方案,下面大家就来讨论一下如何…