新手爬取51job,智联,boss网站职位信息总结和代码(小杜总结)

news/2024/5/20 4:45:11/文章来源:https://blog.csdn.net/small_dudu/article/details/93461522

爬取要求:
(1) 使用合适的数据保存手段保存爬取数据
(2) 记每条数据的爬取时间
(3) 实现数据的增量爬取
(4) 实现同时基于关键字和页面 URL 的去重元数据说明:

一 统一注意事项或建议
1 写代码时认真一些,不要因为个别的单词空格错误,过多浪费时间
2 写一步做一步,每解析一步,输出来验证一下
(因为代码量小的话,好检查一下,代码量大的话,不是不能解决,只是会太多的浪费时间)
3 网页爬取,空值没有strip(),需要大家注意一下
爬取项目网站有51job,智联招聘,boss直聘(反向思维)
1 网站要求
51job:爬取没有限制
boss直聘:需要设置IP,重点设置动态IP
智联:动态抓取,重点获取数据接口
2 爬取重点要求
翻页,详情页,算法检索,网页去重
3 前提:浏览网页
4 爬取思路(反向思维)
1)爬取内容要求(详情页def detail_parse(self),方法主要用item)
脑图画代码呈现

解析职位名称

item[‘hiring_name’] = response.xpath(此处自己解析).extract_first()

解析职位信息

item[‘position_info’] =" ".join(response.xpath(此处自己解析).extract()).strip()
#解析薪资
item[‘pay’]=response.xpath(此处自己解析).extract_first()
2)设置item,如下
在这里插入图片描述
3)获悉详情页的网址(解析下一页网址—可以同步进行,主要在def parse()中)
在这里插入图片描述
4)51job和boss直聘是找原始网址,智联是获取数据接口获取的网址
上面做好了以后整体的框架就有了
二 补充注意事项或建议(完善整体框架)
1 51Job(爬取没有限制)
1)tag的传递
2 boss(IP设置)

1)
在这里插入图片描述
2)此处也是tag的传递(因为这个是用selector解析的)
3 智联
1)获取数据接口
selenium模块里有一个
项目指导中也有一个(建议看第一个,比较详细)
2) json解析
3)翻页逻辑(看网址的不同之处)

代码见
链接:https://pan.baidu.com/s/1WjU0SjZRuZ6fdsx3qIgkdg
提取码:5nx3
复制这段内容后打开百度网盘手机App,操作更方便哦**
boss智联接口如有改变,请自己找好接口

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_871219.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SEO必备工具—百度谷歌关键词采集工具(绿色版)

更多内容请到我的博客:http://mikameng.com 如果您做网站SEO优化, 想必您会经常和关键词打交道。 如果您想拥有海量的网站流量吗? 那采集海量的关键字是很有必要的。 如何快速,高效的获取百度和谷歌的海量关键词呢, 本人开发了…

MacOS解决访问百度很慢,但是其他网站正常的问题

话说这两天隔离结束回到公司宿舍,然后发现宿舍网过期了。。 充了钱之后发现其他设备访问百度都非常正常,但是唯独我的MacBook Pro访问百度巨慢。。 于是用搜狗搜了一下,发现可能是DNS的问题。。就跑到设置的网络这儿 然后在连接的网络里点…

Linux安装apache、发布网站、修改端口、配置第二顺位默认发布文件

1.安装apache服务器,并配置访问端口为9999。 安装apache yum install httpd -y 安装apache手册 yum install httpd-manual 将Apache服务添加到 开机自启中 systemctl start httpd systemctl enable httpd 设置永久允许http firewall-cmd --permanent --add-…

任选一小说网站,爬取任意一部小说,以记事本的形式保存。

1、任选一小说网站,爬取任意一部小说,以记事本的形式保存。 第一种情况(网址可能已失效): import requests from lxml import etree def get_url():url http://www.yuetutu.com/cbook_24378/r requests.get(url)tree etree.HTML(r.text)…

使用AJAX技术,结合监听器,实现页面中动态显示当前网站在线人数(电子工业出版社《Java Web程序设计》P171第九题)

导航 先上思维图纸第一步: 参考了课本(如题教材)实现了Listener第二步:个性化适配第三步:实现JSP界面总体问题: 刚看到的时候心里想的是写一个Servlet集成Listener的相关接口实现。然后JSP的JS每1ms获取一次doGet()中的数据实时刷…

curl网站开发指南

来源:http://www.ruanyifeng.com/blog/2011/09/curl.html curl网站开发指南 作者: 阮一峰 我一向以为,curl只是一个编程用的函数库。 最近才发现,这个命令本身,就是一个无比有用的网站开发工具,请看我整理…

怎样用SharePoint创建网站?

SharePoint能够让企业开发出智能的门户站点,无缝连接用户、团队及信息。下面,我们就将教你如何在sharepoint中创建网站: 创建网站 2. 在 SharePoint 主页上选择“ 创建网站”。 3. 在向导中对网站属性进行基本设置,如网站类型、网…

Linux 安装apache ,发布网站修改端口和配置第二顺位默认发布文件

1.安装apache 软件和手册 2.发布网站,找到默认的发布目录 用xftp 链接上自己的主机传送需要发布的网站到/var/www/html 目录下 使用命令ls查看是否有文件上传 上传成功打开浏览器,输入主机名,查看是否发布成功 3.修改默认端口 #主配置目录 …

js逆向入门网站分析(某空气质量监测平台)

文章目录 前言一、瞧一瞧网站是啥样呢二、新的开始,新的挑战2.1通过第一个 eval2.2分析第二个eval 三、模拟得到服务器传回的数据3.1如何得到关键js文件3.2如何模拟运行eval3.3匹配参数3.4发出请求3.5解密数据 前言 又要到放假的时间啦,学习了好一段时间…

novipnoad电影网站分析

文章目录 前言一.url跳转反调试二.整个过程分析2.1ts重定向2.2 寻找m3u82.3寻找ckey 声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 前言 记录远哥讲的一次…

学习前端的有用网站

藏匿 1. 文档型教程 1.1 HTML教程 W3C的HTML教程 1.2 CSS教程 W3C的CSS教程 W3C Candidate Recommendation Draft 1.3 JavaScript教程 MDN的JavaScript教程 2.视频型教程 2.1 HTML & CSS Udemy排名第一的 HTML5CSS3 课程 2.1 JavaScript Udemy排名第一的JavaSc…

大型分布式网站架构

大型分布式网站架构 2016-02-22 17:50 480人阅读 评论(0) 收藏 举报 大型分布式网站架构技术总结 本文是学习大型分布式网站架构的技术总结。对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架…

各大日语学习网站整理

日语学习网站 一、http://www.gavo.t.u-tokyo.ac.jp/ojad/search 二、http://yomikatawa.com/ 三、http://nlt.tsukuba.lagoinst.info/ 四、http://j-nihongo.com/about/ 五、https://mnamae.jp/ 六、http://18.art-studio.cc/~koenoizumi/ 七、http://www.jakka.jp/index.htm…

c# 爬虫之(搜狗微信网站)

1、需求获取搜狗微信网站 通过关键词搜索得到的结果列表及详情 2、通过跟踪发现具体的url为:https://weixin.sogou.com/weixin?query%E9%92%9B%E6%A3%92%E6%BB%A4%E8%8A%AF&_sug_type_&s_frominput&_sug_n&type2&page2&ieutf8 其中query…

基于ASP.NET的日语学习网站 毕业设计成品讲解(程序+论文)-王翔-专题视频课程...

基于ASP.NET的日语学习网站 毕业设计成品讲解(程序论文)—1467人已学习 课程介绍 本文是基于ASP.NET的日语学习网站的毕业设计成品讲解,包括整套网站程序、数据库和配套的论文,网站期初使用的技术和设计比较一般,本…

基于ASP.NET网站开发的 SQL SERVER 数据库教学辅导 新手基础实用技术精讲-王翔-专题视频课程...

基于ASP.NET网站开发的 SQL SERVER 数据库教学辅导 新手基础实用技术精讲—1183人已学习 课程介绍 ASP.NET网站开发 数据库教学辅导 实用技术精讲,主要针对基于ASP.NET的Visual Studio 2010和SQL SERVER 2008 R2下开发的基础数据库部分 课程收益 快速掌握对数据库开发的基础…

从小型网站到超大规模网站的MySQL参考架构

转自:http://www.infoq.com/cn/news/2013/03/MySQL-Reference-Architectures Oracle发布《面向大规模可伸缩网站基础设施的MySQL参考架构》白皮书,针对将MySQL用作数据存储的不同类型和不同规模的网站给出了推荐的拓扑结构。 根据分别提供4类服务——用…

读书笔记-大型网站架构案例分析

从事传统软件行业多年,一直钻研于基于企业应用环境下的快速开发平台,而这种平台应用场景同时在线人数也不会超过百人,同一业务并发数在同一时间点或段内出现猛烈的增长,曾经也一度想设计一个怎样怎么样的NB架构,但现在…

网站交互相互技术

cookie和session什么区别? 1、cookie存本地,session存服务器 2、cookie只能存最大4k,session可以无限大

jmeter与apache测试网站并发

本文主要介绍性能测试中的常用工具jmeter的使用方式,以方便开发人员在自测过程中就能自己动手对系统进行自动压测和模拟用户操作访问请求。最后还用linux下的压测工具ab做了简单对比。 1. Jmeter相关概念简介: JMeter是Apache组织开发的基于Java的压…