使用requests爬取实习僧网站数据

news/2024/5/8 16:18:37/文章来源:https://blog.csdn.net/qq_37462361/article/details/102973036

v2-e2bb672ad02c2cf958d45a909e577c88_b.jpg


任务要求:

爬取实习僧网站的招聘公司信息和职位信息,并存储到数据库中,对应的数据库表和需要爬取的字段见下面表一和表二(注意:爬取存在的字段)

代码以上传带github上:使用requests爬取实习僧网站数据

看一下爬下来的结果图:

公司信息:


v2-ceb89f3e720a00644227639aabe53cc1_b.jpg


职业信息:


v2-6a140fcd165bf3d778131cccd0f8f085_b.jpg


1. 检查是否有api

        

2. 选择需要连接的数据库

mysql

3. 数据流分析

  • 确定爬取的范围
    部分页
  • 切入源头
    shixiseng.com/interns?
  • 多层网络结构间跳转流程
    更改参数p进行爬取
  • 范围细分

4. 数据采集

  • 请求模块
    requests
  • 解析工具
    xpath
  • 数据存储
    mysql
  • 爬虫效率提升问题
    使用多协程

5. 反反爬虫

        会有请求失败的问题:通过添加请求头解决


v2-831eb9242513a82dc81356d93644a54a_b.jpg



遇到的问题:

        1. 在爬取的字符串数据中值需要一部分:使用split将字符串进行切割
2. 判断爬取的数据是否是你需要的:使用if判断a字符串是否在b中
3. 爬取停止:sys.exit('tingzhi')4.crontab定时任务:- 先vim /var/spool/cron/root  (打开这个文件)- 添加任务:每天的第一个小时的第一个分钟执行1 1*** python /root/lezhi/爬取实习僧/spider_shixiseng.py- esc 之后 :wq保存退出**部署问题:**screen -x 20156  (打开后台状态为 Attached 且名称为 django 的 screen shell)vim 编译器:  (冒号进入编译模式)q 退出w 保存i 编辑screen -X -S 4588 quit  (杀死一个已经detached的screen会话  )

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_861068.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员实用工具网站

程序员实用工具网站 本文链接: https://blog.csdn.net/m0_38106923/article/details/100130354 1、搜索引擎 2、PPT 3、图片操作 4、文件共享 5、应届生招聘 6、程序员面试题库 7、办公、开发软件 8、高清图片、视频素材网站 9、项目开源 10、算法 11、…

解决通过无线路由上网,但有些网站打不开的问题

问题背景:正常联网状态,所有网站(除了腾讯视频页面)访问正常,就是进不去腾讯视频,网上查,有人说是找不到DNS的原因,所以今天我就专门看了一下无线路由器DNS。并对本机的无线设置做了…

网站访问过程

1、pc到结束访问的全过程 首先发送dns报文进行dns解析 然后建立tcp连接 web服务提供页面信息 首先发送dns包,进行域名解析,数据链路层报文头(数据链路层),ip层头(网络层),udp头&…

win7利用映射网络驱动器功能管理网站FTP空间

win7利用映射网络驱动器功能管理网站FTP空间 首先打开windows资源管理器,最菜单栏找到映射网络驱动器 弹出设置界面,我们选择最下面的“连接到可用于存储文档和图片的网站”,弹出向导,选择下一步 选中“选择自定义网络位置”&…

网站API自动化测试利器——Postman

转自:http://bayescafe.com/tools/use-postman-to-test-api-automatically.html 如有侵犯,请来信oikenqq.com 自从开始做API开发之后,我就在寻找合适的API测试工具。一开始不是很想用Chrome扩展,用的WizTools的工具,后…

用 Certbot 一键升级你的网站为 Https

转载自:https://www.v2ex.com/t/383032 如有侵犯,请来信:oikenqq.com 原文:(用 Certbot 一键升级你的网站为 Https)[https://lufficc.com/blog/upgrade-to-https-with-certbot] 小站以前采用的是 StartSSL 的 https 证书&#xf…

使用Chrome下载网站视频

引论 在现实生活中,我们经常需要下载一些视频,但是这些视频又没有提供下载的链接或者需要下载客户端。怎么办呢?使用Chrome可以下载大部分网站上的视频,让我们一起学习一下 流程 使用Chrome打开需要下载视频的网站按F12&#xf…

图片背景网页在网站建设中的运用

网页背景是网站建设中体现风格的一种方式,如果背景建设得好,那么对用户体验则有一定的帮助,现在的网站越来越多的人倾向于选择图片背景的网站设计,让网站看起来显得整体,增加吸引力。 由于现在的用户使用的PC端显示屏大…

如何真正的从细节上节省网站用户的时间

我们的用户是很珍惜时间的,我们也不应该随意浪费。在每个项目中都问自己两个问题:“我们是在消耗用户的时间来节省自己的时间吗?”“在这里要如何节省用户的时间?”在西方社会中,什么是最宝贵的财富?钱&…

瞬间抓住眼球!24个特色人像背景的全屏网站设计

人物肖像对视觉引导天然有不可思议的力量,现在全屏网页正在风头,有聪明的设计师已经将这种技巧运用上去了,效果超级赞!今天分享一组高质量的特色人像背景全屏网站,不仅设计有范,模特也好看,绝对…

该如何做好关键词需求分析与网站布局?

建站,一个外行看起来非常有技术含量的词,在站长圈可以说都会做,免费的CMS上传到FTP点击下一下一步填写数据库登陆后台即可,做一个利于搜索引擎的站,可能很多人就会打退堂鼓了。利于搜索引擎的站可能涉及到挖掘关键词、…

决定网站命脉的SEO核心关键词选取

前几天有个群里的朋友来问我,为什么我的关键词做到首页了,但是连个电话咨询都没有呢,我仔细看了他的关键词,确实没错,排名非常好,关键词都在首页,但这些关键词竞争力几乎为零,在这里…

主流cms如何使用帝国备份王网站搬家

本人博客从建立到现在已经差不多快要半年啦!之前一直都没有进行任何的优化,其主要原因就是vsp主机网站加载速度太慢,导致网站打开需要超过6秒之上。因此,本人这几天狠下心来重新买的新主机,把所有网站都进行搬家,在搬家…

网站板块布局黄金视线分布法

网站的板块布局,对于网站排名来说,有着很大的影响作用,好的板块布局能让用户停留时间比较长,但很多行业的网站,大多都以自己的主观意识进行布局,自己想放哪里放哪里,没有一个主次之分&#xff0…

致新手:百度下拉框暗藏的SEO秘诀

作为一个SEO人员,都离不开数据分析一词,随着百度在2015年7月至8月的大调整,很多站长死在了百度算法的冲锋枪下,甚至更有人宣传“SEO之路已死”,其实不然,随着百度算法的调整,搜索引擎的宗旨就越…

如何科学的分析网站用户需求,找出seo优化突破口

搜索引擎的一切竞争核心都是:将满足用户需求的网站排在第一位,方便搜索用户找到他们要的答案,因此,只要你的网站能够满足用户需求,自然百度会主动将你的网站排在第一,排在第一了,你自然就能获取…

SEO搜索优化傻脸了:Google放弃PageRank

Google确认,将停止公开提供PageRank,这意味着任何从Google获取并展示PageRank数据的浏览器、工具栏,很快就再也没有任何数据了。 PageRank诞生于2000年,以特定算法为网页排序,得分范围0-10(越高越好),能让用…

建站教程:如何用百度开发云快速搭建WordPress?

WordPress是一款应用较广的建站程序,随着百度开发云“应用模板”功能的推出,BAE基础版实现了一次华丽的转身。今天我们就来聊聊如何用百度开发云快速搭建WordPress。 首先看一下应用模板和普通应用(空应用)的区别: 注意…

如何让自己的网站获得过万流量

今天为大家分享一个方法,怎么样让我们的网站获得过万的流量。方法有点巧妙,但是也仅仅限于草根站长。 下面我们来看一个案例,赵本山小品网! 为什么这样的网站会有这么高的流量?因为他选了一个没人去做的词,赵本山系列。那么我们如…

产品卖不动?或许是因为你的网站存在这些问题

现如今很多企业都把网站当做一个重要的营销渠道,都希望能通过互联网带来更多客户,提升企业的销售业绩。方向没有错,大家都知道自己要做什么,但知道怎么做的人却不多。 很多企业决策者把手段当做目的,比如做搜索营销&am…