python爬虫实例--tencent网站招聘信息

news/2024/5/20 3:09:34/文章来源:https://blog.csdn.net/elsa_yxy1984/article/details/107041806

学习python爬虫一段时间了,想做个实例巩固一下所学的知识。

爬取对象:腾讯招聘网站

不知道是不是被爬的多了,这个网页变动挺大的。

(网上搜到的那些爬虫代码已经不好使了,๑乛◡乛๑)

代码如下:

import urllib
from urllib import request
import re
import json# 构造请求头信息
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; ''x64; rv:77.0) Gecko/20100101 Firefox/77.0'}
url = 'https://careers.tencent.com/tencentcareer/api/post/Query?pageSize=10&language=zh-cn&area=cn&'pat1 = re.compile('"PostId":"(.*?)"')
x = 0
# 爬取1--3页的招聘信息
for i in range(1, 4):kw = {'pageIndex': i}kwd = urllib.parse.urlencode(kw)url_use = url + kwdreq = urllib.request.Request(url_use, headers=header)data = urllib.request.urlopen(req).read().decode()# 使用正则表达式获取职位ID号postId = re.findall(pat1, str(data))for j in postId:# 访问职位信息详情页面url_new = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?postId=%s' % jreq_new = urllib.request.Request(url_new, headers=header)data_new = urllib.request.urlopen(req_new).read().decode()   # 返回的data_new是字符串类型str# 将字符串转换成字典data_json = json.loads(data_new)# 获取职位信息x += 1print('------------第%s个职位信息------------' % x)print('职位名称:'+data_json['Data']['RecruitPostName'])print('工作职责:\n'+data_json['Data']['Responsibility'])print('工作要求:\n'+data_json['Data']['Requirement'])

执行结果太长,附上部分执行结果

 

 

注:文章内容主要是记录学习过程中遇到的一些问题,以及解决方法。留个记录,同时分享给有需要的人。如有不足之处,欢迎指正,谢谢! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_905568.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有趣的网站404错误设计欣赏

如果一个用户看到一个普通的404错误页面他或许不会多做一些停留。而如果一个有创造性的404页面它肯定会激发访客多做一些停留来研究这个页面。所以想让你的404页面多一些访客量停留那就在上面多一些创造性的空间。 今天站长素材专门收集了50个很有趣的404创意页面,里…

无聊了 挨个网站点点登陆一下看看账号还活没活着=。=

找了些稍微有技术性的网站论坛登陆一下 看看还有没有自己的账号 哈哈 继续补充中。。。 (一)CSDN 注册3年了 不停的潜水 不停的潜 这个账号很久没用了 为什么呢 因为下载资源的分都成负的了 看帖不回贴的后遗症 (二)设计中国挺不错…

asp.net 2.0 多语言网站的解决方案

asp.net 2.0中的App_GlobalResources可以用来解决本地化的问题,程序会根据浏览器的语言首选项自动判断显示出本地化的界面。 首先在App_GlobalResources新建resx资源文件。如: 不同语言的resx中项目应该具有相同的名称: 中文资源项 英文资源项 完了以后就可以使用这些名…

鹰潭seo来这扎根了

鹰潭seo来这扎根了,从今以后鹰潭seo每天都会跟大家分享seo知识,请朋友们多多关照!!!

为什么谷歌不收录你的网站

鹰潭seo网站是在2013年4月2日正式上线的,就在运营了10多天的时候成功的被百度收录了首页。但是很长时间发现谷歌就是不收录我的,因为之前我以为谷歌收录会经过一段时间,直到有一天我朋友的站,还不到一个礼拜就被谷歌收录了&#x…

seo的核心思想是什么

搜索引擎是seo的上帝,他们之间不是对立关系 用户是搜索引擎的上帝,而搜索引擎则是seo的上帝。为什么这么说呢?我们做seo,那seo带来的流量是不是搜索引擎给的,搜索引擎为什么把流量给你,只能是我们帮助它服务…

seo影响因素有哪些

主机对seo的影响因素 独立Ip 你的网站是不是独立ip,如果你的网站是一个独立的ip,百度会认为你一个人占了一个服务器,你的权重会较好。我们没有独立ip,要是同个服务器的网站有出现被惩罚或者被K的网站,就有可能会牵连到…

用户行为与社会化媒体对seo的影响

用户行为对seo的影响 1.品牌词搜索:如何界定品牌词搜索呢?比如说我做了一个网站品牌叫鹰潭seo,当大量的用户在搜索鹰潭seo的时候,你的网站排名第一。 搜索引擎能够精确的判断出这个词你的品牌,这会对你的网站的排名权重…

seo知识综合总结

鹰潭seo针对之前跟大家分享的seo知识今天做一个大体总结,想要了解具体的内容大家可以进入鹰潭seo网站:www.jxytseo.com。 第一篇 浅谈搜索引擎与优化 第二篇 seo的核心思想是什么 第三篇 seo影响因素有哪些 第四篇 网站内部结构与关键词的选择 第五…

百度SEO与谷歌SEO的10大区别

本文作者: Fimen 由鹰潭seo转载 全文如下: 百度和谷歌的SEO优化到底有什么区别?这个问题是客户或者SEO新手们最常问的热门问题之一,可大部分的时候我们得到的答案就像:百度 和谷歌SEO基本没有什么区别;只要专注于内容…

统计分析seo必做

【统计与分析基础】 1、网站流量的商业价值 google Analytics 基本指标:访客数量、浏览量、停留时间、跳出率、地理位置分布、浏览器语言、网站排名查询 统计与分析操作 1、搜集整理信息 2 、分析报告 3、效果评估 提高网站流量方法 1、博客或微博-添加博客到…

鹰潭seo谈百度站长工具的强大之处

鹰潭seo认为百度站长工具是我们做排名不可或缺的,因为百度在中国是引擎是老大级别,我们中国人做seo的基本上都是做百度排名。既然做百度排名,那百度站长工具我们这些站长就必须要用到。对于还没有使用百度工具的朋友,可以看下下面…

团购网站的销售额是怎么来的?

来源:i黑马 作者 :IT耳朵神他爹 鹰潭seo 转载: 导读:之前写了两篇《细数国内团购行业的奇葩网站》的文章,感谢热心读者的围观和拍 砖。在写本篇文章之前,跟大家聊聊为什么本人不用各项数据进行对比方式…

如何提高地方旅游网站的用户体验度

随着暑期的到来,旅游行业成为了高峰期,而在这个七八月份里全国各地的人们都选择了去旅游,从数据上显示,一部分的游客们去旅行社报名旅游,一部分的游客们去旅游网站上报名旅游,还有一部分的游客是去团购网上…

使用不同网站形式进行内容原创的方法

年初,号称净化网络的绿萝算法出台了,于是外链受到整治,前段石榴算法的重磅出台,针对网站页面质量的整治又是另一场变革。目前石榴只不过是第一波,但是根据文档表达的思想看来,接下来的后续算法中&#xff0…

鹰潭seo问百度快照你懂多少

百度快照倒退或直接没有了首页快照是怎么回事呢? 鹰潭seo网站的快照倒退是很常见的时间,但是百度退你的快照也是有一定的原因的,不管死客观和主观,我们都要注意下自己的站了。一个重要网页的快照往往会在搜索引擎数据库中保存有多…

404页面是怎样对网站优化产生影响的?

既然做网站,那大家应该都熟悉404页面吧,其实站长们对于网站404页面了解有多少呢?事实上,有很多站长并不了解404页面的真正含义,仅仅知道这个状态码是因为服务器找不到请求的页面而产生的。那么对于一些不存在于网站页面…

github个人静态网站(Blog)绑定域名

categories: 主题 1、首先得在博客搭好的前提下,可以通过:仓库名.github.io访问,再开始进行个人域名绑定。 先对个人仓库添加一个CNAME.txt(大写)文件。 2、文件内容填写你的定级域名,(不带ww…

牛腩新闻发布系统—发布网站

本文介绍一下如何在VS2012中发布我们的牛娜新闻发布系统,具体步骤如下: 1.首先选择我们的web层,右击选择“发布”,然后选择新建配置文件—点击下一步 2.发布方法选择“文件系统”, 在”目标位置”框中输入文件的输出位…

网站维护软件七剑客:如何帮你节约50%的维护时间

2011-11-24 09:36 来源: luzhou6.com 一 Dreamweaver 的管理站点功能 DW也许大家都常用,他的强大没什么可说的。但很多人忽略了其中一个很重要的功能,就是“管理站点”功能。这个功能非常方便,设置之后,修改任何页面文件、程序…