python:半自动化爬取招聘网站的某公司主页招聘数据导出为表格

news/2024/5/11 18:41:17/文章来源:https://blog.csdn.net/aimersong69/article/details/130016205

适用网站:51XXX

本来想要全自动,奈何因为有各种验证防止爬虫很费时间,不想过多专研,不保证高效率,但至少很快让你得到自己想要的东西

网页可参考:

其中pageno表示第几页,coid表示公司编码展示https://msearch.51job.com/co_all_job.php?pageno=1&coid=2881272

 截图:

准备:

1.脚本目录下准备一个html.txt文件,里面就放我上面截图展示的东西(<div class="list">处右键以html编辑,全部复制)

2.脚本代码:

import pandas as pd
from bs4 import BeautifulSoupwith open('html.txt', 'r', encoding='utf-8') as f:html_code = f.read()soup = BeautifulSoup(html_code, 'html.parser')job_list = []
job_divs = soup.find_all('div', {'class': 'list'})
for job_div in job_divs:job_links = job_div.find_all('a', {'class': 'e'})for job_link in job_links:salary = job_link.find('i').textjob_title = job_link.find('strong').text.strip()job_location = job_link.find('em').textjob_exp_edu = job_link.find('p').textjob_tags = [tag.text for tag in job_link.find_all('span', {'class': 'fl'})]company = job_link.find('aside').text.strip()job_info = {'Salary': salary,'Job Title': job_title,'Location': job_location,'Experience & Education': job_exp_edu,'Job Tags': job_tags,'Company': company}job_list.append(job_info)df = pd.DataFrame(job_list)
df.to_excel('job_info.xlsx', index=False)

 3.处理完一页就跳转下一页,重复上面步骤,最后用WPS合并表格数据即可

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_885625.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

建立类似sourceforge.net的网站程序(转载)

建立类似sourceforge.net的网站程序发布&#xff1a; December 28, 2008 众所周知&#xff0c;根据wiki的说明&#xff0c;SourceForge.net&#xff0c;又称SF.net&#xff0c;是全球最大的开源软件开发平台和仓库&#xff0c;而其基础就是SourceForge&#xff0c;这是一套合作…

转载(原标题:网站再遭新威胁 Struts2又曝高危漏洞啦)

自从著名J2EE框架Apache Struts2被曝出可被远程攻击者利用的执行漏洞后&#xff0c;关于Struts2的安全性便广受关注。近日&#xff0c;安全研究人员则再次发现了Struts2存在远程代码执行的漏洞&#xff0c;Struts2官方已经确认该漏洞&#xff08;S2-045&#xff09;&#xff0c…

大型网站体系架构分析

千万级的注册用户&#xff0c;千万级的帖子&#xff0c;nTB级的附件&#xff0c;还有巨大的日访问量&#xff0c;大型网站采用什么系统架构保证性能和稳定性&#xff1f; 首先讨论一下大型网站需要注意和考虑的问题。 数据库海量数据处理&#xff1a;负载量不大的情况下sele…

30个让人兴奋的视差滚动(Parallax Scrolling)效果网站

视差滚动&#xff08;Parallax Scrolling&#xff09;是指让多层背景以不同的速度移动&#xff0c;形成立体的运动效果&#xff0c;带来非常出色的视觉体验。作为今年网页设计的热点趋势&#xff0c;越来越多的网站应用了这项技术。今天这篇文章就与大家分享30个视差滚动效果的…

网站建设的基本流程是怎样的?

目前&#xff0c;越来越多的企业选择建设网站&#xff0c;但也有一些中小企业新手苦恼&#xff0c;因为对网站建设过程的各个方面还不是很了解&#xff0c;没关系&#xff0c;今天准度小编就和新手小白们分享一下网站建设的基本流程&#xff0c;希望对大家有所帮助。 1、规划内…

网站建设公司有多少?怎么去选择靠谱的?

随着市场形势的发展&#xff0c;很多客户慢慢意识到网站系统建设的重要&#xff0c;面对这么大的市场需求&#xff0c;如何去选择网站建设公司呢&#xff1f;下面准度小编整理了一些挑选的小技巧&#xff0c;帮助大家可以更全面的了解网站建设市场。 首先&#xff0c;网站建设公…

网站建设常见的问题有哪些?

企业品牌网站建设虽然发展得越来越好了&#xff0c;但是还是有很多的问题需要我们去研究了解。 今天准度小编就和大家谈谈这件事。 首先常见的问题就是沟通问题。 网站的建设&#xff0c;很多方面是和设计师、运营师直接沟通的&#xff0c;同一个事物的表达能力也是有很多方法的…

网站建设要掌握哪些关键要素?

企业网站的重要性众所周知。对于企业来说&#xff0c;网站建设的效果和后期发展的效果直接影响到企业的发展。互联网为企业带来了非常好的机会&#xff0c;如果企业能准确把握&#xff0c;那么效果就会很好。准度小编就来跟大家说说&#xff0c;网站建设需要掌握哪些要素&#…

企业网站建设成本受哪些因素影响?

从网站建设来看&#xff0c;我们常常会遇到很多的预算类的问题&#xff0c;就是网站建设费用清单&#xff0c;这也是我们每个企业在进行网站建设之前都应该了解清楚的&#xff0c;只有了解了市场情况&#xff0c;才不会被网站建设公司所忽悠。网站建设价格究竟受哪些因素影响呢…

网站建设未来的发展趋势是怎样的呢?

互联网时代到了&#xff0c;网站建设将迎来什么样的变化呢&#xff1f;在这样的行业大环境下&#xff0c;墨守成规迟早被淘汰&#xff0c;只有通过改变自身、增强创新才能拥有新突破&#xff0c;那么网站建设未来的发展变化趋势有哪些呢&#xff1f;网站建设与建站选择之间的关…

网站建设的完整教程以及步骤,建议收藏!

随着互联网的快速发展&#xff0c;越来越多的企业开始建立自己的网站&#xff0c;企业网站就是企业的名片&#xff0c;通过官网&#xff0c;客户可以了解企业的信息&#xff0c;企业的发展状况&#xff0c;一个设计精美的企业官网对于企业来说是一个很好的宣传手段&#xff0c;…

网站建设的基本流程,4个术语帮助新手快速入门

网站对于人们来说&#xff0c;既熟悉又陌生&#xff0c;我们每天都在浏览网站&#xff0c;但却不一定了解网站是由哪些方面组成的。下面准度科技小编就给大家介绍一下网站建设的基本流程&#xff0c;用4个行业术语帮助新手快速入门。 1、网站域名 就是在浏览器里访问的网址&…

Docker布署Django框架外贸网站实操(一安装配置DOCKER)

项目简介 1、最近学习了Python&#xff0c;Python这么火确实是有原因的。比较容易上手&#xff0c;当然也得有基础知识才好上手。语法比较人性化&#xff0c;既面向过程也可以面向对象。最喜欢它的缩进&#xff01;太英明了&#xff0c;大大减少数括号的工作&#xff5e; 2、正…

Docker布署Django框架外贸网站实操(二配置uWSGI + nginx)

上线布署是一件比较复杂的事&#xff0c;要做安全高速不浪费资源不比写一个APP式网站简单&#xff0c;本例在编程阶段采用的是Django 和SQLite数据库&#xff0c;SQLite在编程测试时应用是很方便的&#xff0c;但在正式项目中往往不会采用。对于较大项目往往有多个环境&#xf…

Docker布署Django框架外贸网站实操(三 SQLite切换PostgreSQL)

前期已经基本上完成布署工作了&#xff0c;下面就是优化的过程了&#xff0c;主要解决数据库切换、nginx代理工作。数据库和nginx都单独安装在一个docker内&#xff0c;万一将来项目做大做强了。升级负载均衡会非常容易。现在先在一台服务器上跑多个项目&#xff0c;将来用多台…

免安装、免激活,绿色版的电脑软件下载网站

转自&#xff1a;https://baijiahao.baidu.com/s?id1591795121454398107&wfrspider&forpc 我们平常很多时候都需要下载很多的电脑软件&#xff0c;但是又不知道去哪里下载&#xff0c;今天分享的这五个网站&#xff0c;相信应该对你有用。 一&#xff1a;zd423 htt…

大型网站系统架构演化之路

一个成熟的大型网站&#xff08;如淘宝、天猫、腾讯等&#xff09;的系统架构并不是一开始设计时就具备完整的高性能、高可用、高伸缩等特性的&#xff0c;它是随着用户量的增加&#xff0c;业务功能的扩展逐渐演变完善的&#xff0c;在这个过程中&#xff0c;开发模式、技术架…

UbuntuBSD 官方网站正式上线

在今年3月12日上线之后&#xff0c;ubuntuBSD项目&#xff08;整合FreeBSD核心和Ubuntu Linux&#xff09;赢得了很多用户的关注&#xff0c;项目创始人Jon Boden甚至希望在未来成为官方Ubuntu项目或风格&#xff08;Flavor&#xff09;。今天&#xff0c;Boden再次发布好消息该…

linux企业实战----大型网站架构概述

目录标题 1. 网站架构演化发展历程2. 使用缓存服务器改善网站性能3. 使用应用服务器集群改善并发处理能力4. 数据库读写分离5. 使用反响代理和cdn加速网站响应6. 使用分布式文件系统和分布式数据库系统7. 使用nosql和搜索引擎8. 业务拆分9. 分布式服务 1. 网站架构演化发展历程…

python爬取网站文本格式数据保存到postgresql数据库

通过自学两周在工作中用python写的一个应用&#xff0c;主要是获取网站txt格式的数据&#xff0c;插入到postgresql数据库中&#xff0c;由于网站txt格式数据每日更新&#xff0c;结合windows的计划任务或Linux的crontab计划来实现每日更新数据的要求。 源格式如下&#xff1a;…