实习僧网站爬取

news/2024/5/20 12:29:09/文章来源:https://blog.csdn.net/weixin_30486037/article/details/96013098

遇到的问题:网站设置了简单的反爬虫规则:数字防爬,如:&#xf5e2这样的。

解决方法:直接获取0-9的编码加入字典以此替换。

代码如下:

import requests,re,time,xlwt
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
end_list = []
replace_dict={"&#xf770":"0","&#xf5fa":"1","&#xf451":"2","&#xe939":"3","&#xede7":"4","&#xf328":"5","&#xed99":"6","&#xf03b":"7","&#xe9d2":"8","&#xf5e2":"9"}
def get_links(url):wb_data = requests.get(url,headers=headers)wb_data.encoding=wb_data.apparent_encodinglinks = re.findall('class="name-box clearfix".*?href="(.*?)"',wb_data.text,re.S)for link in links:get_infos('https://www.shixiseng.com'+link)
def get_infos(url):wb_data = requests.get(url,headers=headers)wb_data.encoding=wb_data.apparent_encodingsalarys = re.findall('class="job_money cutom_font">(.*?)</span>',wb_data.text,re.S)addresses = re.findall('class="job_position">(.*?)</span>',wb_data.text,re.S)educations = re.findall('class="job_academic">(.*?)</span>',wb_data.text,re.S)jobways = re.findall('class="job_week cutom_font">(.*?)</span>',wb_data.text,re.S)months = re.findall('class="job_time cutom_font">(.*?)</span>',wb_data.text,re.S)jobgoods = re.findall('class="job_good".*?>(.*?)</div>',wb_data.text,re.S)contents = re.findall(r'div class="job_til">([\s\S]*?)<div class="job_til">', wb_data.text, re.S)[0].replace(' ','').replace('\n', '').replace('&nbsp;', '')contents = re.sub(r'<[\s\S]*?>', "", str(contents))#requires = re.findall(r'class="job_detail".*?>font-size:14px;>([\s\S]*?)</span>',wb_data.text,re.S)for salary,address,education,jobway,month,jobgood in zip(salarys,addresses,educations,jobways,months,jobgoods):for key, vaule in replace_dict.items():salary = salary.replace(key, vaule)jobway = jobway.replace(key,vaule)month = month.replace(key,vaule)list=[url,salary,address,education,jobway,month,jobgood,contents]end_list.append(list)
if __name__ == '__main__':try:urls = ['https://www.shixiseng.com/it/{}'.format(str(i))for i in range(1,10)]q = 1for url in urls:print('正在打印第%d页'%q)q+=1get_links(url)time.sleep(3)book = xlwt.Workbook(encoding='utf-8')sheet = book.add_sheet('newjobmessage')header = ['网址','日薪','地址','学历','上班要求','实习期','福利','要求']for h in range(len(header)):sheet.write(0,h,header[h])i = 1for list in end_list:j = 0for data in list:sheet.write(i,j,data)j+=1i+=1book.save('123.xls')except:print('endprocess')

效果图:

转载于:https://www.cnblogs.com/mayunji/p/8779016.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_757877.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用html制作一个网站的步骤,新手怎么做网页 新手如何制作一个网页

新手怎么做网页&#xff0c;网页好做吗&#xff1f;新手如何制作一个网页&#xff0c;网页制作步骤有哪些&#xff1f;网页更能体现出一个产品的功能与用途&#xff0c;如何使用自己计算机上的文本编辑器创建网页&#xff0c;然后在浏览器中查看网页。如果您有兴趣将您的网页发…

php投票网站管理员界面,php查询操作实现投票功能

本文实例为大家分享了php查询操作实现投票功能的代码&#xff0c;供大家参考&#xff0c;具体内容如下题目&#xff1a;解题方法汇总&#xff1a;方法一&#xff1a;1. 投票主页面&#xff1a;投票#list{width:400px;height:300px;}#jieguo{width:400px;height:300px;}.x{float…

如何用eclipse配置虚拟目录_wordpress建站如何用SMTP配置邮件通知

前提条件&#xff1a;你已经有了企业邮箱&#xff0c;相关文章请看&#xff1a;如何开通阿里云企业邮箱免费版https://loyseo.com/how-to-register-aliyun-free-enterprise-email/不建议使用主机商提供的邮箱&#xff0c;因为换主机商是比较常见的事情&#xff0c;因此导致的邮…

查询错误_入学派位查询系统现异常,北京西城区:网站代码逻辑错误,不影响派位结果...

图源图虫创意芥末堆讯 6月10日下午&#xff0c;北京市西城区教育考试中心就6月9日寄宿、九年一贯制和民办学校入学派位查询系统出现异常情况进行通告&#xff0c;称“派位系统正常&#xff0c;派位结果公正可靠“&#xff0c;查询结果显示异常与派位系统和派位结果并无关联。6月…

html 自动排序代码,SEO中常用HTML代码大全,及权重排序

做SEO必须要懂HTML&#xff0c;说的是一点都没错&#xff0c;不过其实是不需要全部都懂&#xff0c;最重点的你懂了会用&#xff0c;基本上都是事半功倍了。可以这么说一个不懂代码的优化人员不算是一个合格的好优化。下面就总结一下做优化&#xff0c;必须要懂得几个最重要的h…

网站服务器提权,网络安全系列之七 网站提权

上传了webshell之后&#xff0c;我们的目的是获取服务器的系统管理员权限&#xff0c;这也是******的最终目的。“H4ck Door”是一个很牛的大马&#xff0c;提供了很多功能&#xff0c;我比较喜欢的是执行cmd命令来提权。首先执行“net user”命令查看服务器有哪些用户&#xf…

【SEO】title / robots / description / canonical

1、title title&#xff0c;就是浏览器上显示的那些内容&#xff0c;不仅用户能看到&#xff0c;也能被搜索引擎检索到&#xff08;搜索引擎在抓取网页时&#xff0c;最先读取的就是网页标题&#xff0c;所以title是否正确设置极其重要。 1&#xff09;title一般不超过80个字符…

SQL在线练习网站

1、地址是&#xff1a;http://sqlfiddle.com/ 2、http://zh.sqlzoo.net/wiki/SELECT_basics/zh

网站请求流程

Apache 能够完成的事情过于简单&#xff0c;无外乎就是找到你请求对应的文件 → 读取文件 → 将文件内容响应给客户端浏览器&#xff08;文件原封不动的给你&#xff09;。无法满足让网页内容动起来&#xff08;随着数据动态变化&#xff09;的需求。 于是乎&#xff0c;就有人…

在安卓手机中调试网站

尝试在手机上 去进行项目的预览和测试 要保证自己的手机可以正常运行&#xff1b;要保证 手机 和 开发项目的电脑 处于同一个 WIFI 环境中&#xff0c;也就是说手机可以访问到电脑的 IP打开自己的 项目中 package.json 文件&#xff0c;在 dev 脚本中&#xff0c;添加一个 --h…

自适应页面 移动端获取焦点自动放大_移动互联网下,要做响应式网站吗?

网民往移动端靠拢&#xff0c;搜索引擎也推出了移动优先的说法。有的朋友说还好我有响应式网站&#xff1b;有的朋友说&#xff0c;不怕&#xff0c;我做了手机站。该做响应式网站还是独立的手机站&#xff1f;一个一个来&#xff0c;今天我们先来聊聊响应式网站。什么是响应式…

js 获得明天0点时间戳_爬虫实例(四)某不知名网站的js反爬

目标网站&#xff1a;http://www.pbc.gov.cn/jinrongwendingju/146766/index.html​www.pbc.gov.cnchrome走起&#xff0c;进入目标网站后ctrlU&#xff0c;发现好像没有反爬&#xff1f;requests试一下import OK&#xff0c;走你~一堆混淆过的js&#xff1f;打开fiddler&#…

使用Bootstrap 3开发响应式网站实践03,轮播下方的内容排版

通常把一些重要信息、需要重点标注的信息放在轮播的下方显示&#xff0c;这部分区域用到了大字体的标题、副标题以及段落文字等。<div class"row" id"bigCallout"><div class"col-md-12"><div class"well"><div …

html网站开发与php网站开发_网站二次开发

网站 不管对个人(个人博客)还是公司(企业) 都有一定的宣传作用。但是该怎么做呢&#xff0c;相信大多数人&#xff0c;也不愿意从头开始学代码来搞一个网站&#xff0c;那么现在讲的就是 不用碰过多的代码也可以做一个自己满意的网站“二次开发”用于网站开发行业。二次开发指首…

node——使用Nginx + Node.js部署你的网站

Nginx是一个高性能的HTTP和反向代理服务器&#xff08;反向代理就是通常所说的web服务器加速&#xff0c;它是一种通过在繁忙的web服务器和internet之间增加一个高速的web缓冲服务器来降低实际的web服务器的负载&#xff09;&#xff0c;Nginx由俄罗斯程序员利用C语言开发&…

可以发外链的网站_守护袁昆:网站营销运营到底哪里可以发外链?

&#xff08;文/守护袁昆&#xff09;对于网站运营者来说网络营销推广比较难做&#xff0c;大多数朋友选择做网站SEO优化&#xff0c;然而SEO优化中外链怎么发的问题却难倒了9成9的从业者。SEO优化到底哪里可以发外链&#xff1f;极少数部分网站是可以发布外链的&#xff0c;但…

php网站服务器ip地址吗,php 服务器ip地址吗

php 服务器ip地址吗 内容精选换一换LAMP是由Linux、Apache、MySQL和PHP 建立的web应用平台。本文档指导用户使用华为云市场镜像“LNMP平台(CentOS7.4 Nginx PHP7.2)”部署LNMP环境。弹性云服务器创建成功后&#xff0c;还需要配置安全组&#xff0c;开放对应的端口。“LNMP平台…

推荐一个演讲网站:TED

推荐一个演讲网站&#xff1a;TED&#xff0c;看看他&#xff08;她&#xff09;们的演讲&#xff0c;就知道差距了。TED 是 Technology 技术 , Entertainment 娱乐&#xff08;或是 Education 教育&#xff09;, Design 设计 的缩写。但议题並不仅于此&#xff0c;还包括了&am…

Web2.0网站粘性浅析

信息的分享与流动就像货币流动以制肘经济一样&#xff0c;在web2.0的发展之中&#xff0c;起着巨大的作用。是故&#xff0c;以分享信息为主的Web2.0&#xff0c;当用户不再积极的分享信息时&#xff0c;其核心竞争力必然下降&#xff0c;受欢迎的程度也会减弱。 不幸的是&…

[转] ASP.NET 开发 WAP 网站

使用ASP.NET开发WAP很简单,只需要新建一个空的网站,向其中添加移动WEB窗体即可.可以使用OPERA浏览器与M3GATE来调试网页, 强制输出WML,可以在WEB.CONFIG中 <system.web>下添加以下内容: <browserCaps><result type"System.Web.Mobile.MobileCapabilities, …