scrapy爬取--腾讯社招的网站

news/2024/5/9 6:17:19/文章来源:https://blog.csdn.net/weixin_34248849/article/details/92419398

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

需求:得到相应的职位、职位类型、职位的链接 、招聘人数、工作地点、发布时间

一、创建Scrapy项目的流程

1)使用命令创建爬虫腾讯招聘的职位项目:scrapy startproject tencent

2)进程项目命令:cd tencent,并且创建爬虫:scrapy genspider tencentPosition hr.tencent.com

3) 使用PyCharm打开项目

4)根据需求分析,完成items.py文件的字段

5)完成爬虫的编写

6)管道文件的编程

7)settings.py文件的配置信息

d1e8ecac9af297c0b5c1ee19dc33009e685.jpg

8)pycharm打开文件的效果图:

3c43301fc4a8594665f7b4348b64b883d08.jpg

二、编写各个文件的代码:

1.tencentPosition.py文件

import scrapyfrom tencent.items import TencentItemclass TencentpositionSpider(scrapy.Spider):
    name = 'tencentPosition'
    allowed_domains = ['hr.tencent.com']
    offset = 0
    url = "https://hr.tencent.com/position.php?&start="
    start_urls = [url + str(offset) + '#a', ]

    def parse(self, response):
        position_lists = response.xpath('//tr[@class="even"] | //tr[@class="odd"]')
        for postion in position_lists:
            item = TencentItem()
            position_name = postion.xpath("./td[1]/a/text()").extract()[0]
            position_link = postion.xpath("./td[1]/a/@href").extract()[0]
            position_type = postion.xpath("./td[2]/text()").get()
            people_num = postion.xpath("./td[3]/text()").extract()[0]
            work_address = postion.xpath("./td[4]/text()").extract()[0]
            publish_time = postion.xpath("./td[5]/text()").extract()[0]

            item["position_name"] = position_nameitem["position_link"] = position_linkitem["position_type"] = position_typeitem["people_num"] = people_numitem["work_address"] = work_addressitem["publish_time"] = publish_timeyield item# 下一页的数据
            total_page = response.xpath('//div[@class="left"]/span/text()').extract()[0]
            print(total_page)

            if self.offset < int(total_page):
                self.offset += 10
            new_url = self.url + str(self.offset) + "#a"
            yield scrapy.Request(new_url, callback=self.parse)

2.items.py 文件

import scrapyclass TencentItem(scrapy.Item):
    # define the fields for your item here like:
    position_name = scrapy.Field()
    position_link = scrapy.Field()
    position_type = scrapy.Field()
    people_num = scrapy.Field()
    work_address = scrapy.Field()
    publish_time = scrapy.Field()

*****切记字段和TencentpositionSpider.py文件保持一致

3.pipelines.py文件

import jsonclass TencentPipeline(object):
    def __init__(self):
        print("=======start========")
        self.file = open("tencent.json", "w", encoding="utf-8")

    def process_item(self, item, spider):
        print("=====ing=======")
        dict_item = dict(item)  # 转换成字典
        json_text = json.dumps(dict_item, ensure_ascii=False) + "\n"
        self.file.write(json_text)
        return itemdef close_spider(self, spider):
        print("=======end===========")
        self.file.close()

4.settings.py文件

19ca09b6a3c0dde5ccb584af04ad95aa4b8.jpg

5.运行文件:

1)在根目录下创建一个main.py

3c1d7af751048f1a199efc489b3e6521ce8.jpg

2)main.py文件

from scrapy import cmdlinecmdline.execute("scrapy crawl tencentPosition".split())

三、运行效果:

转载于:https://my.oschina.net/u/3892643/blog/1843717

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_774568.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python部署到iis效率_在Windows平台使用IIS部署Flask网站

在 Windows 平台部署基于 Python 的网站是一件非常折腾的事情&#xff0c;Linux/Unix 平台下有很多选择&#xff0c;本文记录了 Flask 部署到 IIS 的主要步骤&#xff0c;希望对你有所帮助。涉及工具和平台Windows 7 x64Python 3.4Flask完成 Hello Flask 网站这是一个最简单的 …

细节也可以决定网站中交互设计的成败

细节也可以决定网站中交互设计的成败 2009年4月23日&#xff0c;外面的天气虽然是烟雨濛濛&#xff0c;但是在电子工业出版社博文视点公司的会议室里充满了阳光与热情&#xff0c;因为今天我们邀请到了《细节决定交互设计的成败》的作者 张亮老师给我们的团队进行了很好的交流&…

wordpress缓存插件使用提高网站速度

WordPress是世界上使用量最多的CMS&#xff0c;由于程序非常吃主机性能&#xff0c;正常情况下当页面被访问时&#xff0c;使用php和mysql。 因此&#xff0c;系统需要消耗RAM和CPU。 如果同一时间有大量访客访问&#xff0c;系统将使用大量的内存和CPU&#xff0c;所以页面加载…

常见的网站服务器架构有哪些?

1. 初始阶段的网站架构一般来讲&#xff0c;大型网站都是从小型网站发展而来&#xff0c;一开始的架构都比较简单&#xff0c;随着业务复杂和用户量的激增&#xff0c;才开始做很多架构上的改进。当它还是小型网站的时候&#xff0c;没有太多访客&#xff0c;一般来讲只需要一台…

通过图片优化,我将网站大小减少了62%

图片是Web提供的最基本的一种内容类型。人们都说一张图片胜过千言万语。但如果你一不小心&#xff0c;它也可能占用你好几兆带宽。 虽说Web图像应该尽可能清晰明快&#xff0c;但文件大小必须是可管理的&#xff0c;以便保持较快的加载速度&#xff0c;并且应该将数据使用保持在…

laravel 开发的双语网站_[扩展推荐] Laravue —— 漂亮的 Laravel 管理界面

文章转发自专业的Laravel开发者社区&#xff0c;原始链接&#xff1a;https://learnku.com/laravel/t/37417介绍几个月前我尝试为我的项目寻找新的解决方案, 我已经使用 Vue 构建了一个 单页应用 (使用这个 非常棒的框架, 使用 Laravel Lumen 作为 API 网关, 使用 Laravel Pass…

大型网站技术架构(六)网站的伸缩性架构

2019独角兽企业重金招聘Python工程师标准>>> 网站系统的伸缩性架构最重要的技术手段就是使用服务器集群功能&#xff0c;通过不断地向集群中添加服务器来增强整个集群的处理能力。“伸”即网站的规模和服务器的规模总是在不断扩大。 1、网站架构的伸缩性设计 网站的…

一本专门解决网站可用性和易用性问题的实用书籍

本文选自《网站交互设计模式》一书前言。 4年前&#xff0c;我们在本书开始写到一个人发现了一条会说话的狗的故事。当问到那条狗说了什么时&#xff0c;那个人回答&#xff1a;“谁关心这个&#xff1f;它是一条会说话的狗啊&#xff01;”在这件事情发生几年后&#xff0c;即…

监控器材律师网站制作_常规警用/安保器材工具分类

秦皇岛银盾提供专业常规保安器材及装备&#xff0c;常规安保器材工具的使用方法及使用教程&#xff0c;更多秦皇岛警用工具、秦皇岛安保器材相关资讯尽在秦皇岛银盾。 执法装备 単警装备 | 警用抓捕器 | 警用不锈钢叉 | 警棍 | 约束带 | 其他 | 警用数码录音取证系统 | 公安移动…

金融计算机去哪个网站找工作,海归金融硕士找工作应该选择哪个网站?

海归金融硕士在当下的就业市场之中还是非常吃香的&#xff0c;工资待遇也非常的不错。只不过给到海归金融硕士的岗位往往都属于高薪岗位&#xff0c;普通的求职网站之中很少有相应的岗位录入&#xff0c;即便有也是竞争激烈&#xff0c;且待遇配不上海归金融硕士的学历。而海归…

PHP网站的文章添加功能,给你的WordPress网站文章正文添加选项卡

插件作者网站的演示效果&#xff1a;http://tabbervilla.com/wordpress-post-tabs/上面的图片这样的正文选项卡切换功能&#xff0c;在介绍某一个产品时&#xff0c;可以把这个产品的功能、参数、演示和图片等等信息分门别类&#xff0c;让人能够非常清晰的将产品的信息展示在用…

网站隐藏index.php,iis隐藏index.php

iis隐藏index.php的方法&#xff1a;首先安装微软的URL Rewrite模块&#xff1b;然后查看url重写模块&#xff1b;接着点击导入规则&#xff1b;最后填入重写规则&#xff0c;并点击右侧“应用”提交即可。推荐&#xff1a;《PHP视频教程》该方法适用于所有品牌电脑。iis隐藏in…

云服务器网站logo,云服务器 logo

云服务器 logo 内容精选换一换云服务器组是对云服务器的一种逻辑划分&#xff0c;云服务器组中的弹性云服务器遵从同一策略。当前仅支持反亲和性&#xff0c;即同一云服务器组中的弹性云服务器分散地创建在不同的主机上&#xff0c;提高业务的可靠性。您可以使用云服务器组将业…

Esri在线视频网站上线!

Esri在线视频网站上线&#xff01;地址为&#xff1a;http://video.esri.com 这里提供了一个更友好的互动环境&#xff0c;让大家了解GIS产业&#xff0c;行业活动和软件技术。 在这里你可以&#xff1a; 能够通过字幕导航&#xff0c;并且可下载字幕通过Esri ID登录&#xff0…

Esri在线视频网站上线!

Esri在线视频网站上线&#xff01;地址为&#xff1a;http://video.esri.com 这里提供了一个更友好的互动环境&#xff0c;让大家了解GIS产业&#xff0c;行业活动和软件技术。 在这里你可以&#xff1a; 能够通过字幕导航&#xff0c;并且可下载字幕通过Esri ID登录&#xff0…

对搜狐、网易和TOM三大门户网站的SQL注入漏洞检测

对搜狐、网易和TOM三大门户网站的SQL注入漏洞检测 本文节选自《大中型网络入侵要案直击与防御》一书 此外&#xff0c;笔者对搜狐及TOM和网易这三大门户网站作了注入攻击检测&#xff0c;发现同样存在明显的注入漏洞&#xff0c;安全性很糟糕。 1.MySQL注入检测搜狐门户网站 …

Drupal是基于PHP语言编写的用于开发网站的开发型CMF

序 Drupal诞生于2000年&#xff0c;是一个基于PHP语言编写的用于开发网站的开发型CMF&#xff08;内容管理框架&#xff09;。Drupal强大的定制开发能力&#xff0c;也使其成为众多有技术实力的网站建设公司优先选用的网站开发平台。 任何网站建设公司自己开发的系统&#xf…

博文视点大讲堂41期-SEO难点之网站内部链接结构

博文视点大讲堂41期 SEO难点之网站内部链接结构 SEO是什么&#xff1f; 虽然这些年SEO概念普及了&#xff0c;但在很多人眼里&#xff0c;SEO和、欺骗是一回事儿。这是对SEO的极大误解。 SEO是个强有力的工具&#xff0c;能以很合理的方式进行&#xff0c;既照顾到用户需…

网站导航颜色停留_注重用户体验的网站建设+seo优化服务商--极度创想

如果我们坚持注重提升用户体验&#xff0c;把网站优化以提升用户体验为向导&#xff0c;那么网站优化的成效也便会水到渠成。一切还都应该在重视用户体验&#xff0c;提升用户使用体验的前提下而开展。所以做好网站对搜索引擎的优化并不意味着就一定要牺牲用户体验。​网站结构…

众多SEO专家集体盛赞

《SEO实战密码》将给你思路、眼界和方法的拓展之道。选一个适宜阅读的角落&#xff0c;一杯咖啡&#xff0c;一支笔&#xff0c;听Zac系统地讲SEO知识、见解和经验分享吧。我们都知道&#xff0c;你的竞争对手也会是Zac的粉丝。 葛小飞&#xff08;天真&#xff09;&#xff0…