澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布

news/2024/5/11 15:07:57/文章来源:https://buyixiao.blog.csdn.net/article/details/112059746

idea of startproject

  1. 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。
  2. 对于 nlper,缺乏足够的新闻语料数据集来供训练。
  3. 对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。
  4. 如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。

这个 project 我几年前就有想法了,仓库两年前就推送到了 Github,只不过只有一个 readme 文件,昨晚跨年,清理 Github,这个想法就又强烈了起来,说干就干。

project 的 Github:https://github.com/Python3Spiders/AllNewsSpider

其实最开始并没有将澎拜新闻包括在内,某最近才开始重点关注澎湃新闻,相对于其它新闻的娱乐性,澎湃新闻的严肃活泼笔风,深得我意。

澎湃新闻爬虫

先说下这个爬虫的实用之处,罗列如下

  1. 全自动爬取澎湃新闻全站新闻内容,包括时事财经思想生活四大 channel 。
  2. 速度较快,容错高,对各种异常做了对应处理,目前开源的 pyd 测试抓取 w 级数据正常(如果碰到新异常,请提 issue)。
  3. 字段齐全,包括 recode_time(该条新闻被抓取的时间)、news_url 以及其他各个新闻的必要字段,共计 12 个。

再说说如何使用(默认读者均有 python3.6+ 环境)

  1. 将仓库 pengpai 文件夹下的 pengpai_news_spider.pyd 文件下载到本地,新建项目,把 pyd 文件放进去

  2. 项目根目录下新建 runner.py,写入以下代码即可运行并抓取

    import pengpai_news_spider
    pengpai_news_spider.main()
    

爬取过程中是下面这样的

在这里插入图片描述

图中 https://www.thepaper.cn/newsDetail_forward_10623559 可能是 h5 或者 公众号文章或者 视频之类的说明该条新闻不在我们的目标爬取范围内,不会被保存起来。

爬取结束了,会在当前目录下生成一个 澎湃新闻.xlsx文件,里面保持了四个 channel 的所有网站上可浏览的文本新闻,一个 channel 对应一个 sheet_name,如下图

在这里插入图片描述

Todo

实现增量更新,初步思路是使用布隆过滤器去 news_url 的重。

最后,新年第一天,元旦快乐!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_776758.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

scrapy爬取天天基金网站基金基础数据教程

最近周围朋友很多都在研究基金,或者想买入,或者想通过综合研究基金的重仓股来指导其在股市的行为,暂且搁置这些投资指导方式是否正确和稳妥,笔者便趁着周末给写了个小爬虫,将基金相关数据爬取下来并存储到了本地MYSQL&…

大型分布式网站架构技术总结

本文是学习大型分布式网站架构的技术总结。对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架构参考。一部分为读书笔记,一部分是个人经验总结。对大型分布式网站架构有很好的参考价值…

读书笔记:大型网站技术架构-核心原理与案例分析

李智慧《大型网站技术架构-核心原理与案例分析》性能可用性伸缩性扩展性安全性总结这本书组织的很不错,语言精练,篇幅也不长,对网站架构的要点讲的狠清楚透彻,思路清晰。主要围绕架构的五个要点:性能、高可用、伸缩性、…

zabbix3.0 监控WEB网站性能

检测流程 1. 打开网站:如果http code为200,并且响应的html中包含Zabbix SIA表示打开成功(zabbix页面有这个标示) 2. 登陆后台:post用户名和密码到index.php,如果响应200,那表示post成功。并且通…

php实现多个网站session共享

做项目经常会用到,多个项目公用一个session的情况,由于涉及到session跨域,多个项目之间公用同一个session就会存在问题,解决这种问题的方法有很多,比如session存入数据库,Session写入缓存等等Session主要分…

Python爬虫采集CloudBlog网站的文章

---------------------------------------------------------------------------------------------[版权申明:本文系作者原创,转载请注明出处] 文章出处:http://blog.csdn.net/sdksdk0/article/details/76208980作者:朱培 I…

我竟然只花三天就搞定了网站微信授权系统!//Java、Java学系、快速学习、集中训练、Java零基础

添加微信即可报名训练班!(备注暗号999) 或者加QQ群我们一起交流:731892759免费领取三套价值3000元的Java资料1、Java自学超详细电子书2、自录优质网络直播课3、大厂Java面试题,优质项目练习题

让你三天学会网站微信授权登录系统开发//Java、系统开发、训练营、高效学习

用户体验优化是互联网产品非常重要一个环节,用户体验的好坏直接决定了产品在市场推广普及度。面对众多的选择,互联网的用户的耐心越来越低。一个网站如何能够通过快速登录绕过繁琐的注册环节直接让用户使用,这是决定用户是否会轻易流失的因素…

【壹加壹SEO技术博客】SEO优化过程中排名下降的原因...

【壹加壹SEO技术博客】SEO优化过程中排名下降的原因 1、网站上HTML标签的过度使用H1标签可以减少网站关键词排名的难度。但是很多网站管理员和朋友知道这种方法后,在自己的首页上无限制地添加H1标签,这不仅有不利于优化,还会导致网站过度优化…

在CentOS上使用Nginx和Tomcat搭建高可用高并发网站

原文博客:Doi技术团队 链接地址:https://blog.doiduoyi.com/authors/1584446358138 初心:记录优秀的Doi技术团队学习经历 前言 本篇文章将介绍如何搭建使用Nginx和Tomcat的高可用高并发的网站,我们将会在CentOS系统上搭建这样一个…

使用JMeter对网站和数据库进行压力测试

前言 表面看来,JMeter与本系列课程似乎关系不大,但实际上在后面的很多场景中起着重要作用:如何获知修改了某些代码或者设置之后系统性能是提升了还是下降了呢?商业的压力测试工具LoadRunner确实很高大上,但是据说费用也…

同样的文章2个网站2种待遇,2个眼光,博客园是逼我走、程序员网站是请我过去,这就是人才在不同公司的待遇一样的道理...

为什么80%的码农都做不了架构师?>>> 昨天晚上很热血的写了两篇文章,结果一个被博客园强制撤下首页。 今天被CSDN网站发布到首页,为我免费做广告,http://www.csdn.net/, 同时给我上了2个首页。 C# ASP.NET …

大型网站技术架构(一)大型网站架构演化

2019独角兽企业重金招聘Python工程师标准>>> 看完了有一本书,就应该有所收获,有所总结,最近把《大型网站技术架构》一书给看完了,给人的印象实在深刻,再加上之前也搞过书本上讲的反向代理和负载均衡以及ses…

反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站

我们都知道网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫,比如宜搜蜘蛛(YisouSpid…

linux网站根目录权限,Liunx中的账号与文件/目录权限管理——理论篇

本篇博客主要介绍Liunx操作系统中有关用户与组相关的属性与权限,并且详解如何对文件/目录进行权限、归属的设置。接下来我将主要从以下几个部分进行详细的讲解目录简述:用户账户和组账户概述用户账户和组账户管理查询相关账户信息查看目录或文件的属性设…

linux实用工具有3类,基于网络的实用扫描工具 - Linux下查找系统漏洞的两类常用工具_Linux安全_Linux公社-Linux系统门户网站...

2、基于网络的实用扫描工具(1)NmapNmap即Network Mapper,它是在免费软件基金会的GNU General Public License (GPL)下发布的。其基本功能有:探测一组主机是否在线;扫描主机端口,嗅探提供的网络服务;判断主机的操作系统…

angular高级编程第3版下载_不会编程?也能一键爬虫、优化网站的软件!

THE START今天分享一个爬虫工具,操作很简单,完全不需要编程基础也可以轻松使用。简单的使用瞬间就可以入门,但是更多功能的话还是需要深入学习的,小编简单说明一下这个软件的功能。Screaming Frog SEO Spider 12最新版&#xff01…

delphi 不允许在线程里操作ui怎么办_收下这些网站,让你再也不加班

​一个小视频教你工作效率提升10倍https://www.zhihu.com/video/11383787306228776961、老板让我做一百张海报我怎么办啊?在线设计快速套模板的网站送给你海报专用https://www.fotor.com.cn/LOGO专用https://www.logomaker.com.cn/design2、想要字体怎么办&#xff…

python做的网站_用Python做个女神网站

学 Python,从爬女神开始,做网站开始 先来看看最后做成的网站(https://nvshen.luobodazahui.top/#)支持给心仪的女神点赞加星哦! 啥也不说,今天是来送福利的 女神大会 不是知道有多少人知道“懂球帝”这个 A…

seay代码审计工具_渗透测试 网站代码审计等基础方法篇

这几天整理了下网站渗透测试中基础部分的第三节,我们渗透工程师对代码安全审计,手工渗透测试检查代码的危险漏洞方法,找出安全问题重点,配合工具扫描来达到测试漏洞的目的,本测试重点仅限于客户授权才能操作,切记忽非法尝试入侵!以下方法只是提供网站安全检测的具体…