Node.js爬取科技新闻网站cnBeta(附前端及服务端源码)

news/2024/4/27 16:58:24/文章来源:https://blog.csdn.net/weixin_34143774/article/details/88700368

前言

一直很喜欢看科技新闻,多年来一直混迹于cnBeta,以前西贝的评论区是匿名的,所以评论区非常活跃,各种喷子和段子,不过也确实很欢乐,可以说那是西贝人气最旺的时候。然而自从去年网信办出台了《互联网跟帖评论服务管理规定》,要求只有实名认证的用户,才能进行留言、评论之后,往日的活跃的的评论区瞬间沦陷,人气大跌。其实说到底,还是西贝没有跟上移动互联网的潮流,至今还止步于PC互联网时代,网页广告太多,而移动应用质量堪忧,体验极差,虽然有不少第三方的应用,但由于没有官方的支持,体验上还是不够好,例如如果官方发布一些改版,第三方的应用基本都会挂掉。

所以为了方便平时阅读cnBeta的新闻,就打算通过爬虫把cnBeta的新闻爬下来,自建一个m站,这样体验可控,并且没有广告(`∀´)Ψ。其实项目很早就完成了,只是现在才有空(闲情)写一篇分享出来。

概述

本项目爬虫及服务端github地址:https://github.com/hudingyu/c...

前端github地址:https://github.com/hudingyu/c...

技术细节

  • 使用 async await 做异步逻辑的处理。
  • 使用 async库 来做循环遍历,以及并发请求操作。
  • 使用 log4js 来做日志处理
  • 使用 cheerio 来做新闻详情页的分析抓取。
  • 使用 mongoose 来连接mongoDB 做数据的保存以及操作。

目录结构

目录结构

├── bin              // 入口
│   ├── article-list.js      // 抓取新闻列表逻辑
│   ├── content.js          // 抓取新闻内容逻辑
│   ├── server.js      // 服务端程序入口
│   └── spider.js      // 爬虫程序入口
├── config             // 配置文件
├── dbhelper           // 数据库操作方法目录
├── middleware      // koa2 中间件
├── model          // mongoDB 集合操作实例
├── router         // koa2 路由文件
├── utils         // 工具函数
├── package.json       

方案分析

首先看爬虫程序入口文件,整体逻辑其实很简单,先抓取新闻列表,存入MongoDB数据库,每十分钟抓取一次。新闻列表抓取之后,在数据库查询列表中没有新闻内容的新闻,开始抓取新闻详情,然后更新到数据库。

const articleListInit = require('./article-list');
const articleContentInit = require('./content');
const logger = require('../config/log');const start = async() => {let articleListRes = await articleListInit();if (!articleListRes) {logger.warn('news list update failed...');} else {logger.info('news list update succeed!');}let articleContentRes = await articleContentInit();if (!articleContentRes) {logger.warn('article content grab error...');} else {logger.info('article content grab succeed!');}
};if (typeof articleListInit === 'function') {start();
}
setInterval(start, 600000);

接着看抓取新闻列表的逻辑,因为可以获取到新闻列表的Ajax接口,所以直接调用接口获取列表信息。但是也有个问题,cnBeta新闻列表的缩略图以及文章里的的图片是有防盗链的,所以你在自己的网站是没法直接使用它的图片的,所以我是直接把cnBeta的图片文件爬下来存到自己的服务器上。

/*** 初始化方法 抓取文章列表* @returns {Promise.<*>}*/
const articleListInit = async() => {logger.info('grabbing article list starts...');const pageUrlList = getPageUrlList(listBaseUrl, totalPage);if (!pageUrlList) {return;}let res = await getArticleList(pageUrlList);return res;
}/*** 利用分页接口获取文章列表* @param pageUrlList* @returns {Promise}*/
const getArticleList = (pageUrlList) => {return new Promise((resolve, reject) => {async.mapLimit(pageUrlList, 1, (pageUrl, callback) => {getCurPage(pageUrl, callback);}, (err, result) => {if (err) {logger.error('get article list error...');logger.error(err);reject(false);return;}let articleList = _.flatten(result);downloadThumbAndSave(articleList, resolve);})})
};/*** 获取当前页面的文章列表* @param pageUrl* @param callback* @returns {Promise.<void>}*/
const getCurPage = async(pageUrl, callback) => {let num = Math.random() * 1000 + 1000;await sleep(num);request(pageUrl, (err, response, body) => {if (err) {logger.info('current url went wrong,url address:' + pageUrl);callback(null, null);return;} else {let responseObj = JSON.parse(body);if (responseObj.result && responseObj.result.list) {let newsList = parseObject(articleModel, responseObj.result.list, {pubTime: 'inputtime',author: 'aid',commentCount: 'comments',});callback(null, newsList);return;}console.log("出错了");callback(null, null);}});
};const downloadThumbAndSave = (list, resolve) => {const host = 'https://static.cnbetacdn.com';const basepath = './public/data';if (list.indexOf(null) > -1) {resolve(false);} else {try {async.eachSeries(list, (item, callback) => {let thumb_url = item.thumb.replace(host, '');item.thumb = thumb_url;if (!fs.exists(thumb_url)) {mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf('/')), () => {request.get({url: host + thumb_url,}).pipe(fs.createWriteStream(path.join(basepath, thumb_url))).on('error', (err) => {console.log("pipe error", err);});callback(null, null);});}}, (err, result) => {if (!err) {saveDB(list, resolve);}});}catch(err) {console.log(err);}}
};/*** 将文章列表存入数据库* @param result* @param callback* @returns {Promise.<void>}*/
const saveDB = async(result, callback) => {//console.log(result);let flag = await dbHelper.insertCollection(articleDbModel, result).catch(function (err){logger.error('data insert falied');});if (!flag) {logger.error('news list save failed');} else {logger.info('list saved!total:' + result.length);}if (typeof callback === 'function') {callback(true);}
};

再来看抓取新闻内容的逻辑,这里是直接根据新闻的sid得到新闻内容页的html,然后利用cheerio库分析获取我们需要的新闻内容。当然这里也是要把文章中的图片爬下来存入服务器,并且把存入数据库的新闻内容中图片链接替换成自己服务器中的URL。

/*** 抓取正文程序入口* @returns {Promise.<*>}*/
const articleContentInit = async() => {logger.info('grabbing article contents starts...');let uncachedArticleSidList = await getUncachedArticleList(articleDbModel);// console.log('未缓存的文章:'+ uncachedArticleSidList.join(','));const res = await batchCrawlArticleContent(uncachedArticleSidList);if (!res) {logger.error('grabbing article contents went wrong...');}return res;
};/*** 查询新闻列表获取sid列表* @param Model* @returns {Promise.<void>}*/
const getUncachedArticleList = async(Model) => {const selectedArticleList = await dbHelper.queryDocList(Model).catch(function (err){logger.error(err);});return selectedArticleList.map(item => item.sid);// return selectedArticleList.map(item => item._doc.sid);
};/*** 批量抓取新闻详情内容* @param list* @returns {Promise}*/
const batchCrawlArticleContent = (list) => {return new Promise((resolve, reject) => {async.mapLimit(list, 3, (sid, callback) => {getArticleContent(sid, callback);}, (err, result) => {if (err) {logger.error(err);reject(false);return;}resolve(true);});});
};/*** 抓取单篇文章内容* @param sid* @param callback* @returns {Promise.<void>}*/
const getArticleContent = async(sid, callback) => {let num = Math.random() * 1000 + 1000;await sleep(num);let url = contentBaseUrl + sid + '.htm';request(url, (err, response, body) => {if (err) {logger.error('grabbing article content went wrong,article url:' + url);callback(null, null);return;}const $ = cheerio.load(body, {decodeEntities: false});const serverAssetPath = `${serverIp}:${serverPort}/data`;let domainReg = new RegExp('https://static.cnbetacdn.com','g');let article = {sid,source: $('.article-byline span a').html() || $('.article-byline span').html(),summary: $('.article-summ p').html(),content: $('.articleCont').html().replace(styleReg.reg, styleReg.replace).replace(scriptReg.reg, scriptReg.replace).replace(domainReg, serverAssetPath),};saveContentToDB(article);let imgList = [];$('.articleCont img').each((index, dom) => {imgList.push(dom.attribs.src);});downloadImgs(imgList);callback(null, null);});
};/*** 下载图片* @param list*/
const downloadImgs = (list) => {const host = 'https://static.cnbetacdn.com';const basepath = './public/data';if (!list.length) {return;}try {async.eachSeries(list, (item, callback) => {let num = Math.random() * 500 + 500;sleep(num);if (item.indexOf(host) === -1) return;let thumb_url = item.replace(host, '');item.thumb = thumb_url;if (!fs.exists(thumb_url)) {mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf('/')), () => {request.get({url: host + thumb_url,}).pipe(fs.createWriteStream(path.join(basepath, thumb_url))).on("error", (err) => {console.log("pipe error", err);});callback(null, null);});}});}catch(err) {console.log(err);}
};
/*** 保存到文章内容到数据库* @param article*/
const saveContentToDB = (item) => {let flag = dbHelper.updateCollection(articleDbModel, item);if (flag) {logger.info('grabbing article content succeeded:' + item.sid);}
};

爬虫部分差不多就是这样,还有一点就自己服务器存储的爬取的图片每天都会有上百张,时间一长,图片占用的存储空间就会特别大,所以需要定时清理一下,有兴趣的可以看看项目里面的clear-expire.js文件。

总结

其实,虽然这个项目整体并不复杂,但是一套前后端系统搭建起来的过程中,自己的收获还是挺不少的,很多问题的解决需要自己去实践和思考的,对于性能优化考量也是一个重要的方面。

下面截图就是我最终完成得m站,界面很清爽,体验上确实比cnBeta官网要好很多。这样是平时看科技新闻也确实方便很多。

1
2

以上

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_773285.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

服务器安装centos7找不到u盘,安装centos7时找不到u盘怎么办_网站服务器运行维护,centos7,U盘...

虚拟机安装centos7时提示找不到硬盘_网站服务器运行维护虚拟机安装centos7时提示找不到硬盘的解决方法是&#xff1a;1、关闭虚拟机&#xff0c;移除硬盘&#xff1b;2、添加新硬盘&#xff0c;硬盘类型选择IDE&#xff1b;3、设置虚拟硬盘的大小&#xff0c;并创建虚拟硬盘文件…

大型网站架构演变和知识体系 (转)

之前也有一些介绍大型网站架构演变的文章&#xff0c;例如LiveJournal的、ebay的&#xff0c;都是非常值得参考的&#xff0c;不过感觉他们讲的更多的是每次演变的结果&#xff0c;而没有很详细的讲为什么需要做这样的演变&#xff0c;再加上近来感觉有不少同学都很难明白为什么…

AWWWB 网站克隆器 更新到1.01 修正错误

测试克隆网站&#xff1a; http://www.simdoo.com/default.aspx 分析UTF-8等编码的网页时会出现此问题&#xff0c;现已修正。 新版下载地址&#xff1a;http://www.uushare.com/user/icesee/file/2249659

广告***盗杀毒厂商数字签名 视频网站流量惨遭劫持

金山毒霸安全实验室本周截获一广告***&#xff0c;该病毒运行后会在用户电脑释放被修改的flash插件。当用户访问优酷youku、toudu土豆、qiyi奇艺、56我 乐、QQ农场等视频网站时&#xff0c;病毒会强行插入视频广告。并且&#xff0c;据金山毒霸安全实验室分析&#xff0c;病毒释…

美联邦调查局 FBI 网站被黑,数千特工信息泄露

开发四年只会写业务代码&#xff0c;分布式高并发都不会还做程序员&#xff1f; >>> 近日 TechCrunch 等多家媒体报导&#xff0c;一个黑客组织黑了美国联邦调查局 FBI 的附属网站&#xff0c;并泄露了数千名联邦特工和执法人员的个人信息。 黑客攻击了与 FBI 培训学…

构建LAMP网站服务器平台之 基于域名的虚拟Web主机及个人主页

案例需求 ——公司的网站服务器在Internet网络中注册了一个公网IP地址&#xff1a;210.188.201.72&#xff0c;并使用该IP地址注册了2个域名&#xff1a;www.benet.com&#xff0c;www.accp.com。该服务器已经安装好了RHEL5 操作系统&#xff0c;并使用源码编译的方式安装了Web…

一步一步构建企业门户网站博客园首发 ASP.NET CMS

博客园首发:发布一个基于ASP.NET的CMS系统&#xff0c;因为是业余时间做的一个小系统&#xff0c;可能还有很多地方不完善&#xff0c;欢迎同行拍砖 DEMO地址 http://portal.dotnetcms.org/ 下载地址&#xff1a;http://www.dotnetcms.org/download/v3.0.rar说明&#xff1a;在…

LAMP网站架构方案分析

LAMP&#xff08;Linux-Apache-MySQL-PHP&#xff09;网站架构是目前国际流行的Web框架&#xff0c;该框架包括&#xff1a;Linux操作系统&#xff0c;Apache网络服务器&#xff0c;MySQL数据库&#xff0c;Perl、PHP或者Python编程语言&#xff0c;所有组成产品均是开源软件&a…

大型网站技术架构(八)网站的安全架构

2019独角兽企业重金招聘Python工程师标准>>> 从互联网诞生起&#xff0c;安全威胁就一直伴随着网站的发展&#xff0c;各种Web攻击和信息泄露也从未停止。常见的攻击手段有XSS攻击、SQL注入、CSRF、Session劫持等。 1、XSS攻击 XSS攻击即跨站点脚本攻击&#xff08;…

大型网站架构演变和知识体系

之前也有一些介绍大型网站架构演变的文章&#xff0c;例如LiveJournal的、ebay的&#xff0c;都是非常值得参考的&#xff0c;不过感觉他们讲的更多的是每次演变的结果&#xff0c;而没有很详细的讲为什么需要做这样的演变&#xff0c;再加上近来感觉有不少同学都很难明白为什么…

网站整合QQ登录

QQ官方的解释其实有点纠结&#xff0c;但是提供的Demo还是比较清晰的&#xff0c;对一般有会员模块的网站来说&#xff0c;只要20来行代码就可以集成QQ登录功能参考QQ官方文档&#xff1a;http://wiki.opensns.qq.com/wiki/%E3%80%90QQ%E7%99%BB%E5%BD%95%E3%80%91Qzone_OAuth%…

国内外大型SNS网站后台架构对比,互联网营销

要问时下什么类型的站点人气最旺&#xff1f;答案当属SNS网站。短短几年的时间&#xff0c;SNS便迅速确立了Web 2.0核心的地位。用户的增长量之快更是让人咂舌&#xff0c;而Facebook访问量首次超越Google的消息也让人觉得SNS的前途不可限量。当然&#xff0c;面对庞大且繁琐的…

[图表]全球100大博客网站中49%使用WordPress服务

北京时间4月12日消息&#xff0c;瑞典互联网市场研究公司Royal Pingdom最新调查结果显示&#xff0c;在全球100大博客网站中&#xff0c;49%都在使用 WordPress的托管服务&#xff0c;而三年前的比例为32%。 全球100大博客网站中49%使用WordPress服务 WordPress是全球知名的博客…

HTML5 网站大观:12个优秀的 HTML5 黑色风格网站设计

本期 HTML5 网站大观向大家分享12个精美的 HTML5 黑色风格网站设计作品欣赏。作为下一代网页语言&#xff0c;HTML5 加入众多的语义化标签&#xff0c;例如 video、audio、section、article、header、footer 和 nav 等&#xff0c;HTML5 正引领网页制作技术革命。希望下面清单中…

高考放榜季 | 知道创宇全方位保障教育政务网站安全可用

万众期待的高考放榜日到来&#xff0c;6月23日—26日全国高考成绩陆续揭榜。随着数字化信息化进程的加速&#xff0c;高考成绩查询途径已逐步采用考试院官方网站、公众号、电话、短信等多种形式。进而教育政务系统信息网络安全问题逐渐被重视起来&#xff0c;每年高考成绩的放榜…

“净网2021”关停网站6400余个 净网盾成内容管控利器

“净网”行动大力开展多家网站被约谈近日&#xff0c;全国“扫黄打非”办通报了“净网2021”专项行动查办的首批典型案件。截至目前&#xff0c;监管部门累计处置网络有害信息155万余条&#xff0c;取缔关闭非法网站6400余个&#xff0c;查办涉网“扫黄打非”案件960起。2021年…

企业官网、政府门户经常出现不良网站链?教你一招防治!

今年年初&#xff0c;某位武汉市民在浏览武汉港航发展集团&#xff08;下称港发集团&#xff09;官网时&#xff0c;点开了该集团旗下一家公司的链接&#xff0c;在首页下方“骨干企业”一栏中&#xff0c;点击了武汉新港建设投资开发集团有限公司&#xff08;以下简称新港投集…

如何让用户放心浏览你的网站?服务器的这张“身份证”很重要

大家在浏览网页时&#xff0c;网址输入框里会有一个安全提示&#xff0c;明确表明该网址是否安全。如果网站不安全&#xff0c;会出现警告标识&#xff0c;提醒该网站具有高风险&#xff0c;建议关闭浏览。而安全的网址一般是以https开头&#xff0c;且有个带锁的小图标。那么&…

解决 任意浏览器 打开任意 https 网站 都提示:此网站的安全证书有问题

2019独角兽企业重金招聘Python工程师标准>>> 一句话&#xff0c;看看你的系统时间是不是不对&#xff0c;改回来就好了 转载于:https://my.oschina.net/lanybass/blog/94504

新增新闻媒体类网站检出能力|ScanA不良信息监测能力更新第11期

本周ScanA不良信息监测内容安全能力更新精彩推荐AI智能识图优化&#xff5c;ScanA不良信息监测能力更新第10期网页抓取性能再提升&#xff5c;ScanA不良信息监测能力更新第9期新增实时违规告警功能&#xff5c;ScanA 不良信息监测能力更新第8期如有ScanA相关业务需求请扫码获取…