RuiJi.Scraper 3.0 新增爬取链 - 深度爬取网站

news/2024/5/10 0:49:21/文章来源:https://blog.csdn.net/weixin_42581666/article/details/108284475

RuiJi.Scraper是一款Chrome浏览器插件,可以可视化的对网页进行抽取,并导出抽取结果

本次更新添加爬取链功能,可以从指定页面按照规则设置对网站进行深度爬取

新功能位于新选项卡 - 爬取链 如图所示

我们以CSND搜索为例 创建爬取链 (您首先需要建立相关规则,搜索hub页规则及正文提取规则

爬取链使用流程图的方式对爬取进行设置,首先设置爬取起始页面,这里起始页面的地址为

https://so.csdn.net/so/search/s.do?q=%E7%89%A9%E8%81%94%E7%BD%91&t=all&platform=pc&p=1&pageSize=30

点击规则匹配按钮,会自动匹配已创建好的规则 csdn搜索

抓取间隔设置10秒,此处的间隔为不同规矩及跨深度间隔,

点击csdn搜索节点,进行规则设置如下,目标地址填写一个内容页面 例如

https://blog.csdn.net/weixin_43846020/article/details/107300971?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159799375719724845009539%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=159799375719724845009539&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-8-107300971.first_rank_ecpm_v3_pc_rank_v4&utm_term=%E7%89%A9%E8%81%94%E7%BD%91&spm=1018.2118.3001.4187

填写完毕,按匹配规则按钮,将会出现csdn文章正文节点

继续对节点进行设置,点击 csdn文章正文,设置如下

设置完毕后就可以测试了,测试按钮位于保存按钮的左面,如下所示

 

以下为自动爬取页面

爬取的部分结果,分为两部分 一部分为列表页结果,另一部分为文章正文结果

项目地址

https://github.com/zhupingqi/RuiJi.Scrapy

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_843196.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

另类网站版式设计欣赏

另类网站版式设计欣赏 当你在创建一个新网站的时候,希望这些网站富有个性的版式设计能给你带来灵感。 Popmatik 这是Rob Leach设计制作的一个个人网站,这个网站用了一个瓶子的底图,网站的内容都在瓶子的这个包装纸上。 Digitalmash.com Digi…

使用Java获取一个动漫网站所有的动漫名

首先创建一个类,用来获取当前页面的链接: public class Link {private String frontStr;private String behindStr;public String linkStr;public Link(){frontStr "http://www.imomoe.ai/so.asp?page";behindStr "&dq%C8%D5%B1%…

Vue 项目(网站应用)接入QQ互联qq登录接口 汇总

还是按照顺序从头到尾介绍一下(前面都知道的,可以直接看后面的VUE部分),如果有不对的地方,也欢迎大神指导 1、申请appid和appkey(这指定是必须的了) 申请地址 申请地址地址 1.1、注册开发者 1.1…

asp.net 网站源码,还原

asp.net 网站源码,还原1. 环境与系统2. IIS安装与配置3. 网站还原过程4. 遇到的bug备份服务器(Windows Server 2008 R2)的asp.net网站源码,现需仿真还原网站。 1. 环境与系统 台式计算机    Windows 7 旗舰版 2. IIS安装与配置 详见。 3. 网站还原…

奇奇seo优化软件_seo搜索优化软件产品

产品seope4c65搜索优化软件,5g时代的到来,使得很多企业对移动互联网的推广预算再次增加。究其原因,是移动互联网用户数量的增加,使得行业竞争对手增多,网络推广成本提高。如果预算不增加,企业网站的排名总是…

wordpress如何让百度快速收录_如何优化网站让百度收录我的网站?

之前有小伙伴问小编如何让自己的网站快速更好的被百度收录?今天黄小编就为大家讲解一下百度收录的相关知识。第一当我们做一个网站的时候,要检查代码里面是不是有很多出错误代码,或者是百度蜘蛛很不喜欢的东西。还有百度蜘蛛最不喜欢的就是网…

网站分析十必问(上)

近半年没有更新博客了,一是因为忙,二是因为懒。我觉得在工作之余能有一些自己的事情,并且还能把它坚持下来是一件很幸福的事情。2012年我将继 续更新我的博客。坚持写博客对我有两个好处:1帮助我进行思考。每一次写作的过程也是一…

企业网站服务器充值算什么费用,云服务器费应该计入什么科目

云服务器费应该计入什么科目 内容精选换一换云耀云服务器创建成功后,如果发现磁盘不够用或当前磁盘不满足要求,可以将已有云硬盘挂载给云耀云服务器,或在“存储 > 云硬盘”页面购买新的磁盘,然后再挂载至云耀云服务器。已创建可…

【码农福音】说自己英文不好而不去看英文网站的同学看过来!

作为开发者,都知道英文文档更全更好,可是对于英文不好的人来说,看到那密密麻麻的英文单词真头疼。 其实我们可以通过【有道网页翻译】来帮我们解决这个问题!~操作非常简单!一劳永逸!~ 首先看到这是Androi…

其它网站都能正常上,就一个网站不能上的解决办法

前段时间我的电脑csdn一直都打不开,而同一个公司的同事却可以打开。同事还说人品问题吧!在网上搜了解决办法都是什么奥运会期间的事,让我郁闷至极! 最后终于找到问题的原因了,就是把浏览器的缓存清理一下! …

程序员非常实用的十个工具网站,值得收藏

原文链接: 程序员非常实用的十个工具网站,值得收藏 一、regex101 网站地址: https://regex101.com/ 强大的正则表达式工具,你可以实时查看匹配信息,并且会用不同的颜色将 Group 标记出来。而且有 Quick Reference 来…

php中文网的网站怎样安装,服务器如何安装phpmyadmin

使用php和mysql开发网站的话,phpmyadmin是一个非常友好的mysql管理工具,并且免费开源,国内很多虚拟主机都自带这样的管理工具,配置很简单,接下来在linux服务器上配置phpmyadmin来管理MySQL数据库。首先访问phpmyadmin官…

网站解析到服务器地址,网站怎么解析到自己的云服务器地址

网站怎么解析到自己的云服务器地址 内容精选换一换本文介绍通过华为云市场镜像“Drupal内容管理系统(LAMP)”搭建Drupal网站的方法。Drupal是使用PHP语言编写的开源内容管理框架(CMF),它由内容管理系统(CMS)和PHP开发框架(Framework)共同构成。Drupal用于构造提供多…

通过五个视频网站数据,分析统计节目受欢迎度

一、需求 自定义输入格式 完成统计任务 输出多个文件 输入数据:5个网站的 每天电视剧的 播放量 收藏数 评论数 踩数 赞数 输出数据:按网站类别 统计每个电视剧的每个指标的总量 任务目标:自定义输入格式 完成统计任务 输出多个文件 二、…

漂亮的网站底部代码_WP主题开发12:wordpress主题trans主题底部代码的修改

在前面的章节中,我们完成了wordpress主题trans首页动态模板的头部、左侧边栏和右侧边栏的动态数据的调用,现在就剩下trans模板底部没有修改了。今天,我们就要对trans模板的底部的代码进行修改。我们看一下trans主题的静态模板(如下图)&#x…

网站运维工具使用iis日志分析工具分析iis日志(iis日志的配置) 我们只能通过各种系统日志来分析网站的运行状况,对于部署在IIS上的网站来说,IIS日志提供了最有价值的信息,我们可以通过它来分析

网站运维工具使用iis日志分析工具分析iis日志(iis日志的配置)我们只能通过各种系统日志来分析网站的运行状况,对于部署在IIS上的网站来说,IIS日志提供了最有价值的信息,我们可以通过它来分析网站的响应情况,来判断网站是否有性能问…

python爬取百度学术文献搜索引擎_通用爬虫探索(一):适用一般网站的爬虫

这是笔者参加今年的泰迪杯C题的论文简化版。虽然最后只评上了一个安慰奖,但个人感觉里边有些思路对爬虫工作还是有些参加价值的。所以还是放出来供大家参考一下。简介#一个爬虫可以分为两个步骤:1.把网页下载下来;2.从网页中把所需要的信息抽…

解决Community Server中网站域名被去掉了www的问题

这几天把Community Server发布到网站上,但是奇怪的是每次一访问,网站地址就从输入www.mySite.com/cs变成了mySite.com/cs,导致访问不能访问。经过了3天屡战屡败、屡败屡战之后,终于从国外的一个论坛上找到了答案。 原来是需要配置…

市场调研琐事一堆?这几个好用设计网站快收藏起来用

市场营销工作的内容主要是通过对市场调研,分析消费者需求,根据需求来制定市场运营的策略,以及抓好各项策略的落实,进而实现对市场进行全周期的。在各项具体琐碎工作中,学会运用以下4个神仙网站,能够让工作效…

推荐学习产品经理入门知识的5个网站

在万众创业的时代,有很多公司在创建从0到1的产品,对产品经理的需求日益增加,对于想要转型做产品经理的人来说,在学习入门知识的同时,也要去了解产品经理工作常用工具,这里推荐5个常用网站。 亿图图示&…