前嗅ForeSpider教程:同一个网站中从另一页面采集数据

news/2024/5/11 22:06:27/文章来源:https://blog.csdn.net/weixin_34194551/article/details/92448719

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

以图中网站的企业动态部分为入口地址,来展示如何在同一个网站从另一页面采集相关数据。

第一步:新建任务

①点击左上角“加号”新建任务,如图1:

【图1】

②在弹窗里填写采集地址,任务名称,如图2:

【图2】

③点击下一步,选择进行数据抽取还是链接抽取,本次采集企业最新动态链接列表,所以点击抽取链接,选择链接列表,如图3:

【图3】

④完成之后,在模板抽取配置下生成两个模板,默认模板:01和链接列表:02。模板1中的“链接列表”链接抽取已与模板2关联,如图4。如果配置的时候发现关联有问题,可以自己进行更改。

【图4】

第二步:使用定位过滤,得到列表链接

①按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。

②点击确认选区,如图5:

【图5】

③点击采集预览,确认链接抽取是否正确,如图6:

【图6】

第三步:在模板2添加示例地址,并添加链接抽取

①将模板1过滤得到的任意一条链接,作为模板2的示例地址,如图7:

【图7】

②新建链接抽取。直接点击模板2,点击上面“新建链接抽取”按钮,得到链接抽取,如图8。

【图8】

③关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。

根据网页跳转规律,模板1中的“链接列表”链接抽取已与模板2关联。如果配置的时候发现关联有问题,可以自己进行更改。

第四步:使用定位过滤,得到列表链接

①按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。

②点击确认选区,如图9:

【图9】

③右击模板预览,查看链接抽取结果,如图10所示:

【图10】

④确认链接抽取是否正确,如图11:

【图11】

第五步:新建模板3添加示例地址,并添加链接抽取

①新建模板3,将模板2过滤得到的链接,作为模板3的示例地址,如图12:

【图12】

②新建链接抽取。直接点击模板3,点击上面“新建链接抽取”按钮,得到链接抽取,如图13。

【图13】

③关联链接列表的“新建链接抽取”。

根据网页跳转规律,将模板2链接列表的“新建链接抽取”关联模板3。如果配置的时候发现关联有问题,可以自己进行更改,如图14:

【图14】

第六步:使用定位过滤,得到导航列表的链接

①按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。

②点击确认选区,如图15:

【图15】

③右击模板预览,查看链接抽取结果,如图16所示:

【图16】

④确认链接抽取是否正确,如图17:

【图17】

⑤使用标题过滤,得到“联系我们”的链接,如图18所示:

【图18】

第七步:新建模板4添加示例地址,并添加链接抽取

①新建模板4,将模板3过滤得到的“联系我们”链接,作为模板4的示例地址。如图19:

【图19】

②新建数据抽取。直接点击模板3,点击上面“新建数据抽取”按钮,得到数据抽取,如图20。

【图20】

③关联模板3的“新建链接抽取”。

根据网页跳转规律,将模板3的“新建链接抽取”关联模板4。如果配置的时候发现关联有问题,可以自己进行更改,如图21:

【图21】

第八步:创建/选择表单

在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的是方法三。

方法一:通过下拉菜单或表单ID选择已有表单

方法二:点击创建表单进入快速建表页面,新建表单,如图22所示。

【图22】

方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的添加按钮,如图23:

【图23】

第九步:配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、联系人、电话、地址以及公司介绍五个字段。其中,公司介绍字段intro_text的取值在同一网站的不同页面,需要用到脚本取值,配置类型时需要选择高级取值>模板取值,表单如图24:

【图24】

第十步:字段取值

①关联表单,如图25所示:

【图25】

②取值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。

person、tel、addr字段,如图26:

【图26】

③intro_text字段需要进行模板取值。

第十一步:创建新的模板,添加示例地址

①表单intro_text字段来自公司介绍,如图27所示。

【图27】

图中红框部分为取值内容,如图28所示:

【图28】

②新建模板,添加“公司介绍”链接为示例地址,(模板3右击模板预览,选择全部链接),如图29所示:

【图29】

③直接点击模板5,点击上面“新建数据抽取”按钮,得到数据抽取,如图30:

【图30】

第十二步:创建/选择表单

点击“采集配置”-“数据建表”,点击采“采集表单”后面的添加按钮,如图31:

【图31】

第十三步:配置表单

根据所需内容,配置表单字段(即表头),此处配置了“公司介绍”字段intro_text表单如图32:

【图32】

第十四步:关联表单,完成“公司介绍”字段抽取

①点击模板5,关联表单,如图33所示:

【图33】

②使用字段定位取值方法。

按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域,确认选区,如图34所示。

【图34】

③右击模板预览,如图35所示:

【图35】

④模板预览结果,如图36所示:

【图36】

第十五步:模板取值关联

①点击模板4,点击intro_text字段,在红框中填入“href=[5]”,并按住Ctrl+鼠标左键,进行区域选择,如图37所示。 “[ ]”中填写模板ID。

【图37】

②点击模板4,右击模板预览,如图38所示:

【图38】

③预览结果如图39所示:

【图39】

第十六步:采集预览

①点击右上角采集预览,如图40:

【图40】

②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图41、42、43所示。

【图41】

【图42】

【图43】

转载于:https://my.oschina.net/forespider/blog/3001870

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_717475.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

web服务之Nginx网站服务

目录一、关于Nginx二、编译安装Nginx服务1、关闭防火墙2、安装依赖包3、创建运行用户、组4、编译安装Nginx5、检查、启动、重启、停止 nginx服务三、认识Nginx服务的主配置文件 nginx.conf1、编辑主配置文件2、全局配置3、HTTP 配置一、关于Nginx 一款高性能、轻量级Web服务软…

一个使用Ruby on Rails开发LBS网站的简单实例

一个使用Ruby on Rails开发LBS网站的简单实例 cheungmine 2011-7 这几天一直在学习使用Ruby on Rails(RoR),想建立一个功能全面一点的LBS(Location Based Service)网站。但是对于我这个RoR的初学者(仅有几天时间)来说,毕竟太复…

大型网站技术架构(七)网站的可扩展性架构

2019独角兽企业重金招聘Python工程师标准>>> 扩展性是指对现有系统影响最小的情况下,系统功能可持续扩展或提升的能力。 设计网站可扩展架构的核心思想是模块化,并在此基础上,降低模块间的耦合性,提供模块的复用性。模…

大型网站技术架构(四)网站的高性能架构

2019独角兽企业重金招聘Python工程师标准>>> 网站性能是客观的指标,可以具体体现到响应时间、吞吐量、并发数、性能计数器等技术指标。 1、性能测试指标 1.1 响应时间 指应用执行一个操作需要的时间,指从发出请求到最后收到响应数据所需要的时…

eclipse jsp没有提示_JSP+Spring+SpringMVC+Hibernate+Mysql实现的校园失物招领网站

项目简介项目来源于:https://github.com/wenlongup/LostAndFound因源github仓库无数据库文件,经过本人修改,现将该仓库重新上传至个人gitee仓库。张有路/LostAndFound​gitee.com本系统基于JSPSpringSpringMVCHibernateMysql的校园失物招领网…

asp网站短信api服务器,asp程序调用短信接口源码

asp程序调用短信接口源码更多作者:捷信通来源:www.jiexintong.cn日期:2014-07-31 17:59:31现在很多启用还在使用asp程序,我们技术总结出了asp程序调用短信接口源码例子,请参考,如果有疑问,欢迎各位客户联系我们:企业QQ…

域名+解析+GitHub来搭建自己的个人网站

域名解析GitHub来搭建自己的个人网站 标签: GitHub使用技巧 网站搭建 版权声明:本文为 icurious 的原创文章,可以转载,但请务必注明作者和出处!!! 原文链接:www.blankspace.cn 摘…

coursera网站课程视频无法播放?

本人为win10系统,在coursera网站修了几门课程,发现无法查看课程视频。 尝试解决一下: 1. 以管理员身份打开记事本 2. 在记事本中打开系统hosts文件 TIP:一般在C:\Windows\System32\drivers\etc 路径下 3. hosts文件中最后一…

屏蔽网站广告的Chrome谷歌浏览器插件推荐和下载地址

推荐插件: AdGuard AdBlockerAdvertising TerminatorAdBlockAdblock Plus 下载地址: Chrome插件下载官方下载

解决 python 向网站请求数据出现 check_hostname requires server_hostname 错误

问题背景 更新了python的一些库后,发现原来能用的爬虫现在不能用了,尴尬。然后网上找了一下,发现是更新库造成的,check_hostname requires server_hostname 错误 是由于新版本的 urllib3 而出现的,一个简单的解决办法是…

给网站添加建站时长的js代码

背景 老板让我给他写个人主页&#xff0c;然后用到了这个东西&#xff0c;记录下 代码 <!--这是html代码&#xff0c;放在你想显示建站时间的地方&#xff0c;样式啥的自己改就行--> <span id"sitetime" style"color: rgb(248, 247, 247);">…

给网站添加访问地图3d版,平面版

背景 给老板写个人主页的时候用到的&#xff0c;记录下 效果展示 3D版 平面版 实现 打开 https://clustrmaps.com/site/1bf58&#xff0c;创建一个小部件 输入你要统计的网站地址 选择你要那个版本的 3D版&#xff0c;右边那个 点进去有相应的js代码&#xff0c;复制就行…

利用不蒜子统计网站的访问量

背景 给老板写个人主页&#xff0c;用到了记录下 代码 <head><script type"text/javascript" src"https://busuanzi.ibruce.info/busuanzi/2.3/busuanzi.pure.mini.js"></script> </head><body><div style"color:…

php制作小米网页版,基于LNMP的小米电商网站搭建——运维实战手记第一篇

分享一篇文章&#xff0c;来自马哥教育学员阿龙。总项目流程图&#xff0c;详见Linux运维企业架构实战系列 - 阿龙along - 博客园实战一&#xff1a;搭建lnmp及类小米等商业网站的实现环境&#xff1a;关闭防火墙&#xff0c;selinux1、安装包&#xff0c;开启服务yum -y insta…

h5实现网页内容跟随窗口大小移动_H5网站建设设计有哪些优势?

近些年随着h5网站建设的普及&#xff0c;越来越多的网站采用这一建站方案。h5网站建设有什么优势呢&#xff1f;今天小编和各位来聊聊h5网站建设的优势。随着Flash的终结&#xff0c;h5技术取代了Flash在移动设备中的地位&#xff0c;成为移动平台的唯一标准。在HTML5的应用场景…

vba获取正在运行网站的源码_早日学习VBA,早日上手VBA,早日受益VBA

在平台上&#xff0c;我讲解VBA已经有一年多了,有些朋友能理解VBA的可用之处&#xff0c;但仍有人不断在问:VBA可以做什么呢?应用VBA有什么好处呢&#xff1f;确实&#xff0c;很多的朋友在职场中久了&#xff0c;延续着前人的习惯&#xff0c;有些时候应该改一下了&#xff0…

电子商务网站建设策划书服装_分享:服装设计/服饰公司企业网站(官网)建设制作策划方案...

分享&#xff1a;服装设计/服饰公司企业网站(官网)建设制作策划方案&#xff01;随着市场经济的发展&#xff0c;我国的服装企业开始由卖方市场转为买方市场&#xff0c;各个品牌为了生存开始在这个市场中厮杀&#xff0c;较以往相比&#xff0c;现在企业的利润率逐渐下降&…

winscp远程访问服务器运行代码没有图片_软卓学堂 | 从购买服务器和域名到搭建网站...

◆ ◆ ◆ ◆从购买服务器和域名到搭建网站◆ ◆ ◆ ◆使用工具&#xff1a;Xshell终端模拟器&#xff1a;Xshell是一个终端模拟软件&#xff0c;而且是远程近程都可以。就是模拟服务器所在的linux&#xff0c;在xshell中可以输入命令&#xff0c;就像在服务器的linux中输入命令…

php模板页文件什么名称,wordpress建站程序都有哪些模板文件?模板文件名称叫什么?...

wordpress建站程序是一款基于PHP语言所开发出来的开源网站程序&#xff0c;同时它也是当前使用最多的开源建站程序。通过wordpress建站程序你可以搭建企业网站、个人网站、门户网站、新闻资讯站、商城网站、bbs论坛网站等等。而决定网站前端风格类型的主要因素就是我们今天所要…

搭建asp.net网站

ASP.NET开发学习视频教程大全&#xff08;共800集&#xff09; http://blog.chinaunix.net/uid-25454054-id-3450228.html由于扩展配置问题而无法提供您请求的页面。如果该页面是脚本,请添加处理程序。错误&#xff1a;HTTP 错误 404.3 - Not Found由于扩展配置问题而无法提供您…