如何使用标准库和Node.js轻松抓取网站以获取信息

news/2024/5/20 22:12:43/文章来源:https://blog.csdn.net/dfsgwe1231/article/details/105997839

网络抓取工具是一种工具,可让我们选择网站的非结构化数据并将其转换为结构化数据库。 那么,网络刮板将在哪里派上用场呢? 我列出了我最喜欢的用例,让您对启动自己的应用感到兴奋!

Quora上的这个问题鼓励我构建网络刮板。
  • 抓取房地产列表-企业正在使用网络抓取来收集已经列出的房地产
  • 刮擦零售商或制造商网站上的产品/产品评论以显示在您的网站中,提供规格/价格比较
  • 抓取新闻网站以应用自定义分析和管理(手动或自动),向受众提供针对性更强的新闻
  • 收集电子邮件地址以产生潜在客户

您可以在此处阅读网络刮板的其他方便使用案例。

现在开始吧! 作为一个简单的示例— 我们将抓取Hacker News的首页以获取链接的标题。

如果您还不熟悉 标准库 ,那您将大饱口福! 标准库 是一个API开发和发布平台,可以帮助您使用浏览器内的API编辑器( 标准库上的 代码)在创纪录的时间内构建和发布 代码。

第一步:登录标准库中的代码

第一步是转到https://code.stdlib.com/并创建一个免费帐户。 Standard Library上的代码是由Standard Library的团队构建的在线API编辑器,这是一个可嵌入式开发环境,用于快速构建API,webhooks和工作流自动化任务。

在左下角单击(登录) 。 如果您具有标准 库帐户,请单击“ 已注册”,然后使用您的标准库凭据登录。 将会弹出一个模式,提示您声明名称空间 (这是您的用户名)。 输入您的电子邮件并选择一个密码。

创建帐户后,将出现另一个模块,其中列出了订阅计划。 免费帐户是您入门所需的全部,但您可以在此处阅读有关标准库定价套件的更多信息 。

单击“ 订阅+赚取积分”后,您应该会看到一条确认消息。

单击继续以返回到登录页面。

第二步:选择Web Scraper源代码

从源代码按钮中选择API 标准库源代码旨在简化不同类型项目的创建。 源代码为样板代码和目录设置等提供了默认值,因此您可以直接开发和实现更复杂的功能。

您应该看到已发布源代码的列表。 向下滚动并选择@ nemo / web -scraper 。 确保输入所需的API名称,然后点击确定 (或按Enter)

然后,您将在以下位置看到端点的代码: functions/__main__.js

在右侧,您会注意到一个参数框。

在URL必需的参数类型中:

https://news.ycombinator.com/

在查询中输入:

[[".storylink", "text"]]

选择绿色的“ 运行 ”按钮。

在几秒钟之内,您应该在Hacker News的首页上的标准库代码的结果部分下获得链接标题列表。 您会注意到一个文档门户—将文档URL复制并粘贴到浏览器中的新选项卡中,以查看标准库中的API信息。

如何运作🤓

Web抓取工具对URL进行简单的GET请求,然后在结果页面上运行一系列查询并将其返回给您。 它使用了强大的cheerio DOM(文档对象模型)处理器,使我们能够使用CSS选择器从页面中获取数据! CSS选择器是用于选择要组织的元素的模式。

如何使用CSS选择器查询

网页以诸如HTML 的 标记语言编写。HTML 元素是HTML文档或网页的一个组成部分。 元素定义信息在浏览器上的显示方式,例如图像,多媒体,文本,样式表,脚本等。

在此示例中,我们使用“ .class”选择器 (class =“ .storylink”)从Hacker News主页的所有元素中获取所有超链接的标题。

如果您想知道如何查找组成网站的元素的名称,请允许我向您展示!

启动Google Chrome浏览器,然后输入我们的Hacker News URL地址https://news.ycombinator.com/ 。 然后,右键单击任何文章的标题,然后选择“ 检查”。 ”这将在Google Chrome上打开Web控制台。 或者,您可以使用命令键⌘)+选项键(⌥)+ J键。

右键单击并选择检查

Web开发人员控制台将在屏幕右侧打开。 请注意,当您选择链接的标题时,控制台上的部分也会突出显示。 高亮显示的元素具有定义为“ storylink”的“类”。 现在,您知道了如何在任何站点上查找元素的名称!

如果要在Hacker News上查询其他元数据,请将光标悬停在它上面。 在下面,您可以看到如何通过将鼠标悬停在Hacker News上的.class选择器=“ sitestr”来查询链接的URL。

就是这样,谢谢!

谢谢阅读! 我希望您在这里发表评论给我发电子邮件给Janeth [at] stdlib [dot] com ,或者在Twitter上关注标准库 @StdLibHQ 。 让我知道您是否建立了希望标准库团队展示或分享的精彩内容-我很乐意提供帮助!

珍妮丝·莱德兹玛(Janetth Ledezma)是标准库和伯克利大学毕业生的开发倡导者! she当她不学习阿拉伯语或锻炼时,您会发现她骑着CBR500R。 with通过Twitter @mss_ledezma的 标准库跟踪她的旅程

From: https://hackernoon.com/scrape-websites-for-information-easily-using-code-xyz-and-node-js-8be3e2f938ab

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_728129.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

测试 node.js网站_在2018年测试Node.js

测试 node.js网站流为300亿以上的最终用户提供数据源。 在所有这些用户都依赖我们的基础架构的情况下,我们非常乐意测试投入生产的所有产品。 我们的主要代码库是用Go编写的,剩下的是Python。 我们最近的展示应用程序Winds 2.0是使用Node.js构建的&…

大型网站技术架构(五)网站高可用架构

2019独角兽企业重金招聘Python工程师标准>>> 网站的可用性(Avaliability)描述网站可有效访问的特性。 1、网站可用性的度量与考核 网站不可用时间(故障时间)故障修复时间点-故障发现(报告)时间点…

跟我一起数据挖掘(20)——网站日志挖掘

收集web日志的目的 Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访…

Shell脚本——批量检测网站是否异常并邮件通知

批量检测网站是否异常脚本 检测网站运行是否正常,如果不能正常访问,发送邮件通知管理员 curl -o /de/dev/null -s -w "%{http_code}" www.baidu.com 结果演示 访问失败,也又可能和网络等等原因有关。 所以我们要进行次数判断&a…

超级好用的解析JSON数据的网站

超级好用的解析JSON数据的网站 网址 http://json.parser.online.fr/beta/ 效果图 测试数据 {"city":{"id":1816670,"name":"Beijing","coord":{"lon":116.397232,"lat":39.907501},"country"…

网站input及textarea提示文字的样式及功能模块总结

coding表单的过程中,经常会遇到input及textarea的部分,而这两种标签几乎都伴随着框内提示文字的情况,如果把每处需要做提示的地方都做一套样式及脚本的话,又不利于网站的代码共用,并且调整起来也十分费力,所…

[置顶]大型网站技术架构(七)网站的可扩展性架构

扩展性是指对现有系统影响最小的情况下,系统功能可持续扩展或提升的能力。 设计网站可扩展架构的核心思想是模块化,并在此基础上,降低模块间的耦合性,提供模块的复用性。模块通过分布式部署,独立的模块部署在独立的服务…

nginx 安装ssl 网站证书的方法

安装ssl网站证书: 现在https越来越主流,如果SSL证书没有配置好,每次访问的时候浏览器就会报错,说你这是一个不安全的网站云云,我也花了很多时间来研究所谓“自颁证书”,很麻烦而且也没法彻底解决&#xff…

react开发h5移动网站_适用于移动应用程序开发人员的5个最佳React本机课程

react开发h5移动网站Ugur Akdemir的 “手持银色iPhone 6的人”在Unsplash上 如果您是一个网络开发人员,希望进入庞大的移动应用程序开发世界,但又不想花时间学习Java或Kotlin进行Android开发,或者不想花Objective C或Swift进行iOS开发&#x…

页面点击体验优化神器Ptengine Heatmap让你拥有完美网站

如果内容是国王,设计就是城堡。好的网页设计不仅仅要让观众对你的产品或服务内容感兴趣而且还要能产生高的转化率。很多设计师认为他们有很聪明的想法来设计ui,但是没有真实的用户体验来告诉你用户需要什么,你怎么能知道你的设计是最好的&…

网站集成QQ登录功能

原文:网站集成QQ登录功能最近在做一个项目时,客户要求网站能够集成QQ登录的功能,以前没做过这方面的开发,于是去QQ的开放平台官网研究了一下相关资料,经过自己的艰苦探索,终于实现了集成QQ登录的功能,现在把…

你好,我们在自己的服务器上做好了一个网站运行很正常,用FTP工具传到万网的云虚拟主机上后台文本里的内容无法添加怎么回事...

你好,我们在自己的服务器上做好了一个网站后台文本类可以添加运行很正常,用FTP工具传到万网的云虚拟主机上后台文本里的内容无法添加怎么回事

大型网站架构之JAVA中间件

中间件就是在大型网站中,帮助各子模块间实现互相访问,消息共享或统一访问等功能的软件产品。常见的有: 远程服务框架中间件:主要解决各子模块之间互相访问的问题。 消息队列中间件:主要解决各子模之间消息共享的问题。…

印度软件开发人员_印度独角兽网站开发人员访谈

印度软件开发人员与印度最大的金融科技公司之一的开发人员进行的信息丰富的问答环节。 最近,我有机会采访了该国最大的初创公司之一的开发人员Abhinav Pandey 。 Abhinav喜欢整天编写Node.js API和数据库争执。 阅读这篇文章,以找到他对那些希望与年轻的…

印度独角兽网站开发人员访谈

与印度最大的金融科技公司之一的开发人员进行的信息丰富的问答环节。 最近,我有机会采访了该国最大的创业公司之一的开发人员Abhinav Pandey 。 Abhinav喜欢整天编写Node.js API并与数据库纠缠。 阅读本文,以找到他对那些希望磨练自己的技能并在大公司工…

编程爱好者网站_6个爱好编程者可以参与以促进放松

编程爱好者网站Pexels.com 编程可能会令人兴奋,也可能会带来压力。 作为程序员,您在计算机前花费了大量时间。 为了减轻压力和放松,您可以参加以下六个爱好,这将有助于您放松。 1.上音乐课 学习演奏乐器既轻松又有益。 这将有助…

在Google Cloud Storage上托管免费的静态网站

本指南将引导您设置免费存储桶,以使用Google Cloud Platform服务通过自定义域名为静态网站提供服务。 登录到Google Cloud Platform,导航到Cloud DNS服务并创建一个新的公共DNS区域: 默认情况下,它将具有一个NS (名称服…

php zblog 侧边栏样式_wordpress网站模板开发中,怎样给侧边栏,添加热门标签?...

使用过wordpress网站的朋友都知道,wordpress的tag标签是非常受欢迎的,尤其受到百度这样的搜索引擎的青睐。我就记得,我第一个wordpress网站,新发表的文章还没有被百度收录,而这篇文章的tag标签却被收录,而且…

深度学习去燥学习编码_5个免费的网站来学习编码

深度学习去燥学习编码最初发布于KnowLab 编码很重要,而且很有趣。 编程是那些追求它的人的礼物。 好吧,编码对于我们的日常生活至关重要。 它提高了解决问题的能力,使您有信心仅用编码语言即可构建所需的任何东西。 这是一份不断奉献的礼物&a…