nodejs爬取网站图片.....

news/2024/4/28 11:42:11/文章来源:https://blog.csdn.net/weixin_34107739/article/details/88923340

nodejs来实现一个爬虫功能 ,爬取豆瓣图片

原理:
爬虫是最明显的IO密集型应用场景,显然用node,使得I/O等待开销小数据挖掘比较方便

借助express模块来搭建node服务

并使用request模块获取目标页面的html代码

下载cheerio模块对html代码做处理(cheerio类似jQuery的语法,所以好用又方便)

环境配置:

npm install express request cheerio --save

(1)引入各个模块

var http = require('http');
var request = require('request);
var cheerio = require('cheerio');var fs = require('fs'); //用来操作文件var url = 'https://movie.douban.com/cinema/nowplaying/beijing/' //定义要爬的页面

(2)发送请求

http.get(function(res){var html = '';var titles = [];res.setEncoding('utf-8') //防止中文乱码res.on('data',function(chunk){html += chrunk;       //监听data事件 每次取一块数据})res.on('end',function(){var $ = cheerio.load(html);   //获取数据完成后,解析html//将获取的图片存到images文件夹中$('.mod-bd img').each(function(index, item){//获取图片属性var imgName = $(this).parent().next().text().trimg()var imgfile = imgName + '.jpeg';var imgSrc = $(this).attr('src')//采用request模块,向服务器发起请求 获取图片资源request.head(imgSrc, function(error, res,body){if(error){console.log('失败了')}});//通过管道的方式用fs模块将图片写到本地的images文件下request(imgSrc).pipe.(fs.createWriteStream('./images/' + imgfile));})})
})

每天进步一点点......

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_728082.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大型网站技术架构:摘要与读书笔记

花了几个晚上看完了《大型网站技术架构》这本书,个人感觉这本书的广度还行,深度还有些欠缺(毕竟只有200页左右)。但是作为一个缺乏大型网站技术的IT民工,看完一遍还是很有收获的,至少对一个网站的技术演进、…

linux系统css样式加载不出,Linux系统虚拟主机网站访问页面css样式文件加载失败或图片无法显示的分析解决...

问题场景:客户使用Linux系统虚拟主机,网站程序上传之后访问发现页面排版有问题,css样式文件加载失败,部分图片显示不出来,以织梦CMS程序为例,如下图所所示:问题原因:1、Linux系统虚拟…

div中内容靠右_在python3中爬取网站数据并存入excel表格

代码如下:import requestsfrom bs4 import BeautifulSoupimport pandas as pd #导入pandas模块,并设置为pdrrequests.get("http://www.runoob.com/html/html-intro.html")htmlr.text.encode(r.encoding).decode() #对r的内容进行中文解码并赋值…

网站如何经过身份验证_如何在微服务架构中实现安全性?

首先为自己打个广告,我目前在某互联网公司做架构师,已经有5年经验,每天都会写架构师系列的文章,感兴趣的朋友可以关注我和我一起探讨,同时需要架构师资料的可以私信我免费送。另外,文章较长,建议…

oracle support网站,Oracle Support 站点弃Flash转HTML重建

Oracle Support 站点弃Flash转HTML重建尊敬的 My Oracle Support 用户,2012年1月,我们推出了一个新的基于HTML的My Oracle Support用户界面。新的用户界面使 用Oracle应用开发框架,是我们对客户和合作伙伴提供一个单一的在线支持门户的第一步&#xff0c…

黄聪:windows下使用xampp3.2.2配置多个监听端口和不同的网站目录

windows下使用xampp3.2.2配置多个监听端口和不同的网站目录 一:配置Apache文件httpd.conf 打开Apache的配置文件httpd.conf,可以通过点击xampp的Apache的config下的Apache(httpd.conf)打开。 首先在Listen 80 下面添加监听端口如 Listen 8001 Listen 800…

nuxt.js 全局 js_Nuxt.js网站样板

nuxt.js 全局 js查看此基于Nuxt.js和Cosmic JS构建的网站样板 。 它满足一些常见的网站要求,包括动态页面,博客文章,作者管理,SEO能力,联系表和网站搜索。 TL; DR 下载GitHub仓库 查看演示。 特征 对带有Bootstra…

Nuxt.js网站样板

查看此基于Nuxt.js和Cosmic JS构建的网站样板 。 它满足一些常见的网站要求,包括动态页面,博客文章,作者管理,SEO能力,联系表和网站搜索。 TL; DR 下载GitHub存储库 查看演示。 特征 对带有Bootstrap前端的移动设备完…

分享一个WebGL开发的网站-用JavaScript + WebGL开发3D模型

这张图每位程序员应该都深有感触。 人民心目中的程序员是这样的:坐在电脑面前噼里啪啦敲着键盘,运键如飞。 现实中程序员是这样的:编码5分钟,调试两小时。 今天我要给大家分享一个用WebGL开发的网站,感兴趣的朋友可以在…

微软正式发布Azure Storage上的静态网站

微软正式宣布了Azure Storage上的静态网站,提供了从托管在Azure Storage上的HTML、CSS和JavaScript文件提供内容的能力。静态网站包含内容固定的Web页面,同时仍然允许利用JavaScript等客户端代码来创建丰富的用户体验。 有了这个新功能,继用于…

技能学习:学习使用golang(gin框架) + vue.js,开发前端全栈网站-6.GO语言做通用CRUD接口-1

技能学习:学习使用golang(gin框架) vue.js,开发前端全栈网站-6.GO语言做通用CRUD接口-1 相关文章: 技能学习:学习使用golang(gin框架) vue.js,开发前端全栈网站-1.工具…

【开发工具集】注册表相关说明及查询网站推荐——注册表字段说明网站

注册表相关项和字段的说明 Windows Resource Kit: Technical Reference to the Registry 以HKEY_LOCAL_MACHINE,点击就能看到关于HKLM的相关描述。 注册表根目录描述整理 注册表几个根目录的描述: 1. HKEY_CURRENT_CONFIG: 存储当前硬件配置文件的配置数据。 不…

wcag 2.0_如何使您的网站可访问:WCAG 2.1 W3C建议

wcag 2.0Web可访问性是开发网站或Web应用程序时要考虑的极其重要的方面,但是许多公司要么忽略了可访问性准则,要么不了解如何正确实施它们。 有人认为使网站可访问性是道德义务。 所有人,无论有能力还是有残疾,都应该能够使用互联…

如何使您的网站可访问:WCAG 2.1 W3C建议

Web可访问性是开发网站或Web应用程序时要考虑的极其重要的方面,但是许多公司要么忽略了可访问性准则,要么不了解如何正确实施它们。 有人认为使网站可访问性是道德义务。 所有人,无论有能力还是有残疾,都应该能够使用互联网并获得…

nuxt1迁移奥nuxt2_如何使用Nuxt和Cosmic JS建立电子商务网站

nuxt1迁移奥nuxt2我们将要建立的。 对于简单的购物网站,使用诸如Shopify或Woocommerce之类的功能强大的解决方案可能完全是徒劳的。 在本教程中,我们将使用Nuxt和Cosmic JS构建一个电子商务网站。 我们还将使用Buefy ,这是Vue JS的UI组件库&…

如何使用Nuxt和Cosmic JS建立电子商务网站

我们将要建立的。 对于简单的购物网站,使用诸如Shopify或Woocommerce之类的功能强大的解决方案可能完全是徒劳的。 在本教程中,我们将使用Nuxt和Cosmic JS构建一个电子商务网站。 我们还将使用Buefy ,这是基于广受欢迎的Bulma的 Vue JS的UI组…

react 组件开发_使用React和Cosmic JS CMS进行基于组件的网站开发

react 组件开发网站开发的一种常见方法是构建可在不同网页上重复使用的组件。 这种方法的好处是,通过管理组件而不是管理不同页面上的重复内容,您最终减少了重复工作。 流行JavaScript框架(例如React,Vue和Angular)在应…

使用React和Cosmic JS CMS进行基于组件的网站开发

网站开发的一种常见方法是构建可在不同网页上重复使用的组件。 这种方法的好处是,通过管理组件而不是管理不同页面上的重复内容,您最终减少了重复工作。 流行的JavaScript框架(例如React,Vue和Angular)在应用程序代码级…

程序员常用网站汇总(转载)

2019独角兽企业重金招聘Python工程师标准>>> 1. 社区 githubstackoverflowapacheinfoQ知乎相关专栏 知乎专栏推荐youtube相关频道利用以上网站的站内搜索,也许会获取更加满意的结果。 2. 各大IT公司技术博客 2.1 后端 阿里中间件团队博客美团技术团队博客…

大型网站技术架构(八)网站的安全架构

2019独角兽企业重金招聘Python工程师标准>>> 从互联网诞生起,安全威胁就一直伴随着网站的发展,各种Web攻击和信息泄露也从未停止。常见的攻击手段有XSS攻击、SQL注入、CSRF、Session劫持等。 1、XSS攻击 XSS攻击即跨站点脚本攻击(…