java 爬虫 图片_我用java爬虫爬了一个图片网站

news/2024/5/10 3:46:37/文章来源:https://blog.csdn.net/weixin_30480281/article/details/114227936

我用java爬虫爬了一个图片网站

最近想建立个网站,不想搞技术博客之类的网站了,因为像博客园还有CSDN这种足够了。平时的问题也都是这些记录一下就够了。那搞个什么网站好玩呢?

看到一个图片网站还不错,里面好多图片(当然有xxx图片了....)哈哈,其实就是闲的,同时也介绍一下java爬虫的相关用法把。

1、首先呢,爬虫应该就是两种了,一种是动态的接口请求返回的数据,这种json解析或者其他解析一下获取自己需要的数据就可以了。

2、还有就是静态html的网页之类的。这种就需要解析html dom节点的数据。其实通俗点就是类似于 jquery 选择器,html数据解析成dom节点的数据,java里面有现成的类库

看下我根据爬取的图片生成的网站效果把(代码近期准备开源,随便搞搞)

393d8cf61966f47d9807b98d778350fe.png

需要的maven依赖,版本号自己去maven搜把

org.apache.httpcomponents

httpclient

org.jsoup

jsoup

接着介绍一下用法,

① 比如:爬取一个图片静态页面: https://www.yeitu.com/meinv/xinggan/20180919_14722.html

我们正常用jquery获取这个静态页面的标题(需要自己看dom节点的结构,用选择器获取)

abcadcb00883025829febd718c38b2fc.png

② 接着,我们怎么用代码爬取这个呢?

用httpclient工具类,写一个get请求方法,最终返回一个string的html网页内容

String url="https://www.yeitu.com/meinv/xinggan/20180919_14722.html";

HttpGet get = newHttpGet(url);//设置参数

Builder customReqConf =RequestConfig.custom();

customReqConf.setConnectTimeout(connTimeout);

customReqConf.setSocketTimeout(socketTimeout);

customReqConf.setConnectionRequestTimeout(requestTimeout);

get.setConfig(customReqConf.build());

get.addHeader("Connection", "Close");

HttpResponse res;//执行 Http 请求.

if (url.startsWith("https")) {//执行 Https 请求.

client =createSSLInsecureClient();

res=client.execute(get);

}else{//执行 Http 请求.

client =HttpClientUtil.client;

res=client.execute(get);

}return EntityUtils.toString(res.getEntity(), charset);

③、接着把 html内容转换一下

Document documentInner =Jsoup.parse(htmlInner);

//这个就是图片中的jquery的选择器//$(".img_box").children("a").children("img").attr("alt");

//下面就是对应jsoup框架写法

String firstAlt = documentInner.select(".img_box").select("a").select("img").attr("alt");

总结一下,就是把jquery对应选择器的写法,写成jsoup框架的写法转换一下下。其实也没转换什么东西,自己操作一下就比较清晰了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_788217.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iis怎么切换网站php版本,windows服务器iis7.5安装多个php版本切换设置

因为某个网站程序的配置是在php5.3上面运行的,不兼容我现在的php5.5.所以就只能再安装个5.3的了。在安装过程中,忘记截图了。。。就直接写吧。准备工作:1:php版本,这个根据自己需要的,自己去下载吧&#xf…

java短信验证码功能发送的验证码如何校验_如何在网站中添加手机短信验证码注册功能?...

这个功能大家都非常熟悉了,就不废话了,直接入正题!下面以使用榛子云短信为例:1. 首先注册一个榛子云账号,注册地址: http://sms_developer.zhenzikj.com/zhenzisms_user/register.html2. 注册完毕后从个人登录入口进入,地址:http:…

做网站用java 还是php_做网站用java还是php

做网站用java还是php?做网站用PHP会更合适, 因为php主要就是用于web网站开发方面,开发比较快速。1,PHP适合于快速开发,中小型应用系统,开发成本低,能够对变动的需求作出快速的反应。而Java适合于…

php网站转为app的工具,网站打包成APP,可以直接将一个网站转成安卓App的Hbuilder工具...

我们有时候会想把自己的网站做成一个app,但是原生的自己没有基础又不会,网上找到的云打包之类的倒是可以直接把网站打包成app,但是免费版的避免不了会有广告或者体验时间限制,收费的又不想花钱,很愁人,今天…

h5网页网站制作代码_h5网页制作和普通网页有什么区别?

h5网页制作和普通网页有什么区别?通常企业在咨询网站建设时,网站建设公司的商务都会把网站流程和前期需要准备的资料,更会详细的介绍一下H5网页制作的一些优势和趋势。其实H5是指第5代HTML网页技术,HTML5是目前互联网前端开发的主流语言&…

pil获得图片_「实践」如何优雅地给网站图片加水印

很多论坛、博客在进行图片上传之后,都会给自己的图像加上水印,这样可以证明这张图片「属于我」或者是「来自我的博客/网站」。那么使用 Serverless 技术来加水印的方法比传统方法好在哪儿呢,本文将对此进行一个简单的分享。传统的加水印的方法…

某高校校园卡网站模拟登陆(php)

让我们先来看登陆界面,这里可以使用卡号或学号,这里我们使用卡号,其实是一样的输入卡号后,点击密码输入框,弹出一个密码键盘输入密码以后,点击验证码框出现验证码输入验证码以后正常登陆下面来看看这个登陆…

关于动态网站的简单爬虫实现

1.XPath的使用 用来解析XML, 也可以用来解析HTML。同Beautiful Soup一样,在XPath中提供了非常简洁的节点选择的方法,Beautiful Soup主要是通过.的方式来进行子节点或者子孙节点的选择,而在XPath中则主要通过/的方式来选择节点。 …

jsp oracle 网站建设_网站建设5大基础知识,你知道吗?

原标题:网站建设5大基础知识,你知道吗?现在网站建设普及度越来越广,做网站建设的企业也越来越多,引起不少对网站建设知识学习的追求者,一时间各种建站系统遍布互联网。在做网站优化中,也许对网站…

多布局怎么搭建_怎么建设文创饰品网站?需要多少钱?

近几年文创周边产品很受欢迎,因此也诞生了不少文化艺术、文创饰品类企业。文创产品要想顺利销售出去,就需要广拓渠道,尤其要注重互联网窗口的建设,因此建设一个自己的官方网站自然是少不了的。「上线了」建站案例文创饰品公司要建…

python3网站攻击_Python实现DDos攻击实例详解

SYN 泛洪攻击 SYN泛洪攻击是一种比较常用的Dos方式之一。通过发送大量伪造的 TCP 连接请求,使被攻击主机资源耗尽(通常是 CPU 满负荷或内存不足)的攻击方式 我们都知道建立 TCP 连接需要三次握手。正常情况下客户端首先向服务器端发送SYN报文…

node获取图片路径_在Node.js上接入Paddle Lite,让你的网站具备AI推理能力

【飞桨开发者说】李睿,北京邮电大学学生,人工智能和移动开发爱好者。随着桌面端Electron技术逐步崛起,基于Electron开发的代码编辑器、聊天软件、游戏等层出不穷。对于习惯使用Node.js进行后端开发的朋友来说,开发一套漂亮的桌面U…

bootstrap获取下拉框数据_网站SEO优化推广关键词可以通过哪些途径获取,分析百度搜索原理...

一、百度下拉框,从百度下拉框里可以获取用户在搜索引擎搜索过的关键词,这类词符合用户的搜索习惯。二、百度相关搜索,在搜索引擎页面底部,有个百度相关搜索,这些词也可以选择,这是百度算法根据用户浏览过的…

静态网站生成器

静态网站生成器 静态网站相比动态网站具备无需依赖应用服务器,性能优越,部署简单等特点。特别适合生成静态文档,个人博客,饱受开发者的青睐。相比学会使用,掌握工作原理也尤为重要。 一个静态网站生成器的工作流程通…

SEO优化来了

搜索引擎工作原理 当我们在输入框中输入关键词,点击搜索或查询时,然后得到结果。深究其背后的故事,搜索引擎做了很多事情。 在搜索引擎网站,比如百度,在其后台有一个非常庞大的数据库,里面存储了海量的关…

织梦网站地图更新自由列表html,织梦自由列表更新使用教程

当我们用织梦网站建立了一个自由列表后就相当于建立了一个类似其它栏目的一个列表,跟其它栏目建立了一个最终列表页一样,当建立完自由列表后,也需要生成列表html,也就是自由列表的更新,如下图所示:(此图片来…

大型网站架构演变和知识体系(转)

之前也有一些介绍大型网站架构演变的文章,例如LiveJournal的、ebay的,都是非常值得参考的,不过感觉他们讲的更多的是每次演变的结果,而没有很详细的讲为什么需要做这样的演变,再加上近来感觉有不少同学都很难明白为什么…

http 升级 https 影响原来的链接吗_http切换https的SEO完美解决办法

对于网站http协议切换为https协议,这不仅仅能够提升网站的安全度,还可以提升网站在搜索引擎的权重。因为像百度针对https协议的站点有明确的提权政策。百度认为更加安全的站点应该获得更优质的展现,进而给予优先展示。那么针对SEO的工作而言&…

nofollow标签_网站被加上nofollow对SEO有什么危害?网站nofollow标签知多少?

关于以上问题我总结了一下网上比较优秀的关于nofollow的文章,希望能对新手有所帮助nofollow标签的介绍nofollow是一个HTML标签的属性值,nofollow 是一个HTML标签的属性值。它的出现为网站管理员提供了一种方式,即告诉搜索引擎“不要追踪此网页…

php源码仿三一重工,仿三一重工大气企业网站php源码

大小:21.55M编码:GBK简体类别:机械电子★模板介绍★源码名称:仿三一重工大气企业网站php源码仿三一重工大气企业网站php源码,测试完整无错,兼容主流浏览器。模板包含安装说明,并包含测试数据。本…