java jsoup爬取动态网站_Jsoup简明教程

news/2024/5/11 22:11:18/文章来源:https://blog.csdn.net/weixin_29882269/article/details/112078260

jsoup是一个操纵HTML的Java库。它提供了很多便利的API,我们可以用HTML5 DOM方法和CSS选择器来获取URL,提取和操作数据。

先看一个简单的例子,新建一个Maven项目:

74571fdf5bf5dcacb4b851c5d2aa36e0.png

在项目的pom.xml文件中添加如下依赖:

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.13.1</version>
</dependency>

确认项目下的External Libraries中包含如下jar包

e85e0739184fee5e0d2c406a951cbeaa.png

我们的例子是提取到百度首页的标题,如下图所示:

fea049d1ef38aa27ae4478a9c1d4f64c.png

使用jsoup库可以很容易做到这事儿,

package com.andy;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;import java.io.IOException;public class JsoupDemo {public static void main(String[] args) throws IOException {Document document = Jsoup.connect("http://www.baidu.com").get();System.out.println(document.title());}
}

结果如下:

e85344a9acc426fca6e4e372c837fd47.png

通过Jsoup.connect("http://www.baidu.com").get()我们获取到了百度首页的HTML文档并返回一个Document对象(它就代表了HTML文档),使用Document对象的title()方法获取到了HTML文档的标题。

获取Document对象

有多个方法获取到Document对象。

Jsoup.parse(String html)

该方法从字符串解析出一个Document对象,

Document document = Jsoup.parse("<style>p {font-size:10px}</style>");
System.out.println(document);

d6e0ecde24137193c5416431e5fd8b7b.png

可以看到对于缺失的标签,jsoup库帮我们补全。

Jsoup.parseBodyFragment(String html)

该方法从字符串解析出一个Document对象,与Jsoup.parse(String html)方法不同的是,此方法会将html插入到body标签中,

Document document = Jsoup.parseBodyFragment("<style>p {font-size:10px}</style>");
System.out.println(document);

c6bfa005aa692b0787b2c6e93d9c38ba.png

Jsoup.connect(String url).get()

该方法从目标URL解析出一个Document对象,正如样例所示。

Jsoup.parse(File in, String charset, String baseUri)

该方法从文件中解析出一个Document对象,我们将百度首页的html文档保存到本地,然后用此方法得到一个Document对象:

File file = new File("./index.html");
Document document = Jsoup.parse(file, "UTF-8");
System.out.println(document);

2df6bc269e771e819de20c1a3b621d6d.png

提取数据

获取到了Document对象有什么用呢?我们可以通过它的很方便的方法提取数据。

DOM方法

Document对象上我们可以使用一些类DOM方法,比如:

  • getElementById(String id)
  • getElementsByTag(String tag)
  • getElementsByClass(String className)
  • getElementsByAttribute(String key)

还是用百度首页来举例:

File file = new File("./index.html");
Document document = Jsoup.parse(file, "UTF-8");
Elements elements = document.getElementsByTag("a");
for (Element element : elements) {System.out.println(element);
}

acab88d0814aa343336edb398f32f707.png

我们getElementsByTag()方法获取到了整个页面的a元素,然后打印输出每个元素。

可以用下列方法提取元素的数据:

  • attr(String key)获取元素key属性的值
  • attributes()获取元素所有属性
  • id()获取元素id属性的值
  • classNameclassNames获取元素class属性的值
  • text()获取元素内容

例如:

File file = new File("./index.html");
Document document = Jsoup.parse(file, "UTF-8");
Elements elements = document.getElementsByTag("a");
for (Element element : elements) {System.out.println(element.text() + " : " + element.attr("href"));
}

dbdcd1257b0ef1c175337c92f7dc66bb.png

选择器方法

除了类DOM方法外,还可以使用CSS选择器语法对元素进行筛选,主要是用Element.select(String selector)方法。

File file = new File("./index.html");
Document document = Jsoup.parse(file, "UTF-8");
Elements elements = document.select("a[href]");
for (Element element : elements) {System.out.println(element.text() + " : " + element.attr("href"));
}

81cc0b41d183edf365dae70fdfbdf4ed.png

如上例所示,通过select()方法找到了所有带有href属性的a标签。值得注意的是,select()方法可以在DocumentElementElements对象上使用。

更多选择器语法请看Use selector-syntax to find elements。

获取绝对路径

有时我们需要将资源的相对路径转换为绝对路径,我们可以用如下两种方法:

Document doc = Jsoup.connect("http://jsoup.org").get();Element link = doc.select("a").first();
String relHref = link.attr("href"); // == "/"
String absHref = link.attr("abs:href"); // "http://jsoup.org/"
// 等价于
String absLink = link.absUrl("href") // "http://jsoup.org/"

爬取豆瓣电影TOP250

了解了上述内容后,我们现在可以尝试爬取豆瓣电影TOP250啦!

1196ca4fdad030ae6246edf3d305a85d.png

观察其URLhttps://movie.douban.com/top250?start=0&filter=,可以发现页数和URL是一一对应的,start的值会等于当前页i减1乘以25,即start=(i-1)*25,因此通过改变start的值就可以请求到不同的HTML页面。我们对页面上的每部电影信息做进一步分析:

0346d8a6899794f27cdbea4f28b3a276.png

可以看到每部电影都包含在一个class名为itemdiv标签中,作为示例我们这里只提取每部电影的标题和URL。完整代码如下所示:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;public class JsoupDemo {public static void main(String[] args){String baseUrl = "https://movie.douban.com/top250?start=%d&filter=";for (int i = 0; i < 10; i++) {String url = String.format(baseUrl, i * 25);try {parsePage(url);} catch (Exception e) {System.out.println("Error !!");}}}public static void parsePage(String src) throws IOException {Document document = Jsoup.connect(src).get();Elements elements = document.select("div.item");for (Element element : elements) {String title = element.select("span.title").first().text();String url = element.select("div.hd > a").first().attr("href");System.out.println("title : " + title + " url : " + url);}}
}

抓取结果如下:

0003f19359a178b81e7a4784daf66237.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_789819.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iframe中的右键 禁止_js代码如何禁止复制粘贴网站内容?

(给100素材网点亮★号&#xff0c;提升开发技能)1、使右键和复制失效方法1&#xff1a;在网页中加入以下代码&#xff1a; document.oncontextmenunew Function("event.returnValuefalse"); document.onselectstartnew Function("event.returnValuefalse"…

nginx返回404_解决网站404页面返回200状态码问题

看日志的时候&#xff0c;我发现有大量请求到了站点其实并不存在的地址&#xff0c;但是返回码居然是 200&#xff1f;&#xff1f;这就不正常了&#xff0c;于是手工访问了一下一个不存在的页面&#xff0c;虽然 站点 在前台给我展示了一个 404 页面&#xff0c;但是浏览器显示…

php不同洁面使用json_网站防攻击策略 针对于JSON网站的安全解决方案

网站,APP越来越多,安全问题也面临着严重挑战,我们在对客户网站做安全服务的同时,发现很多客户网站都有使用JSON的交互方式来进行数据的传输,包括JSON调用,在使用JSON同时发生的安全问题以及如何做好JSON的网站安全防护,下面我们跟大家来分享一下.首先我们要理解一下什么是JSON?…

css和html写个人网站,手把手教用你DIV和CSS建个人网站

原标题&#xff1a;手把手教用你DIV和CSS建个人网站本文讲述了一个静态网站的设计到重构到架设全部流程&#xff0c;还讲述了一个蛋疼设计师的诙dan谐teng日常&#xff0c;嘛&#xff0c;表在意后面这一句就是了。。。(丝路教育微信公众号&#xff1a;silujy)嘿嘿嘿嘿嘿嘿~~~~~…

nas怎么做网站服务器,如何在群晖nas搭建自己的网站?

1.下载如下5个软件Web starion&#xff1a;用来配置WEB服务器&#xff0c;将来绑定域名就需要在这里进行。MariaDB:必须要安装的基础程序&#xff0c;不然phpmyadmin无法运行。Phpmyadmin&#xff1a;用于管理网站的数据库&#xff0c;不管您用哪款建站程序&#xff0c;都必须要…

简单随机选人网站设计

简单随机选人网站设计 一、 设计目的 解决班级活动选人问题&#xff0c;随机选择参加人员。 二、 网站功能 实现对班级成员的随机选择&#xff0c;且上次被选的人才能选择下次活动人选。 三、 使用流程 1. 网址&#xff1a;http://3406ff11.nat123.cc/Project01/进入登陆…

MOSS2007开发Demo系列(1)——用TreeView显示SharePoint网站文件夹结构(SPFolder)

TreeView控件的节点加载一般有两种方式&#xff0c;静态加载与动态加载&#xff0c;下面分别进行实现。 &#xff08;1&#xff09; 静态加载节点&#xff0c;一次加载所有节点 创建用户控件FolderTree1.ascx &#xff0c;在ascx页面拖一个Button和TreeView上去&#xff0c;cs页…

利用其他网站的搜索结果_网站优化 SEO 的好处

网站优化 SEO 的好处 做网站制作或者网络推广的人估计没有谁不知道SEO的&#xff0c;即搜索引擎优化&#xff0c;这是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。由于不少研究发现&#xff0c;搜索引擎的用户往往只会留意搜索结果最前面的几个…

部分网站为什么上不去_为什么网站SEO优化没有效果?

其实大部分从事SEO优化的站长&#xff0c;必定都遇到网站优化效果大起大落&#xff0c;甚至毫无起色的情况&#xff0c;即便是每天都在不断的更新原创内容和优质外链&#xff0c;关键词的布局也没有问题&#xff0c;但是关键词的排名始终上不去&#xff0c;尤其是近期&#xff…

大流量网站的底层系统架构

from:http://chenge.diandian.com/post/2011-10-30/6366412 动态应用&#xff0c;是相对于网站静态内容而言&#xff0c; 是指以c/c、php、Java、perl、.net等 服务器端语言开发的网络应用软件&#xff0c;比如论坛、网络相册、交友、BLOG等常见应用。动态应用系统通 常与数据库…

Windows Azure 和必应地图通过交互的网站将Speilberg的“War Horse”的历史带进生活...

Steven Spielberg的最新电影War Horse 讲述了一匹马前往第一次世界大战时的佛兰德斯战场的行军之路。为了帮助宣传影片并将该历史带到现实中来&#xff0c;Shoothill 的英国开发人员开发了这个网站——The War Horse Journey。使用Deep Zoom 技术、必应地图和Windows Azure&…

切图网——用html5建站的10大好处

2019独角兽企业重金招聘Python工程师标准>>> 我相信你听说过网站建设&#xff0c;但是你听说过html5网站建设吗&#xff1f; 据调查99%的人都不理解html5网站建设的概念。这类似于90%的人都不知道5d电影的概念一样。 html5建站是用到了最新的html5技术和 一系列htm…

关于Vue中对所做网站ico的解决办法

今儿在做项目中&#xff0c;老大让处理一下网站图标对问题&#xff08;之前自己网站没有ico&#xff09;。 由于自己的网站是用vue进行开发的。所以必须考虑到如何用vue进行解决。 第一 我们得先找到一个制作网站ico的网站&#xff0c;在这里我就先给大家提供一个吧&#xf…

公司网站被挂马后的处理

2019独角兽企业重金招聘Python工程师标准>>> 昨天公司网站所有php代码文件被植入一段代码&#xff0c;代码的含义是将从bing和google过来的ip跳转到指定的网址&#xff0c;因为其中没有百度&#xff0c;估计是国外黑客所为。黑客&#xff0c;这个词听起来就让人很激…

jiathis:社交化数据分析 帮助网站提高流量

随着微博的兴起&#xff0c;社会化营销逐渐走进我们的生活&#xff0c;不管是杜蕾斯微博事件还是最近在小米大战360&#xff0c;都是在社会化平台上面进行&#xff0c;而 如何方便的将网站内 容分享至社会化媒体&#xff0c;&#xff0c;大部分博主会选择工具&#xff0c;但选择…

小白node怎么做网站_用nodejs做网站 - 3

开始之前我第干种用大是使处来框这它段观开有个理和近先介绍几款工具&#xff0c;这几款工具会在接下来用到。他们会帮我们处理很多无聊的操能调页代事求都学是功发解开宗这维视如间请前框来总在行回断元随来以4移和泉果动作。nodemo遇新是直朋能到nN是和搭屏一以近一的框蔽款让…

【转载】网站性能优化的34条黄金守则

2019独角兽企业重金招聘Python工程师标准>>> Yahoo!的 Exceptional Performance团队为改善 Web性能带来最佳实践。他们为此进行了一系列的实验、开发了各种工具、写了大量的文章和博客并在各种会议上参与探讨。最佳实践的核心就是旨在提高网站性能。 原文地址&#…

网站上传到服务器需要上传数据库,网站上传到服务器需要上传数据库

网站上传到服务器需要上传数据库 内容精选换一换本章节指导您使用MongoDB客户端&#xff0c;通过内网连接集群实例。通过MongoDB客户端连接实例的方式有普通连接和SSL连接两种&#xff0c;其中SSL连接通过了加密功能&#xff0c;具有更高的安全性。为了提升数据在网络传输过程中…

常用REHL RPM包搜索网站

2019独角兽企业重金招聘Python工程师标准>>> RPM包搜索网站 http://rpm.pbone.net/ http://www.rpmfind.net/ http://www.rpmseek.com http://www.sourceforge.net http://search.cpan.org/ 转载于:https://my.oschina.net/longhtml/blog/157318

推荐:学习unity Shader必须知道的网站Shadertoy

shadertoy几乎是shader大神的最爱&#xff0c;里面充斥着各种数学和烧脑模式&#xff0c;上面的所有效果都是纯手写出来的&#xff0c;而且有GLSL的源码 点开每个效果&#xff0c;都有相应的源码&#xff0c;可以根据一定的规则转换成unity所使用的shader代码&#xff0c;具体的…