htmlunit抓取小说网站JS加载内容

news/2024/5/9 23:57:00/文章来源:https://blog.csdn.net/weixin_33787529/article/details/92446783

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

http://www.17k.com/chapter/76839/8810097.html


这是17K的一个小说的章节,内容是通过JS加载的,当我们用httpclient去抓取时,因为取得的是原始页面,所以无法获得章节的具体内容。

用HtmlUnit模拟浏览器运行,获得执行后的html页面,然后就可以抓取到想要的具体内容了^_^

 

public class HtmlUnitTest {public static void main(String[] args) throws Exception {// 新建一个WebClient对象,此对象相当于浏览器   final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);// 构造一个URL   URL url = new URL("http://www.17k.com/chapter/76839/8810097.html");// 通过getPage()方法,返回相应的页面   HtmlPage page = (HtmlPage) webClient.getPage(url);System.out.println(page.getHtmlElementById("chapterContent").asText());}}

转载于:https://my.oschina.net/dreamnight/blog/695071

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_732158.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图片剪裁cropper插件结合网站示例 支持图片旋转,裁剪,加水印功能 类似58同城效果...

cropper是一款使用简单且功能强大的图片剪裁jQuery插件。该图片剪裁插件支持图片放大缩小,支持鼠标滚轮操作,支持图片旋转,支持触摸屏设备,支持canvas,并且支持跨浏览器使用 近日结合了客户的网站,利用cropper插件做了…

xp 架设网站服务器,WinXP如何设置iis服务器?WinXP iis服务器设置教程

随着网络的发展和普及,使用宽带的用户不断增加,也有越来越多的用户开始尝试在设备上建设自己的网站,但是很多普通用户都还不太熟悉利用IIS架构网站的具体方法,下面小编就来介绍下WinXP iis服务器设置教程。安装IIS在Windows XP 专…

《UCD火花集2:有效的互联网产品设计 交互/信息设计 用户研究讨论》一17.2 上海航空网站注册表单优化方案...

本节书摘来自异步社区《UCD火花集2:有效的互联网产品设计 交互/信息设计 用户研究讨论》一书中的第17章,第17.2节,作者 UCDChina,更多章节内容可以访问云栖社区“异步社区”公众号查看 17.2 上海航空网站注册表单优化方案 UCD火花…

《网站情感化设计与内容策略》一10.4 策略和设计

本节书摘来自异步社区《网站情感化设计与内容策略》一书中的第10章,第10.4节,作者 【美】Aarron Walter , Erin Kissane,更多章节内容可以访问云栖社区“异步社区”公众号查看 10.4 策略和设计 一旦你定义了清晰的项目目标和成功的衡量标准&…

11 个最佳免费安全网站

威胁和安全信息网站随处可见,但它们通常都有很高的付费门槛。对于那些免费的安全信息网站,其中只有少数经历过时间的考验,可以被认为是可靠的。以下我们列出了行业内一些不错的安全信息查询网站,供安全研究者和爱好者参考。 1. 谷…

爬虫小练习01—获取网站源码

第一步 明确自己需要爬取的网页网址URL https://bbs.zol.com.cn/第二步 引入requests库,使用request库发起请求 import requests url "https://bbs.zol.com.cn/" r requests.get(url) r此时若显示的状态码不是200,有可能是网站得知用户在…

爬虫小案例05—使用Xpath解析网站

本案例使用Xpath解析源码,从而获取我们想要的内容 1. 获取网页源码 import requests from lxml import etree #输入关键字点击搜索后,跳转后的网址是我们的目标网址 url https://beijing.zbj.com/search/f/?kwpython%E6%95%B0%E6%8D%AE%E5%88%86%E6…

python 自动登录网站_python 实现校园网自动登录

背景 我所在的学校校园网登录是web式的,即随便打开一个网页就会自动跳转到登录页面,然后输入用户名密码,点登录,便可以上网了。 但这种登录方式有个缺点:登录状态不会一直保持下去。即过一段时间就会掉线,然…

vue导出excel加一个进度条_一个文件扒掉网站库子?不用插件批量导出opencart订单excel教程...

前面说过在这家跨境电商公司用opencart做外贸独立商城,好处当然是后台非常简洁如图1,速度对我们这种中小型外贸电商公司而言买不起高档配置的条件下的理性选择,但是后台太简洁了以至于很多实用功能都没有,我现在就碰到了个问题&am…

如何使用代理服务器访问授权的网站_如何减少HTTP请求并加快网站访问速度?...

每当有人访问您网站上的页面时,浏览器都必须请求大量文件。这些HTTP请求直接影响网页的加载速度。通常,更少的HTTP请求意味着网站加载速度更快。 现在,网站的加载速度是搜索引擎排名的重要因素。平均而言,媒体页面加载速度为谷歌的…

记在VMware虚拟机中对网站进行性能压力测试的经历

由于本次测试,仅仅是对静态网站首页进行的测试,所以没有涉及到MySQL数据库的性能监测 服务器基本配置 webbench测试工具 Linux上一款优秀的web性能压力测试工具。webbench最多可以模拟3万个并发连接去测试网站的负载能力。 下面开始测试 第一次并发测试 …

配置Exchange OWA和Sharepoint网站单点登录

如果我们在组织中已经部署完成了Lync、Exchange以及Sharepoint,那么我们会发现这三套系统在通过域账户登录计算机时,如果本机有安装Outlook和Lync,那么在登录Lync或启动Outlook的时候就会自动使用当前登录计算机凭据进行登录。 但如果这个时候…

如何用 CSS 网格快速做出网站原型

简评:CSS 网格模块是创建网站模型的绝佳工具。它是我尝试过的任何其他系统中最快让你体验布局的工具。我们的网格 我们将从模仿一个经典网站的非常基本的网格开始: 首先,我将解释我们需要的 HTML 和 CSS 代码,我将之分为 4 个部分…

android无缝切换主题,Flutter Web网站之最简方式实现暗黑主题无缝切换

往期Flutter Web网站搭建教程Flutter Web 网站之主页框架搭建Flutter Web网站之Jetpack成型Flutter Web网站之ScrollViewGridView优化上期回顾上期我们做了优化,主要针对ScrollViewGridView的使用场景,用了更加合适的组件,这期想做一个主题变…

阿里云系列——3.企业网站备案步骤---2018-1-4

网站部署之~阿里云系列汇总 http://www.cnblogs.com/dunitian/p/4958462.html 个人网站备案:http://www.cnblogs.com/dunitian/p/4958268.html 先说企业的域名实名认证:一张图就ok了 说下步骤,其实和个人差不多,简单过下吧 1.填写…

java网络编程基础夯实03-为什么不能直接通过IP访问网站

在java网络编程基础夯实02-InetAddress类一文中通过getAllByName得到了www.csdn.net对应的四个IP地址。从理论上说,在IE(或其他的Web浏览器,如Firefox)的地址栏中输入这四个IP地址中的任何一个,都可能访问www.csdn.net。如输入htt…

Linux中使用Apache服务部署静态网站及配置介绍

在介绍Apache服务之前,先了解一下Web网络服务和其他两个服务。 配置文件 /etc/httpd/conf/httpd.conf 参数 部署Apache服务 [rootapache-server ~]# yum install httpd.x86_64 httpd-manual -y 安装服务 [rootapache-server ~]# systemctl start httpd 启动服务 [r…

网市场云建站 v4.8 增加私有模版库,开放 Mysql 配置、在线客服源码

百度智能云 云生态狂欢季 热门云产品1折起>>> 网市场云建站系统,结合各种产品,将一个网站的服务器成本降低到0.1元!打破传统建站的高成本,让价格不再是阻碍的门槛,让每个人都能有自己的网站! 延…

《WEB开发-阿里云建站》第1章 建站前的准备

1.1 阿里云ECS服务器建站概述 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可以干很多事情,建站只是一小部分功能,关于更加具体的内容请参看阿里云官网。 https://www.aliyun.com/ 图1阿里云EC…

《WEB开发- Web服务器环境搭建》使用花生壳+II7搭建网站服务

1简介 IIS7及以上版本提供的请求-处理架构包括以下内容:  Windows Process Activation Service(WAS)可以让站点支持更多协议,不仅仅是HTTP和HTTPS;  可以通过增加或移除模块来自定义Web服务器引擎;  集成IIS和ASP.NET请求-…