利用java爬取网上信息_java爬取网站信息和url实例

news/2024/5/20 15:30:45/文章来源:https://blog.csdn.net/weixin_42297982/article/details/114844389

https://blog.csdn.net/weixin_38409425/article/details/78616688(出自此為博主)

具體代碼如下:

import java.io.BufferedReader;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStreamReader;

import java.io.PrintWriter;

import java.net.URL;

import java.net.URLConnection;

import java.text.SimpleDateFormat;

import java.util.Date;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

* 网络爬虫

*

* @author jacke 陈

*

*/

public class SpirderUrl {

public static void spiderURL(String url, String regex, String filename) {

SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");

String time = sdf.format(new Date());

System.out.println(time);

URL realURL = null;

URLConnection connection = null;

BufferedReader br = null;

PrintWriter pw = null;

PrintWriter pw1 = null;

Pattern pattern = Pattern.compile(regex);

try {

realURL = new URL(url);

connection = realURL.openConnection();

// connection.connect();

File fileDir = new File("E:/spider/" + time);

if (!fileDir.exists()) {

fileDir.mkdirs();

}

// 将爬取到的内容放到E盘相应目录下

pw = new PrintWriter(

new FileWriter("E:/spider/" + time + "/" + filename + "_content.txt"), true);

pw1 = new PrintWriter(new FileWriter("E:/spider/" + time + "/" + filename + "_URL.txt"),

true);

br = new BufferedReader(new InputStreamReader(connection.getInputStream()));

String line = null;

// 读写

while ((line = br.readLine()) != null) {

pw.println(line);

Matcher matcher = pattern.matcher(line);

while (matcher.find()) {

pw1.println(matcher.group());

}

}

System.out.println("爬取成功!");

} catch (Exception e) {

e.printStackTrace();

} finally {

try {

br.close();

pw.close();

pw1.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

public static void main(String[] args) {

String url = "https://www.cnblogs.com/csh520mjy/p/";

String regex = "(http|https)://[\\w+\\.?/?]+\\.[A-Za-z]+";

spiderURL(url, regex, "8btc");

}

}

爬取結果:

20181226105955446278.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_735573.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

seo代码优化工具_seo外包的内幕曝光_云一哥

为了让企业网站建好后,用有更好的排名,能更快更好的提高品牌形象和宣传力度,那么要选择一家专业的seo外包公司为企业提供服务。那首先就要知道做seo的工作内容,所以云一哥就和大家分享下SEO外包都有哪些工作内容?seo外…

php linux 缓存文件,Linux下搭建网站提示缓存文件写入失败的处理办法

Linux下建立网站提示缓存文件写入失利时该怎样处理?依据ThinkPHP结构及Linux环境建立的网站,经常会遭受缓存文件写入失利的过错提示,即就是现在盛行的P2P网站程序就是如此,详细处理办法请看下文。缓存文件写入失利常见原因&#x…

springboot做网站_Github点赞接近100k的SpringBoot学习教程+实战推荐!牛批!

很明显的一个现象,除了一些老项目,现在 Java 后端项目基本都是基于 Spring Boot 进行开发,毕竟它这么好用以及天然微服务友好。不夸张的说,Spring Boot 是 Java 后端领域最最最重要的技术之一,熟练掌握它对于 Java 程序…

免费抖音视频解析网站_抖音规则解析:抖音视频为什么能火?推荐规则是什么?【揭秘】...

视频出现之后,又相继出现抖音、西瓜、火山、美拍等短视平台,其中以抖音、快手为主,而各大互联网公司都开始纷纷涉猎短视频领域,那么究竟要怎么要才能玩转短视频平台呢 !今天小编就给大家分析一下抖音短视频的一些玩法规则&#xf…

c#服务器后台搭建_角点科技教你从0开始搭建一个网站

一、注册网站域名域名是网站的访问地址,这个一般大家都是知道的,那么域名是怎么来的呢?域名一般是注册的但是也有的人是购买的,注册和购买都很简单的,按照平台的提示流程走就可以拥有一个域名了,一般价格就…

简单动态网站搭建

如何在windows服务器上配置wordPress和discuz 网站建设中的概念讲解 网站建设的基础操作 网站程序的基础使用 网站程序的优化 简单动态网站搭建 软件部署 域名和主机的购买 域名解析 环境部署 安装程序 软件的使用和优化 wordpress的基础设置和使用 discuz的基础设置…

有些网站打开一半空白_高端定制网站如何设计才显高大上?

在网上常见的网站设计都是模板站,有一部分人对于网站建设要求是很高的,“高端定制网站如何建设才能吸引用户点击”一直是他们常思考的问题。接下来,我们常州互旦科技大家讲讲网站定制开发需要注意的问题:高端定制网站如何设计才显…

爬虫案例 某网站小说下载

由于版权问题,暂不对网站明述。 正常使用xpath进行爬取,没有反爬措施 爬取使用了进度条,说明一下进度条的使用和爬取遇到的问题: \r 表示将光标的位置回退到本行的开头位置 \b表示将光标的位置回退一位 print("\r", e…

江苏高考时间2021成绩查询,小高考时间2021具体时间江苏-江苏小高考成绩查询公布时间及网站...

选择科目测一测我能上哪些大学选择科目领取你的专属报告>选择省份关闭请选择科目确定v>2021年1月,全国多省举行了普通高中学业水平考试,其中江苏的学业水平合格性考试又被本地人称为是“小高考”,备受人们的关注。下面,我就…

仿站和模板建站的区别_企业建站:高价定制并不一定高质!

购买实物产品,如车、手机、衣服等,不考虑性价比的情况下,贵的一般质量会好很多,但建站目前还不是标准产品,信息高度不透明,普通用户没有评判标准,因此“贵的并不一定好”,而且你仔细…

利用cmd和ip入侵电脑_还偷看“不良网站”?这些麻烦都会找上你,难怪手机、电脑变卡了...

移动互联网时代,智能手机的功能性变得十分强大,借助各种APP,我们实现了线上支付、网购和社交等等,非常的便利,但是网络也是有双面性的,正确的利用确实能够带来很多方便,但同时也很容易误入一些“…

退出页面 数据保留_Edge新增Cookies白名单:清除数据时可保留网站登录凭证

基于Chromium的Edge新版在设置中提供了一个选项,允许用户在关闭浏览器的时候清除浏览数据,用户可以对浏览历史、下载历史、Cookies、其他网站数据和自动表单填写数据进行选择。如果你已经配置在关闭浏览器之后自动删除Cookies(也就是在关闭之后登出大部分…

ppt上的倒计时小工具_让你的PPT/论文/报表瞬间高大上的10款数据可视化工具网站推荐...

也许看这篇文章的你依旧身在学校,或者已然奋斗在职场,相信我,PPT绝对是只会迟到但决不会缺席的一个存在。其中数据是PPT当中一个非常重要的内容组成部分,而高效的展示数据的方式就将数据做成可视化的图表形式。柱状图、折线图或者…

网络请求可以返回数据的网站_微信小程序入门4网络请求数据显示

小程序调用wx.request(Object object)方法发起网络请求,域名必须使用HTTPS/WSS协议。默认超时时间和最大超时时间都是60S。官方示例代码:wx.request({ url: test.php, //仅为示例,并非真实的接口地址 data: { x: , y: }, header:…

mysql小吃代码_PHP+MySQL菜品食谱美食网站的设计与实现

美食是人类永恒的追求,现在有很多的美食爱好者,他们希望通过自己的各种方式来学习更多的美食制作方式,以及分享自己制作美食的一些过程,说让更多的人。享受到更加美味可口的饭菜。本系统也是基于这样的目的来进行开发的。本系统是…

ie java 下载_EeJava(Java中文编程软件)下载-EeJava(Java中文编程软件)PC版下载v1.1.2-IE浏览器中文网站...

EeJava能够为用户提供专业强大的编程功能,拥有函数编辑、颜色设置、创建项目、窗口程序创建、注释、行号设置等功能,为您的使用操作带来便捷,提高工作效率。软件功能1、EeJava提供简单的编程功能,在软件直接编辑新的Java项目2、打…

wordpress去index.php,WordPress去除index.php的方法 WordPress网站建站教程

wordpress去除index.php的方法:首先登录wordpress后台;然后依次选择“设置-固定链接”并设置好链接;接着设置wordpress重写规则;最后在wordpress网站目录下新建htaccess文件即可。wordpress去掉index.php的方法主要有两个步骤&…

网站同时出现网站内容和html源码是什么原因_网站301实战讲解教程、几个步骤教你正确转移权重...

最近许多兄弟问我网站301有什么注意事项,应该怎样正确做301、本篇内容本着实战的原则、给大家讲解一下!首先讲一下301应用在什么场景里、下面我们分为两种场景:一、需要换域名时,比如最初用的域名A、后面由于各种原因感觉A不好,需…

linux 堆地址,堆与堆排序_Linux编程_Linux公社-Linux系统门户网站

堆排序与二叉堆的定义二叉堆是完全二叉树或者是近似完全二叉树。二叉堆满足二个特性:1.父结点的键值总是大于或等于(小于或等于)任何一个子节点的键值。2.每个结点的左子树和右子树都是一个二叉堆(都是最大堆或最小堆)。当父结点的键值总是大…

controller中跳转第三方网站_[SpringBoot2.X]25.04-SpringBoot对Controller中其他参数的校验...

SpringBoot对Controller中其他参数的校验之前的校验是对一个实体对象做校验,但有的时候就不是一个实体对象,而是属性值,那怎么进行呢?1编写页面2对参数指定校验规则3在Controller中开启校验4通过全局异常处理来跳转页面配置了controller开启校验后产生了异常反馈,那如果让这个…