java webmagic 使用_使用 | Java使用WebMagic 爬取网站

news/2024/5/10 0:55:08/文章来源:https://blog.csdn.net/weixin_35132022/article/details/114137604

小小又开始学习了，这次跟着项目学习着，需要使用一个相关的爬虫，这里使用的是webmagic作为网站的爬虫。

安装

这里使用maven进行安装。

根据maven下载相关的包

us.codecraft

webmagic-core

0.7.3

us.codecraft

webmagic-extension

0.7.3

Hello World

几乎所有的api的学习，都是从hello world开始的，webmagic也不例外，使用的同样也是hello world案例。

以爬取sina博文为例。

复制以下代码

package com.example.demo;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

public class SinaBlogProcessor implements PageProcessor {

public static final String URL_LIST = "http://blog\\.sina\\.com\\.cn/s/articlelist_1487828712_0_\\d+\\.html";

public static final String URL_POST = "http://blog\\.sina\\.com\\.cn/s/blog_\\w+\\.html";

private Site site = Site

.me()

.setDomain("blog.sina.com.cn")

.setSleepTime(3000)

.setUserAgent(

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");

@Override

public void process(Page page) {

//列表页

if (page.getUrl().regex(URL_LIST).match()) {

page.addTargetRequests(page.getHtml().xpath("//div[@class=\"articleList\"]").links().regex(URL_POST).all());

page.addTargetRequests(page.getHtml().links().regex(URL_LIST).all());

//文章页

} else {

page.putField("title", page.getHtml().xpath("//div[@class='articalTitle']/h2"));

page.putField("content", page.getHtml().xpath("//div[@id='articlebody']//div[@class='articalContent']"));

page.putField("date",

page.getHtml().xpath("//div[@id='articlebody']//span[@class='time SG_txtc']").regex("\\((.*)\\)"));

}

@Override

public Site getSite() {

return site;

}

public static void main(String[] args) {

Spider.create(new SinaBlogProcessor()).addUrl("http://blog.sina.com.cn/s/articlelist_1487828712_0_1.html")

.run();

}

查看相关运行结果

AAffA0nNPuCLAAAAAElFTkSuQmCC

这里就等于说已经运行成功，爬取到了一些数据

PageProcessor

这里用于实现相关的配置。

代码如下

public class GithubRepoPageProcessor implements PageProcessor {

// 部分一：抓取网站的相关配置，包括编码、抓取间隔、重试次数等

private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

@Override

// process是定制爬虫逻辑的核心接口，在这里编写抽取逻辑

public void process(Page page) {

// 部分二：定义如何抽取页面信息，并保存下来

page.putField("author", page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString());

page.putField("name", page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString());

if (page.getResultItems().get("name") == null) {

//skip this page

page.setSkip(true);

}

page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()"));

// 部分三：从页面发现后续的url地址来抓取

page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/[\\w\\-]+/[\\w\\-]+)").all());

}

@Override

public Site getSite() {

return site;

}

public static void main(String[] args) {

Spider.create(new GithubRepoPageProcessor())

//从"https://github.com/code4craft"开始抓

.addUrl("https://github.com/code4craft")

//开启5个线程抓取

.thread(5)

//启动爬虫

.run();

}

抽取元素

这里使用相关的方法抽取元素。

这里使用相关的方法抽取相关的元素

List urls = page.getHtml().css("div.pagination").links().regex(".*/search/\?l=java.*").all();

保存结果

这里保存结果使用Pipeline方法

public static void main(String[] args) {

Spider.create(new GithubRepoPageProcessor())

//从"https://github.com/code4craft"开始抓

.addUrl("https://github.com/code4craft")

.addPipeline(new JsonFilePipeline("D:\\webmagic\\"))

//开启5个线程抓取

.thread(5)

//启动爬虫

.run();

}

实际案例

这里以 http://blog.sina.com.cn/flashsword20 作为例子，在这个例子里，要从最终的博客文章页面，抓取博客的标题，内容，和日期。

列表页

文章页

进行正则匹配

这里用两个正则进行匹配。

这里用，xpath//div[@class=\“articleList\”] 进行相关的匹配，

所以，可以这样进行匹配

page.addTargetRequests(page.getHtml().xpath("//div[@class=\"articleList\"]").links().regex("http://blog\\.sina\\.com\\.cn/s/blog_\\w+\\.html").all());

page.addTargetRequests(page.getHtml().links().regex("http://blog\\.sina\\.com\\.cn/s/articlelist_1487828712_0_\\d+\\.html").all());

内容的添加

这里再进行一次内容的添加

page.putField("title", page.getHtml().xpath("//div[@class='articalTitle']/h2"));

page.putField("content", page.getHtml().xpath("//div[@id='articlebody']//div[@class='articalContent']"));

page.putField("date",

page.getHtml().xpath("//div[@id='articlebody']//span[@class='time SG_txtc']").regex("\\((.*)\\)"));

区分列表和目标页

这里，进行区分列表页，和目标页。

//列表页

if (page.getUrl().regex(URL_LIST).match()) {

page.addTargetRequests(page.getHtml().xpath("//div[@class=\"articleList\"]").links().regex(URL_POST).all());

page.addTargetRequests(page.getHtml().links().regex(URL_LIST).all());

//文章页

} else {

page.putField("title", page.getHtml().xpath("//div[@class='articalTitle']/h2"));

page.putField("content", page.getHtml().xpath("//div[@id='articlebody']//div[@class='articalContent']"));

page.putField("date",

page.getHtml().xpath("//div[@id='articlebody']//span[@class='time SG_txtc']").regex("\\((.*)\\)"));

}

这样就完成了最基本例子的读取。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_796559.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

java webmagic 使用_使用 | Java使用WebMagic 爬取网站

相关文章

linux shell监控网站延迟,shell脚本监控网站状态

Vue ElementUI el-tabs 监听导航栏的mouseover 和 mouseleave 事件

网站的分布式架构学习

做网站用UTF-8还是GB2312？

小型电子商务网站设计原则

Mysql在大型网站的应用架构演变

(转载)可扩展、高可用、负载均衡网站架构设计方案

MOUSEOVER在拼接的HTML无效处理

SQl语句查存储过程\触发器\约束(网站数据库转移缺漏审查)

从小型网站到超大规模网站的MySQL参考架构

在不同尺寸屏幕下浏览网站效果 - Responsivator

行业网站设计心得

云计算之路-阿里云上：网站故障致歉

带给你灵感的20个漂亮的单页网站设计作品

寻找网页设计灵感的27个最佳网站推荐

优秀网页设计：20佳别出心裁的国外单页网站作品

2068个开源的网站模板

『优秀作品』20个激发灵感的橙色风格网站设计

网站项目必备——12款经典的白富美型 jQuery 图片轮播插件

分享50个优秀的电子商务网站设计案例