java setseed,基于webmagic的种子网站爬取

news/2024/5/13 0:14:23/文章来源:https://blog.csdn.net/weixin_29473141/article/details/115997127

1. 概述

因为无聊，闲来没事做，故突发奇想，爬个种子，顺便学习爬虫。本文将介绍使用Spring/Mybatis/webmagic等框架构建项目并爬取种子磁链。

2. 项目搭建

如下图为本项目的工程结构，主要代码实现在Spider包中。

3. 数据库设计

参考众多的种子网站，找到描述种子的常用属性，如下：

4. 程序实现

1. 爬虫配置

在抓取种子之前，首先要确定所要抓取的网站地址、编码、抓取时间间隔、重试次数等信息，如下：

//设置网站源

private static String netSite="PushBT";

private Site site = Site.me().setDomain("http://www.pushbt.com")

.setCharset("UTF-8").setSleepTime(1000)//编码

.setRetryTimes(3);//重试次数

private static String BASE_URL="http://www.pushbt.com";

2. 逻辑编写

process方法是爬虫的核心接口，所有的属性抽取都在此方法中实现

@Override

public void process(Page page) {

//定义如何抽取页面信息，并保存下来

List links = page.getHtml().xpath("//table[@class='items']//tr[@class='odd']/td[2]/a/@href").all();

//将需要待爬的网页地址都存下来，以待后续从中取出

targetUrlList=StringUtil.linkURL(BASE_URL, links);

page.addTargetRequests(targetUrlList);

Seeds seed = new Seeds();

// 获取名称

String name = page.getHtml().xpath("//ul[@id='filelist']//li/span/@title").toString();

if (name==null||"".equals(name)||service.isExistByName(name)) {//名称为空，则跳过;已存在(true),则跳过

page.setSkip(true);

count++;

LOG.info("skip the "+count+" ,title : "+name);

return;

}

page.putField("name", name);

seed.setSeedName(name);

// 获取hash值(无hash值，默认为null)

//String hash = page.getHtml().xpath("//p[@class='dd desc']//b[2]/text()").toString();

page.putField("hash", null);

seed.setSeedHash(null);

// 描述(没有描述信息,则默认为名称)

//String desc = page.getHtml().xpath("//div[@class='dd filelist']/p/text()").toString();

page.putField("desc", name);

seed.setSeedDes(name);

// 文件个数

String number = page.getHtml().xpath("//ul[@class='params-cover']/li[4]/div[@class='value']/text()").toString();

page.putField("number", number);

seed.setNumber(number);

// 文件大小

String size = page.getHtml().xpath("//ul[@class='params-cover']/li[5]/div[@class='value']/text()").toString();

page.putField("size", size);

seed.setSize(size);

// 获取收录时间

String includeDate = page.getHtml().xpath("//ul[@class='params-cover']/li[2]/div[@class='value']/text()").toString();

page.putField("includeDate", includeDate);

seed.setIncludeTime(includeDate);

//最近下载时间

String recentlyDown = page.getHtml().xpath("//ul[@class='params-cover']/li[3]/div[@class='value']/text()").toString();

page.putField("recentlyDown", recentlyDown);

seed.setRecentlyDown(recentlyDown);

// 人气

String popularity = page.getHtml().xpath("//ul[@class='params-cover']/li[6]/div[@class='value']/text()").toString();

page.putField("popularity", popularity);

seed.setPopularity(popularity);

// 下载速度

//String speed = page.getHtml().xpath("//p[@class='dd desc']//b[7]/text()").toString();

page.putField("speed", SpiderUtil.getSpeed(popularity));

seed.setSpeed(SpiderUtil.getSpeed(popularity));

// 获取磁力链接

String magnet = page.getHtml().xpath("//ul[@class='params-cover']/li[9]/div[@class='value']/a/@href").toString();

page.putField("magnet", magnet);

seed.setMagnet(magnet);

// 标签(在详情页面没有tag，暂时以热门搜索为tag)

List tags = page.getHtml().xpath("//div[@class='block oh']/a/span/text()").all();

page.putField("tags", tags);

seed.setTag(tags.toString());

seed.setCreateTime(new Date());

seed.setUpdateTime(new Date());

seed.setSource(netSite);

seed.setCategory("movies");

//保存到数据库

service.insert(seed);

}

3. 其它部分编写

例子用到的其他部分代码，如MVC，数据库操作等，不是本章节的重点，所以不一一介绍了

5. 成果展示

基于webmagic的种子网站爬取

注：本文著作权归作者，由demo大师代发，拒绝转载，转载需要作者授权

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_822011.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

java setseed,基于webmagic的种子网站爬取

相关文章

外国优秀网页html,200个优秀的国外设计网站推荐

Linux-运维网站综合架构分析

java无法验证证书_如何解决“证书无效，不能用于验证本网站的身份”错误？...

HTML制作菜鸟教程网站首页

boot入门思想 spring_SpringBoot入门建站全系列（二十一）Mybatis使用乐观锁与悲观锁...

cdn对php网站的加速效果,配置七牛自定义域名cdn加速，让你的网站飞起来

360网站卫士能防服务器吗,360网站卫士测评

服务器绑定网站域名,服务器网站绑定域名

大型网站架构技术演进（史上最全）

制作网站代码_网站制作的六个流程，一个都不能少

python django 如何部署_【实战演练】Python+Django网站开发系列02-Django完整开发环境部署...

设计电子商务网站建设方案_成都婚纱摄影网站建设规划设计方案！

网站迁移到新服务器的步骤_怎样将网站迁移至云服务器？需要注意什么？

eclipse复制代码连接数据库404_什么是404页面，404页面对网站有什么影响

oracle19删除之前的主目录用户_百度搜索暂停快照删除服务，是否影响SEO优化？...

textview 大小自适应_上海自适应网站建设注意要点有哪些-回声网络

nicetool好工具_上进青年研习社丨这6个工具合集网站，抵过上百个软件！

百度小程序读取服务器数据,百度小程序如何进行异步获取网站数据

python 小说爬虫_初次尝试python爬虫，爬取小说网站的小说。

windows server 2008为什么制作的网站打不开_【U盘】小巧实用开源免费的U盘系统启动盘制作工具...