基于webmagic的种子网站爬取

news/2024/5/20 13:54:37/文章来源:https://blog.csdn.net/findhappy117/article/details/79723962

代码地址如下:
http://www.demodashi.com/demo/12175.html

1. 概述

因为无聊,闲来没事做,故突发奇想,爬个种子,顺便学习爬虫。本文将介绍使用Spring/Mybatis/webmagic等框架构建项目并爬取种子磁链。

2. 项目搭建

如下图为本项目的工程结构,主要代码实现在Spider包中。
项目结构图

3. 数据库设计

参考众多的种子网站,找到描述种子的常用属性,如下:

4. 程序实现

1. 爬虫配置

在抓取种子之前,首先要确定所要抓取的网站地址、编码、抓取时间间隔、重试次数等信息,如下:

    //设置网站源private static String netSite="PushBT";private Site site = Site.me().setDomain("http://www.pushbt.com").setCharset("UTF-8").setSleepTime(1000)//编码.setRetryTimes(3);//重试次数private static String  BASE_URL="http://www.pushbt.com";
2. 逻辑编写

process方法是爬虫的核心接口,所有的属性抽取都在此方法中实现

@Overridepublic void process(Page page) {//定义如何抽取页面信息,并保存下来List<String> links = page.getHtml().xpath("//table[@class='items']//tr[@class='odd']/td[2]/a/@href").all();//将需要待爬的网页地址都存下来,以待后续从中取出targetUrlList=StringUtil.linkURL(BASE_URL, links);page.addTargetRequests(targetUrlList);Seeds seed = new Seeds();// 获取名称String name = page.getHtml().xpath("//ul[@id='filelist']//li/span/@title").toString();if (name==null||"".equals(name)||service.isExistByName(name)) {//名称为空,则跳过;已存在(true),则跳过page.setSkip(true);count++;LOG.info("skip the "+count+" ,title : "+name);return;}page.putField("name", name);seed.setSeedName(name);// 获取hash值(无hash值,默认为null)
//      String hash = page.getHtml().xpath("//p[@class='dd desc']//b[2]/text()").toString();page.putField("hash", null);seed.setSeedHash(null);// 描述(没有描述信息,则默认为名称)
//      String desc = page.getHtml().xpath("//div[@class='dd filelist']/p/text()").toString();page.putField("desc", name);seed.setSeedDes(name);// 文件个数String number = page.getHtml().xpath("//ul[@class='params-cover']/li[4]/div[@class='value']/text()").toString();page.putField("number", number);seed.setNumber(number);// 文件大小String size = page.getHtml().xpath("//ul[@class='params-cover']/li[5]/div[@class='value']/text()").toString();page.putField("size", size);seed.setSize(size);// 获取收录时间String includeDate = page.getHtml().xpath("//ul[@class='params-cover']/li[2]/div[@class='value']/text()").toString();page.putField("includeDate", includeDate);seed.setIncludeTime(includeDate);//最近下载时间String recentlyDown = page.getHtml().xpath("//ul[@class='params-cover']/li[3]/div[@class='value']/text()").toString();page.putField("recentlyDown", recentlyDown);seed.setRecentlyDown(recentlyDown);// 人气String popularity = page.getHtml().xpath("//ul[@class='params-cover']/li[6]/div[@class='value']/text()").toString();page.putField("popularity", popularity);seed.setPopularity(popularity);// 下载速度
//      String speed = page.getHtml().xpath("//p[@class='dd desc']//b[7]/text()").toString();page.putField("speed", SpiderUtil.getSpeed(popularity));seed.setSpeed(SpiderUtil.getSpeed(popularity));// 获取磁力链接String magnet = page.getHtml().xpath("//ul[@class='params-cover']/li[9]/div[@class='value']/a/@href").toString();page.putField("magnet", magnet);seed.setMagnet(magnet);// 标签(在详情页面没有tag,暂时以热门搜索为tag)List<String> tags = page.getHtml().xpath("//div[@class='block oh']/a/span/text()").all();page.putField("tags", tags);seed.setTag(tags.toString());seed.setCreateTime(new Date());seed.setUpdateTime(new Date());seed.setSource(netSite);seed.setCategory("movies");//保存到数据库service.insert(seed);}
3. 其它部分编写

例子用到的其他部分代码,如MVC,数据库操作等,不是本章节的重点,所以不一一介绍了

5. 成果展示


基于webmagic的种子网站爬取

代码地址如下:
http://www.demodashi.com/demo/12175.html

注:本文著作权归作者,由demo大师发表,拒绝转载,转载需要作者授权

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_710658.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于React的PC网站前端架构分析

代码地址如下&#xff1a;http://www.demodashi.com/demo/12252.html 本文适合对象 有过一定开发经验的初级前端工程师&#xff1b;有过完整项目的开发经验&#xff0c;不论大小&#xff1b;对node有所了解&#xff0c;关注前端发展&#xff0c;了解所谓“大前端”的概念&…

基于Python-Flask实现的网站例子

概述 使用Flask写的体育网站 包括&#xff08;注册 论坛 文章评论 组建战队 后台管理&#xff09;等功能 示例地址文中有写 萌新 请多指教 详细 项目示例地址: 网站演示 源码下载地址&#xff1a; http://www.demodashi.com/demo/12380.html 一、环境搭建 1. 安装配置py…

Python-Flask实现基金自选网站

代码地址如下&#xff1a;http://www.demodashi.com/demo/14734.html 项目介绍 本项目的基金数据来自天天基金网&#xff0c;但该网站用户体验较差&#xff0c;内容冗余&#xff0c;故自己实现一个轻量级网站&#xff0c;从8个指标维度对股票基金和债券基金进行挑选&#xff0…

任晶磊:如何看待程序员在 GitHub 发起抗议互联网公司实行 996 工作制网站?

作者&#xff1a;任晶磊 有人说&#xff0c;此行为艺术仍然停留在抱怨的阶段。那么我们来看看出路在何方&#xff0c;所幸已有人在路上。注意&#xff0c;这里都是正在落地的干货。 Disclaimer&#xff1a;我在表达观点时会引用自己的研究工作。如果认为此有夹带私货之嫌&…

大型网站架构系列:分布式消息队列

以下是消息队列以下的大纲&#xff0c;本文主要介绍消息队列概述&#xff0c;消息队列应用场景和消息中间件示例&#xff08;电商&#xff0c;日志系统&#xff09;。 本次分享大纲 消息队列概述消息队列应用场景消息中间件示例JMS消息服务常用消息队列参考&#xff08;推荐&am…

Python网页分析,分析网站的日志数据

前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 以下文章来源于大话数据分析&#xff0c;作者&#xff1a;尚天强 网站的日志数据记录了所有Web对服务器的访问活动&#xff0c;本节通过Python第…

基于django快速开发一个网站(一)

* 创建虚拟环境、基于虚拟环境创建django2.0.0和图片加载库和mysql数据库驱动 1. 创建目录并创建虚拟环境 ╰$ mkdir Cornucopiavirtualenv ╰$ cd Cornucopiavirtualenv ╰$ virtualenv env1 2. 进入bin目录&#xff0c;并激活虚拟环境 ╰$ cd bin ╰$ source activate …

发现一个好看的手机壁纸网站,撸代码的手已经饥渴难耐了

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 最近有同学的爬虫代码出了bug&#xff0c;给问我怎么改 于是就发现了这个好看的手机壁纸网站。 看到那么多好看的壁纸&#xff0c;我的爬虫已经饥渴难耐…

浅谈web网站架构演变过程

前言我们以javaweb为例&#xff0c;来搭建一个简单的电商系统&#xff0c;看看这个系统可以如何一步步演变。该系统具备的功能&#xff1a;用户模块&#xff1a;用户注册和管理商品模块&#xff1a;商品展示和管理交易模块&#xff1a;创建交易和管理阶段一、单机构建网站网站的…

php域名墙检测,php 网站域名被墙判断请求方法

可以使用exec去进行查询判断&#xff0c;判断traceroute to 出的ip和最后追踪到的IP是否匹配&#xff0c;如果不匹配可能就被墙了。也可以有个保险的方法&#xff0c;去请求下看是否有返回数据没有基本就是墙了。查询命令方法&#xff1a;traceroute --tcp youtubemy.com[rootl…

思科模拟器企业网站服务器配置,思科模拟器服务器配置

思科模拟器服务器配置 内容精选换一换虚拟IP(Virtual IP Address&#xff0c;简称VIP)是一个未分配给真实弹性云服务器网卡的IP地址。弹性云服务器除了拥有私有IP地址外&#xff0c;还可以拥有虚拟IP地址&#xff0c;用户可以通过其中任意一个IP(私有IP/虚拟IP)访问此弹性云服务…

推荐95个极富创意的单页网站设计实例欣赏

随着网络带宽的快速提升&#xff0c;越来越多的Web视觉设计师开始将自己的网页设计推向单页面的表现形式&#xff0c;他们在不断的尝试各种令人耳目一新的设计方案&#xff0c;像下面的这些例子有很多都是出自个人网站&#xff0c;使用JavaScript来实现单页面内的内容切换&…

30 个用于杂志网站的 WordPress 主题

WordPress 已经形成了一个非常完善的生态链&#xff0c;为 WordPress 开发的各种插件、主题越来越丰富。本文介绍 30 个适用于杂志网站使用的 WordPress 主题&#xff0c;其中也包含一些收费的主题&#xff0c;制作非常精美。 免费的 WordPress 杂志主题 Snips DotNews Render …

网站安全检测 Web 安全测试工具

随着 Web 应用越来越广泛&#xff0c;Web 安全威胁日益凸显。黑客利用网站操作系统的漏洞和 Web 服务程序的 SQL 注入漏洞等得到Web服务器的控制权限&#xff0c;轻则篡改网页内容&#xff0c;重则窃取重要内部数据&#xff0c;更为严重的则是在网页中植入恶意代码&#xff0c;…

SharePoint 2010设计(Design)权限能操作的网站操作菜单项

在SharePoint平台中有经典的5大权限&#xff1a;完全控制、设计、参与讨论、只读、仅查看。其中设计权限与完全控制权限有些相似&#xff0c;而只读和仅查看基本上差不多&#xff0c;参与讨论权限主要是针对内容管理的。设计权限在SharePoint 2010里是不能设置权限的&#xff0…

ubuntu服务器网站备份,用 Ubuntu 建立 Time Machine 备份服务器

用 Ubuntu 建立 Time Machine 备份服务器&#xff1a;1、安装 Netatalksudo apt-get install netatalk2、设置 Time Machine 备份文件存放位置, 假设位置在 /backup/TimeMachinesudo vi /etc/netatak/AppleVolumes.default#~/ "Home Directory"/backup/TimeMachine &…

arcgis制作瓦片地图_挖掘Dark Sky Maps(热的要死后,疯传的一个气温地图网站)...

最近&#xff0c;各种朋友圈&#xff0c;社会媒体&#xff0c;都在疯传一张图&#xff0c;这张图显示的全球的气温图&#xff0c;本没有什么特别的&#xff0c;但是这张图的网站来源所展示的数据与气象局或者各种天气预报的温度值相差倒是不少&#xff0c;引来一片网友的吐槽。…

django 跳转其他网站_Django 实战 | 搭一个 GitHub 用户展示网站 04

一、搜索页面跳转在 urls.py 中添加一个 user 路径&#xff1a;from django.urls import path from . import viewsurlpatterns [path(, views.home, name"home"),path(user/, views.user, name"user"), ]在 views.py 中添加一个 user 方法&#xff1a;de…

使用LogParser分析IIS网站日志

LogParser是个强大的&#xff0c;多功能的分析工具&#xff0c;它统一的查询方式适用于各种文本类型文件&#xff08;例如日志文件&#xff0c;XML文件&#xff0c;CSV文件&#xff09;和操作系统层面数据文件&#xff08;例如事件日志&#xff0c;注册表&#xff0c;文件系统&…

Webydo:一款在线自由创建网站的 Web 应用

Webydo 是一款专业的在线建站应用&#xff0c;使平面设计师可以创建和管理 HTML 网站&#xff0c;而无需编写代码。设计人员可以设计任何类型网站&#xff0c;只需要点击按钮&#xff0c;就能够发布先进的 HTML 网站。 你可以控制所有的设计组件&#xff0c;如&#xff1a;元素…