java heritrix_「heritrix」开源爬虫: Heritrix 3.1 Windows 上安装/使用 - seo实验室

news/2024/5/20 20:39:43/文章来源:https://blog.csdn.net/weixin_39959236/article/details/114456638

heritrix

目前 Heritrix 的最新版本是 3.1.0(2011-10-21 发布)

http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html

讲了 1.14.4 版本的安装和使用

http://blog.sina.com.cn/s/blog_5f54f0be0101hcyd.html

讲了如何扩展 1.14.4 版本其中的模块

本文讲如何安装和使用 Heritrix 最新的 3.1.0 版

下载:

http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/

首先在 Eclipse 中新建 java 工程 MyHeritrix3。然后利用下载的源代码包根据以下步骤来配置这个工程。

1. 导入类库

Heritrix 所用到的工具类库都在 heritrix-3.1.0-dist.zip 的 \lib 目录下,需要将其导入 MyHeritrix3 工程。

1)将 heritrix-3.1.0-dist 下的 lib 文件夹拷贝到 MyHeritrix3 项目根目录;

2)在 MyHeritrix3 工程上右键单击选择“build Path -> configure Build Path …”,然后选择 Library 选项卡,单击“Add JARs …”。

3)在弹出的“JAR Selection”对话框中选择 MyHeritrix3 工程 lib 文件夹下所有的 jar 文件,然后点击 OK 按钮。

2. 拷贝源代码

将 heritrix-3.1.0\engine\src\main\java 添加到Eclipse的src目录,以及:heritrix-3.1.0\commons\src\main\java 目录 和 heritrix-3.1.0\modules\src\main\java 目录。

这样你就可以删除heritrix-commons-3.1.0.jar,heritrix-engine-3.1.0.jar,heritrix-modules-3.1.0.jar三个包的引用,直接使用源代码运行。

3、运行Heritrix 3.1

在 MyHeritrix 工程上右键单击选择“Run As -> Run configurations”,选择 Java APPlication, 确保 Main 选项卡中的 Project 和 Main class 选项内容正确,其中的 Name 参数可以设置为任何方便识别的名字。

在 argument 项中设置启动参数-a admin:admin(输入启动账号),如下图:

ac918c4ac2fc5279919bc2e0af45c09f.gif

然后运行Heritrix.java,如果一切正常, eclipse 运行结果如图:

ac918c4ac2fc5279919bc2e0af45c09f.gif

可以看到程序已经在 8443 端口运行.

你可以通过:https://localhost:8443 访问Heritrix 3.1的管理端。要注意是 https , 不是 http

打开页面后会提示输入用户名和密码,输入 admin, admin

4、建立和配置抓取任务

登录管理控制台(用户名admin密码admin),在管理界面首页找到如下图这个位置:

ac918c4ac2fc5279919bc2e0af45c09f.gif

输入一个名称(如 test),然后点击“Create”按钮。

这时候根据默认模版生成了一个抓取任务,但还不能抓取任何东西,我们需要通过配置文件的修改告诉服务器,我们要抓取什么。

在管理控制台的Job Directories中选择要配置的job(下图中myjob)

ac918c4ac2fc5279919bc2e0af45c09f.gif

点击 myjob, 进入myjob的管理界面,如下图:

ac918c4ac2fc5279919bc2e0af45c09f.gif

点击 edit 按钮,开始编辑配置文件,配置需要修改的地方如下图所示,先从简单的做起:

ac918c4ac2fc5279919bc2e0af45c09f.gif

配置1和3的配置内容是一样的,operatorContactUrl写成 http://localhost, jobName和description随便写点东西即可。

配置2则是配置搜索种子网站的列表,我这里先写了一个http://www.sina.com.cn,先抓取新浪网站试试。

点击最上面的“Save changes"保存所有的配置文件。

这三个地方配置好就可以运行这个抓取任务试试了。

这时候需要执行如下操作(回到myjob的配置界面),让任务运行起来:

1)点击“build”编译当前的配置。

2)点击“launch”按钮运行当前任务至挂起状态,如果job已经运行,则先点击“teardown”按钮;

3)这时任务处于挂起状态,点击“unpause”即立即启动任务。

如果系统正常运行,会有如下类似提示信息:

ac918c4ac2fc5279919bc2e0af45c09f.gif

在项目的jobs\test\20131226062239\warcs目录下有一个逐步增大的文件,这就是抓取下来的网页。

如果要看到每个抓取的页面,可以将配置文件的warcWriter这个bean的class改为org.archive.modules.writer.MirrorWriterProcessor,这样就下载的网页是以镜像文件的形式保存在,一般存放在项目根目录下的mirror目录下。

这种方式是较刻板的.因为它是直接将warcWriter bean 的 class 改了,但里面的属性还是之前类的。如果把属性的注释打开,会报错,因为 MirrorWriterProcessor 没有那些 property, 所以最好是自己再定义一个 bean. 然后在配置中引用它:

ac918c4ac2fc5279919bc2e0af45c09f.gif

定义上面三个 bean. 然后再在 dispositionProcessors 中将 processors 的引用改成 mirrorWriter:

ac918c4ac2fc5279919bc2e0af45c09f.gif

转载至:http://blog.sina.com.cn/s/blog_5f54f0be0101hcyt.html

相关阅读

链接:https://pan.baidu.com/s/1-QCBrj8iz_HWd2LV2PIi1g提取码:zewv

1、下载解压,得到edraw max 9.1中文原程序和注册机文件;2、首先

我们都知道在Mac上不能直接安装IE浏览器,如果要在Mac上使用IE浏览器,网上也有很多方法,比如安装虚拟机、通过安装 CrossOver或使用w

一:Yum 简介

Yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及CentOS中的Shell前端软件包管理器。基于RPM包管

使用浏览器打开地址: http://[Server-IP]/zabbix可能会出现白屏幕,查看/var/log/httpd/error_log文件,发现如下错误:Call t

1.我这里用的python3.7环境的,直接用pip就可以安装frida

2.查看内核

根据cpu版本去下载相应frida-server,然后去下载https://gith

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_795692.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

75款响应式国外漂亮网站建设中模板(上线倒计时模板)

一些关于国外漂亮网站建设中模板,希望大家能使用得上,大家喜欢就点个赞吧。 1、 【网站开通中】黑夜飘雪背景响应式网页倒计时模板 大小:2.09 MB 下载地址:http://www.177347.com/view-105-31847-0.html 2、 【网站计划实现中…

asp php都支持的主机,Asp虚拟主机与php主机有什么区别?Asp虚拟主机适合哪些网站?...

购买过虚拟主机的朋友应该都知道,在我们选择主机方案时,一般主机商都会问我们选择PHP语言,还是ASP语言。那么,这两者之间到底有啥区别呢?Asp虚拟主机与php主机的区别其实,PHP和ASP是两种动态语言&#xff0…

c语言课设代写一般多少钱_SEO代写1000字文章要多少钱?什么价格才算合理?

如题,不单单是SEO代写文章这一块价钱千差万别,其他产品亦是如此。SEO代写报价影响因素很多,以价格区间去衡量合不合理,其实是不公平的。偏锋文章代写报价因为文章发布地址、用途、目的等各种要求的不同,价格也不同。下…

利用其他网站的搜索结果_网站SEO优化知识分享 - 最蜘蛛池出租

原出处:最蜘蛛池原文链接:网站SEO优化知识分享 - 最蜘蛛池1、内容相关性搜索引擎会努力为搜索者的问题提供最相关的结果。具体如何提供搜索结果,不同的搜索引擎有自己不同的内部算法,难以真正确定,但有几项因素肯定会影…

可以发外链的网站_守护袁昆:网站营销运营到底哪里可以发外链?

(文/守护袁昆)对于网站运营者来说网络营销推广比较难做,大多数朋友选择做网站SEO优化,然而SEO优化中外链怎么发的问题却难倒了9成9的从业者。SEO优化到底哪里可以发外链?极少数部分网站是可以发布外链的,但基本上网站收录慢、流量…

linux i2c 传输详解,I2C基础知识_Linux编程_Linux公社-Linux系统门户网站

常识两条总线线路:串行数据总线SDA,串行时钟总线SCL每个连接到总线的器件都有唯一的地址供其他设备寻址每个连接到总线的器件都可以作为发送器和接收器是多主机总线,如果两个或更多主机同时初始化,数据传输可以通过重提检测和仲裁防止数据被破…

服务器上iis7.0的网站架设,如何在iis 7.0配置网站 iis上搭建网站具体图文教程

一个网站需要程序,域名,空间。这本是三个独立产品,如何把他们关联起来,形成我们可以正常访问网站呢?下面就来讲讲如何在iis上,搭建网站。以下实例是在window 2008 server上安装iis 7.0,搭建.net…

php代码统计,php+memcache实现的网站在线人数统计代码

这篇文章主要介绍了phpmemcache实现的网站在线人数统计代码,代码例子简洁实用,需要的朋友可以参考下今天闲来无事,想在博客统计中显示在线人数。在网上找了好多例子,不是数据库存储数据就是文件存储,代码也看起来过于复杂。晚上回来后&#x…

linux下运行hadoop,安装并运行Hadoop - 如何在Linux上安装与配置Hadoop?_服务器应用_Linux公社-Linux系统门户网站...

三、安装并运行Hadoop介绍Hadoop的安装之前,先介绍一下Hadoop对各个节点的角色定义。Hadoop分别从三个角度将主机划分为两种角色。第一,划分为master和slave,即主人与奴隶;第二,从HDFS的角度,将主机划分为NameNode和Da…

聊聊自学,让你事半功倍的学习网站和工具

上学那会儿,我们有大量的业余时间,去做自己想做的事情,幸福且充实。 上大学后,有个明显的感受是:很多知识都要靠自学,才能掌握。 我大学本身自动化专业,学得了强电玩得了弱点,做得…

BAT等大型互联网公司的网站架构演化历程

大型网站系统的特点 高并发,大流量 需要面对高并发用户,大流量访问。Google 日均 PV 35 亿,日 IP 访问数 3 亿;腾讯 QQ 的最大在线用户数 1.4 亿(2011年数据)。 高可用 系统 7 x 24 小时不间断服务。 海量数…

一个高逼格开发者必须理解的大型分布式网站的几点概念

本文部分来自网络大牛总结,本人只是技术的搬运工,欢迎转发,如果感觉那里归纳的不足可以在评论区发表自己的看法1. I/O优化增加缓存,减少磁盘的访问次数。优化磁盘的管理系统,设计最优的磁盘方式策略,以及磁…

每分钟访问10万+,11种策略教你保持亿级流量网站稳定性!

稳定性在大型网站运行中至关重要,面对每分钟 10 万次的网络访问,稍有不慎就会引起重大故障。今天这篇文章一起讨论下亿级流量网站在稳定性方面的一些做法,希望对您有帮助。 基础策略 配置化 配置化就是把很多业务流程相关的数据统一放在一个配…

iOS 开发-教大家如何使用github客户端上传自己的代码到github网站

首先,博主使用的是mac版本的 直接去githubDesktop上下载最新版本就好了,下载好,点击安装,会提示你是否添加到Application里面,这个随意啦,就是说添加到finder下的应用中。 打开github客户端&#xff0c…

数据分析、数据挖掘、算法工程师、大数据分析师的区别是什么?爬招聘网站用数据来全方位分析

大数据行业经过几年的发展和沉淀,大数据项目岗位细分领域已经趋于完善,本文主要探讨在大数据分析这个领域,通过爬虫爬取各个招聘网站的相关数据,对细分岗位进行深入分析,本文的呈现,感谢科多大数据数据分析…

windows渗透网站就是这么简单(工具1)

具体视频链接:工具1视频链接 由于一些涉及他人电脑分线详细请联系QQ:1184159966;测试网址:测试网址;扫描样例:

html上中下布局关键字,HTML中关键字SEO优化布局位置

站长或是SEOer都应该很清楚,网站关键词的寻找、分析与确定是seo优化流程重要步骤。如何把关键词按照页面区域重要区域的分布规律合理的布置到页面中也是很重要步骤,下面来着重看下整个网页中的关键词分布的位置。页面的title标签中出现关键词布局位置&am…

网站目录禁止执行php,htaccess如何禁止目录执行php方法

htaccess禁止目录执行php的方法:首先在要禁止的目录下新建一个htaccess文件;然后输入内容为“php_flag engine off”并保存即可。.htaccess禁止目录执行php方法系统:centos 5.9环境:lampapache禁止后缀的方法:这里就只演示下怎么禁止php执行,其他的稍微简…

Java版商城:Spring Cloud+SpringBoot b2b2c电子商务平台,多商家入驻、直播带货及免 费 小程序商城搭建

随着互联网的快速发展,越来越多的企业开始注重数字化转型,以提升自身的竞争力和运营效率。在这个背景下,鸿鹄云商SAAS云产品应运而生,为企业提供了一种简单、高效、安全的数字化解决方案。 鸿鹄云商SAAS云产品是一种基于云计算的软…

三个故事,谈谈小米汽车技术发布会

都说新年新气象,随着年末消费旺季到来,汽车市场越来越热闹了。 继蔚来12月23日公布旗舰车型ET9,华为26日发布问界M9,小米汽车首款量产车型SU7终于正式亮相。 12月28日,在小米汽车技术发布会上,小米创办人…