克隆网站工具_一款开源且超好用的网站克隆机 HTTrack

news/2024/5/21 18:46:31/文章来源:https://blog.csdn.net/weixin_39952190/article/details/111363630

a98bdf7939b668073bf7a84400d061bc.png

0x00 前言

我们在学习前端的时候,总是会想着去学习其他人网站是如何制作的,或者我们遇到一些比较有用的知识点的时候,我们可能会选择通过 Ctrl + C / Ctrl + V 去扒下内容,然而我并非是鼓励这种扒网站的行为,不过只要是开源的,不用于商业用途,我觉得大家都可以相互借鉴一下的啦,毕竟重复造轮子的事情就是在浪费时间。而通过 Ctrl + C / Ctrl + V 这种方式过于麻烦,并且现在的图片基本上都有防盗链了,或者路径由图床改成了本地的相对路径,单纯的复制粘贴很难把网站的相关内容扒的干净,于是我们有了如下的思考:如何才能将一个网站的内容完整的 clone 下来呢?

初学的时候,我们通过 view-source:https://xxx.xxx.xxx 这种方式查看网页的源代码,新建一个 index.html 文件,然后将内容复制粘贴到 index.html 内容中,或者直接 wget 下来也是可以的。但就像我上面说的那样,没有办法完整的拷贝网页上的全部内容。随着学习的深入,了解到了 python 爬虫的时候,有过这种实例,但是在实现效果上并不是那么友好。

随着学习的进一步深入,有了专门针对网站克隆的软件,如 WebZipawwwb.com 等等,据说挺好用的,咱也没试过,咱也不确定啊(多年不用 Windows )。今天我给大家介绍一款开源且超好用的网站克隆机 httrack

0x01 什么是 HTTrack?

HTTrack 是一个免费并易于使用的线下浏览器工具,全称是 HTTrack Website Copier for Windows,它能够让你从互联网上下载指定的网站进行线下浏览(离线浏览),也可以用来收集信息(甚至有网站使用隐藏的密码文件),一些仿真度极高的伪网站(为了骗取用户密码),也是使用类似工具做的。浏览线下站点和线上并没有什么不同。

HTTrack 同样可以进行线下线上站点同步,支持断点续传。HTTrack 是一个可全面配置并包括全面的帮助系统的工具。对于传统的像存在 Robots.txt 的网站,如果程序运行的时候不做限制,在默认的环境下程序不会把网站镜像,简单来说 HTTPrack 跟随基本的 JavaScript 或者 APPLet、flash 中的链接,对于复杂的链接(使用函数和表达式创建的链接)或者服务器端的 ImageMap 则不能镜像。一般不用挖的太深就能获取目标信息比如网站的物理地址,电话号码,电子邮箱地址,运营时间,商业关系,员工的姓名,与社会关系,以及公开的一些花絮。做渗透测试时新闻其实也很重要,公司时常会公开一些自己感到骄傲的事情,这些报到中可能会泄露有用的信息,企业兼并服务器运转的情况等等。

用 Httrack 可以将一个网站拷贝下来,以此进行下线的探测发现,以此减少对目标网站的直接交互。Httrack 的使用很简单,只需要根据其向导按步骤进行就好了。

HTTrack 已经被预安装在以下 Linux 系统中:

  • BackBox Linux
  • Kali Linux
  • Pentoo
  • SamuraiWTF
  • BlackArch

如没有可以自行参考以下的安装方式进行下载安装。

0x02 HTTrack 的安装和使用

HTTrack 支持 Windows、Linux 和 MacOS 等主流的操作系统,且针对 Windows 而言,HTTrack 有可视化界面的支持,效果如下:

abe841a19cf480b3b2b33a6b1dfde6dd.png

最新版的 HTTrack 可以通过以下方式进行下载使用。

Windows 下安装:

通过 http://www.httrack.com/page/2/en/index.html,Download 下载对应的版本即可。

Linux 下安装:

# Debian/Ubuntu下安装
sudo apt install httrack
# CentOS/Fedora下安装
sudo yum install httrack
# Gentoo下安装
sudo emerge httrack

Mac OSX 下安装:

sudo port install httrack
# 或者
brew install httrack

直接通过源码编译下安装:

git clone https://github.com/xroche/httrack.git --recurse
cd httrack
./configure --prefix=$HOME/usr && make -j8 && make install

具体参考:http://www.httrack.com/page/2/en/index.html

常用的参数选项可以通过 httrack --help 查看。

0x03 克隆网站站点演示

环境准备

  • Mac OSX 10.11
  • httrack 工具

下面我以某一测试站点 https://progit.bootcss.com/ 为例,来演示其操作过程。

克隆过程

1、httrack 进入操作界面

在安装好 httrack 的 Mac OSX 10.11 的系统中,打开 shell 终端,直接输入 httrack 即可。

2、输入必要的信息

接下来我们要填入如下相关信息:

Welcome to HTTrack Website Copier (Offline Browser) 3.49-2
Copyright (C) 1998-2017 Xavier Roche and other contributors
To see the option list, enter a blank line or try httrack --help
# 1. 输入待生成的项目名称
Enter project name :progit
# 2. 输入待保存的项目所在的路径
Base path (return=/Users/apple/websites/) :/Users/apple/Desktop
# 3. 输入需要克隆的网站的 url
Enter URLs (separated by commas or blank spaces) :https://progit.bootcss.com/Action:
(enter)    1   Mirror Web Site(s)2   Mirror Web Site(s) with Wizard3   Just Get Files Indicated4   Mirror ALL links in URLs (Multiple Mirror)5   Test Links In URLs (Bookmark Test)0   Quit
:
# 4. 没有特别要求直接回车即可
Proxy (return=none) :You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
# 5. 没有特别要求直接回车即可
Wildcards (return=none) :You can define additional options, such as recurse level (-r<number>), separated by blank spaces
To see the option list, type help
# 6. 没有特别要求直接回车即可
Additional options (return=none) :---> Wizard command line: httrack https://progit.bootcss.com/  -O "/Users/apple/Desktop/progit"  -%vReady to launch the mirror? (Y/n) :YMirror launched on Thu, 15 Aug 2019 11:54:40 by HTTrack Website Copier/3.49-2 [XR&CO'2014]
mirroring https://progit.bootcss.com/ with the wizard help..
Done.
Thanks for using HTTrack!
*

3、完成克隆

克隆效果如下:

81add961493cc122eebcf9dc8964c293.png

40a7c55472485d643dadbf82d30039d8.png

克隆下来的网页几乎与原网站毫无差别,效果超级的 nice。

也可以通过查看 help 选项采用不同的选项方式进行克隆。

镜像下来的网页可以在离线的方式,进行渗透分析,传统的在网站主机上浏览网页,你浏览的和摸索的时间越多,活动可能被网站跟踪,哪怕是随意的浏览网站,也会被记录踪迹,只要属于目标资源,任何时候与之直接交互,都可能留下数字痕迹。

但是,在没有进行授权的时候千万不要使用该软件进行镜像网站上的网页,像部署了安全狗或者其他防火墙的专业软件可能会记录这种行为为攻击性质。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_761754.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jmter接口网站压力测试工具使用记录

1.首先下载Jmeter 官方地址&#xff1a;http://jmeter.apache.org/ 2.安装Jmeter 把下载的文件进行解压&#xff0c;产生如下目录&#xff1a;打开bin文件夹下的jmeter.bat文件及进入程序的主界面窗体jmeter.log是日志文件。主意&#xff1a;需要配置java环境。3.jmter创建一个…

(大型网站之Nginx)图解正向代理、反向代理、透明代理

一、正向代理(Forward Proxy)一般情况下&#xff0c;如果没有特别说明&#xff0c;代理技术默认说的是正向代理技术。关于正向代理的概念如下&#xff1a; 正向代理(forward)是一个位于客户端【用户A】和原始服务器(origin server)【服务器B】之间的服务器【代理服务器Z】&…

从零开始建站(二) - 数据库与项目规划

简介&#xff1a; 这节来介绍个人网站项目的数据库字段选择与项目整体的规划&#xff0c;上一节讲了准备工作和环境搭建&#xff0c;就好比建一栋大楼&#xff0c;上节我们把材料买齐了&#xff0c;地基打好了&#xff0c;然后我们这节就是来思考一下我们要怎样利用这些材料&am…

vc++使用cookie登录网站

以http://www.idc816.com为例 效果图: 1&#xff09;先登录获取cookie,再使用cookie获取用户信息 2)记录cookie,关闭程序后重新运行程序&#xff0c;直接获取用户信息 使用Fiddler抓包分析: 由于IWinHttpRequest对象会自动处理302跳转&#xff0c;但是服务器返回的cookie&#…

微信打开网站被提示已停止访问该网页该如何解决

2019独角兽企业重金招聘Python工程师标准>>> 今天早晨发现我们公司网站只要在微信和qq中打开&#xff0c;分别被微信提示&#xff1a;已停止访问该网页&#xff0c;该网站链接以及在qq上被提示危险网站&#xff0c;千万别访问,首先先看下微信中打开网址被微信拦截并…

大型网站技术架构(四)网站的高性能架构

2019独角兽企业重金招聘Python工程师标准>>> 网站性能是客观的指标&#xff0c;可以具体体现到响应时间、吞吐量、并发数、性能计数器等技术指标。 1、性能测试指标 1.1 响应时间 指应用执行一个操作需要的时间&#xff0c;指从发出请求到最后收到响应数据所需要的时…

大型网站技术架构(七)网站的可扩展性架构

2019独角兽企业重金招聘Python工程师标准>>> 扩展性是指对现有系统影响最小的情况下&#xff0c;系统功能可持续扩展或提升的能力。 设计网站可扩展架构的核心思想是模块化&#xff0c;并在此基础上&#xff0c;降低模块间的耦合性&#xff0c;提供模块的复用性。模…

电商网站模板_企业商城解决方案:微购物商城网站怎么做

随着互联网电商的发展&#xff0c;微购物商城也开始流行起来。这种商城网站可以避免商家被电商平台抽佣&#xff0c;商家自己也无需缴纳高额推广费&#xff0c;可以节约不少成本。如何做好一个购物商城网站&#xff1f;至少要保证这几点&#xff1a;1.用美观的建站系统千万不要…

配置侧边栏_用Python制作网站Django实操与开发环境配置

上篇文章简单介绍了Django的基础知识&#xff0c;本篇将进入实际操作部分&#xff0c;包括Django的运行环境、开发环境配置与新建项目等内容。由于篇幅原因&#xff0c;笔者不得不把Demo演示放到下一篇文章&#xff0c;望读者(如果有的话)见谅。笔者曾有过一句感叹&#xff1a;…

html怎么快速收录,5个小技巧让你的网站快速被收录

网站文章收录的越快&#xff0c;意味着网站的搜索引擎关注度越高&#xff0c;那如何快速的提高网站收录呢?今天就来讲一讲搜索引擎收录的小技巧。1、优化网站布局任何一个网站&#xff0c;不管是个人网站、企业网站还是门户网站&#xff0c;建站之时首先要确定的就是网站的整体…

Vue + Spring Boot从零开始搭建个人网站(一) 之 项目前端Vue.js环境搭建

前言&#xff1a; 最近在考虑搭建个人网站&#xff0c;想了想决定采用前后端分离模式 前端使用Vue&#xff0c;负责接收数据 后端使用Spring Boot&#xff0c;负责提供前端需要的API 就这样开启了我边学习边实践之旅 Vue环境搭建步骤&#xff1a; 1、安装node.js a)进入node.js…

记一次网站架构的搭建

文章目录节点规划主机名、防火墙、时钟源设置NFS配置配置nginx配置LVS配置php配置tomcat数据库配置配置MHAredis配置session会话共享配置思路&#xff1a; lvskeepalived实现四层负载均衡nginx做七层负载均衡和反向代理nfs做静态资源异地容灾tomcatphp做后端动态页面解析mysql…

[转载]网站建设公司赚钱的案例分析

去年年底我写过一篇文章《网站建设公司不挣钱的原因》&#xff0c;当时还罗列过很多不挣钱原因以及建议。现在我想用托尔斯泰的一句话&#xff1a;“赚钱的公司都是一样的&#xff0c;不赚钱的公司各有各的问题”。就在今年&#xff0c;2013年&#xff0c;遇到了一个建站公司的…

shell 获取gcc版本_网站漏洞修复对WordPress 致命漏洞注入shell

2019年8月刚开始&#xff0c;WordPress最新版本存在远程代码注入获取SHELL漏洞&#xff0c;该网站漏洞影响的版本是wordpress5.0.0&#xff0c;漏洞的产生是因为image模块导致的&#xff0c;因为代码里可以进行获取目录权限&#xff0c;以及文件包含功能&#xff0c;导致远程代…

html5多个图片位置_为什么你的网站那么慢?本篇将带你掌握前端HTML5性能优化的技巧...

点击上方 关注订阅黑码教主获取更多精彩内容性能之前端篇循环优化在多重嵌套循环的程序上&#xff0c;如果能分出出多个独立循环也比嵌套在一个循环体内来的更有益。优化循环的3种方式&#xff1a;减少每次迭代的开销、减少迭代的次数或者重新设计应用程序。在测试的时候仅可能…

django网站实例源码_以Django框架为例,搞清楚ORM是什么

ORM 的完整英文名称是&#xff1a;Object-Relation Mapping&#xff0c;翻译成中文就是&#xff1a;对象-关系映射。数据持久化当我们使用Django开发网站时&#xff0c;很重要的一件工作就是要把用户的数据保存起来&#xff0c;例如用户名、密码还有用户的文章等等内容&#xf…

scratch角色素材网站_和京京一起scratch编程--基础篇-背景-声音

“ 纸上得来终觉浅&#xff0c;绝知此事要躬行。”小马过河&#xff0c;是我小学二年级学过的一篇语文。这么多年来&#xff0c;我对该内容印象深刻&#xff0c;就像昨天刚学过一样。其文寓意切合我们本文的主题--纸上得来终觉浅&#xff0c;绝知此事要躬行。01—背景-声音天对…

锚文本链接用html怎么做,SEO网站链接怎么做 简单几步来教你做锚文本链接

1、打开Dreamweaver&#xff0c;找到选项来设置超链接&#xff0c;进行设置&#xff1b;2、点超链接设置后&#xff0c;会出现一个对话框&#xff0c;显示要设置的链接&#xff1b;3、两个链接都制作成功后&#xff0c;可以稍加修改&#xff0c;使网页更好看些&#xff0c;在两…

中大型企业都在什么网站招聘_为什么中小企业必须对大型企业采用不同的分析方法

中大型企业都在什么网站招聘Many people during lockdown have taken to learning new skills, and a popular one is data science. The only problem is that often these are courses based on methods used by big companies and thus aren’t practical for SME’s (Small…

七个鲜为人知的搜索网站_5个鲜为人知的python库,可改善您的数据科学工作流程

七个鲜为人知的搜索网站“A star does not compete with other stars around it; it just shines.”― Matshona Dhliwayo“一颗恒星不会与周围的其他恒星竞争&#xff1b; 它只是发光。”- Matshona Dhliwayo Python is by far the most popular programming language in the …