wget 递归下载大部分网站目录

news/2024/5/18 20:54:02/文章来源:https://blog.csdn.net/weixin_46403483/article/details/107696272

引入

你有听错吗?你以为我是一个标题党吗?没有听错,我也不是标题党,方法很简单,只需要一个叫做wget的小软件(Linux、Windows可以用,MAC没用过)就可以做到了。

准备工作

先说Windows系统用户怎么获取该软件:
1、在这里下载Wget(如果英语不好请上百度搜索下载)
在这里插入图片描述

注意:在第3方下载站千万不能点击高速下载选项,不然看到许多流氓软件和广告,哭的是自己
在这里插入图片描述
2、将下载下来的wget文件复制到C:\Windows文件夹(C是系统盘符,视情况而定,一般会提示需要管理员权限,点击“继续”并在弹出的UAC窗口点击“是”即可)
在这里插入图片描述
3、运行命令提示符,输入命令wget,如果出现提示就代表步骤完成!
在这里插入图片描述
Linux系统(没用过Centos系统,所以该系统安装程序命令yum不知道怎么用,这里以Deepin为例):

sudo apt install wget

输入以上命令即可安装
返回的结果:

gfdgd_xi@gfdgd-xi-PC:~$ sudo apt install wget
[sudo] password for gfdgd_xi: 
Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following packages were automatically installed and are no longer required:cabextract python-wxgtk3.0 python-wxversion
Use 'sudo apt autoremove' to remove them.
The following NEW packages will be installed:wget
0 upgraded, 1 newly installed, 0 to remove and 0 not upgraded.
Need to get 799 kB of archives.
After this operation, 2,813 kB of additional disk space will be used.
Get:1 http://packages.deepin.com/deepin lion/main amd64 wget amd64 1.18-5+deb9u2 [799 kB]
Fetched 799 kB in 0s (804 kB/s)
Selecting previously unselected package wget.
(Reading database ... 292849 files and directories currently installed.)
Preparing to unpack .../wget_1.18-5+deb9u2_amd64.deb ...
Unpacking wget (1.18-5+deb9u2) ...
Processing triggers for install-info (6.3.0.dfsg.1-1+b2) ...
Setting up wget (1.18-5+deb9u2) ...
Processing triggers for man-db (2.7.6.1-2) ...
gfdgd_xi@gfdgd-xi-PC:~$ 

在这里插入图片描述

网页递归下载

(小提示:这里Windows系统和Linux系统输入的命令是相同的,没有很大的区别)
你可以尝试输入以下命令:

wget -m 网站链接

(可别把中文输进去哦)
这里先测试下面的命令**(注:下网站都需要很久,一般不建议执行这些测试命令)**

wget -m http://www.zgqyhsx.com.cn/

在这里插入图片描述在这里插入图片描述

下载成功:
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

但尝试以下代码时却出现了错误
(代码)

wget -m https://sx.piao5yun.com/

(提示)

C:\Users\gfdgd xi>wget -m https://sx.piao5yun.com/
--2020-07-30 20:32:30--  https://sx.piao5yun.com/
Resolving sx.piao5yun.com... 112.30.162.176
Connecting to sx.piao5yun.com|112.30.162.176|:443... connected.
ERROR: cannot verify sx.piao5yun.com's certificate, issued by `/C=US/O=DigiCert
Inc/OU=www.digicert.com/CN=Encryption Everywhere DV TLS CA - G1':Unable to locally verify the issuer's authority.
ERROR: certificate common name `img.ucdl.pp.uc.cn' doesn't match requested host
name `sx.piao5yun.com'.
To connect to sx.piao5yun.com insecurely, use `--no-check-certificate'.
Unable to establish SSL connection.
gfdgd_xi@gfdgd-xi-PC:~$ wget -m https://sx.piao5yun.com/
--2020-07-31 07:38:39--  https://sx.piao5yun.com/
Resolving sx.piao5yun.com (sx.piao5yun.com)... 183.232.159.174
Connecting to sx.piao5yun.com (sx.piao5yun.com)|183.232.159.174|:443... connected.
ERROR: The certificate of ‘sx.piao5yun.com’ is not trusted.
ERROR: The certificate of ‘sx.piao5yun.com’ has expired.
The certificate has expired
gfdgd_xi@gfdgd-xi-PC:~$ 

百度翻译的结果(语法乱也就算了,只要知道错误在哪里就可以了)

C: 用户sgfdgd xi>wget-mhttps://sx.piao5yun.com/
--2020-07-30 20:32:30--https://sx.piao5yun.com/
解析徐飘云-带着。。。112.30.162.176
正在连接到徐飘云.com.124;112.30.162.176.124;:443。。。有联系的。
错误:无法验证徐飘云.com的证书,由`/C=US/O=DigiCert颁发
公司/或www.digicert.com/CN=加密所有DV TLS CA-G1':
无法本地验证颁发者的权限。
错误:证书公用名图片.ucdl.pp。是 啊。哇哦。与请求的主机不匹配
名称​​`name徐飘云.
连接到徐飘云.com不安全,请使用“-no check certificate”。
无法建立SSL连接。
gfdgd@gfdgd xi个人电脑:$wget-m https://sx.piao5yun.com/
--2020-07-31 07:38:39--https://sx.piao5yun.com/
解析徐飘云.com网站徐飘云.com。。。183.232.159.174
正在连接到徐飘云.com网站徐飘云.com)(124183.232.159.174.124;443。。。有联系的。
错误:的证书徐飘云不被信任。
错误:的证书徐飘云.com'已过期。
证书已过期
gfdgd@gfdgd xi个人电脑~

代表网页没有安全证书,因此用浏览器访问也提示是风险网页
在这里插入图片描述


There is a problem with this website’s security certificate.
The security certificate presented by this website has expired or is not yet valid.
Security certificate problems may indicate an attempt to fool you or intercept any data you send to the server.  
We recommend that you close this webpage and do not continue to this website.  
Recommended iconClick here to close this webpage.   
Not recommended iconContinue to this website (not recommended). 
More information  More information  
•If you arrived at this page by clicking a link, check the website address in the address bar to be sure that it is the address you were expecting.
•When going to a website with an address such as https://example.com, try adding the 'www' to the address, https://www.example.com.
For more information, see "Certificate Errors" in Internet Explorer Help.
此网站的安全证书有问题。
此网站提供的安全证书已过期或尚未生效。
安全证书问题可能表示有人试图欺骗您或截获您发送到服务器的任何数据。
我们建议您关闭此网页,不要继续访问此网站。
推荐图标单击此处关闭此网页。
不推荐iconContinue to this website(不推荐)。
更多信息更多信息
•如果您通过单击某个链接到达此页面,请检查地址栏中的网站地址,以确保它是您期望的地址。
•当访问一个地址为的网站时,例如https://example.com,尝试将“www”添加到地址,https://www.example.com。
有关详细信息,请参阅Internet Explorer帮助中的“证书错误”。

在这里插入图片描述

警告:面临潜在的安全风险
Firefox 检测到问题而没有继续连接 sx.piao5yun.com。可能是该网站配置有误,或者您的计算机时钟设置有误。
很可能该网站的证书已过期,因而阻碍 Firefox 安全地连接。如果您继续访问该网站,攻击者可能尝试窃取您的密码、电子邮件或信用卡等信息。
您可以做什么?
您的计算机时钟目前设置为 2020/7/31。请确保您的计算机在系统设置中已设置了正确的日期、时间和时区,然后刷新 sx.piao5yun.com。
如果您的时钟已设置正确的时间,则此网站可能存在配置错误,您无法解决此问题。您可以向网站管理员反馈该问题。
详细了解…
报告此类错误,帮助 Mozilla 识别与拦截恶意网站

于是根据提示修改了命令

wget -m https://sx.piao5yun.com/ --no-check-certificate

在这里插入图片描述在这里插入图片描述

下载成功(只有2个文件,1个文件夹,下载不耗时间):
在这里插入图片描述在这里插入图片描述

但下载另一个网站又出现了情况:
输入了以下命令

wget -m https://www.baidu.com/ --no-check-certificate

在这里插入图片描述在这里插入图片描述

在这里插入图片描述
(就两个文件?)
上了一下要下载的百度,发现下载时被一个叫做“robots.txt”的文件给限制住了,应该改成下面的命令

wget -m -np -e robots=off http://www.baidu.com/ --no-check-certificate

于是又可以下载了
在这里插入图片描述在这里插入图片描述

在这里插入图片描述在这里插入图片描述最终总结一下语法(别把中文输进去哦):

wget -m -np -e robots=off 网页链接 --no-check-certificate

疑问

在下载部分网站时会提示403(无访问权限,如存放音乐的网址),请问各位大神如何处理,谢谢

更新情况

二更(2020年07月31日07:34:06):添加了Linux(Deepin)系统的截图

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_758281.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

精通Web Analytics 2.0 (12) 第十章:针对潜在的网站分析陷阱的最佳解决方案

精通Web Analytics 2.0 (12) 第十章:针对潜在的网站分析陷阱的最佳解决方案 精通Web Analytics 2.0 : 用户中心科学与在线统计艺术 第十章:针对潜在的网站分析陷阱的最佳解决方案 是时候去处理网站分析中最棘手的一些问题了&…

CentOS下Apache配置多网站

为什么80%的码农都做不了架构师?>>> 目前在一台服务器上搭建多个网站的方法主要由以下几种: 1、 基于IP地址 这种方法适用于一台服务器有多个IP的情况,但目前阿里云的ECS只允许绑定一个公网IP和一个私网IP,故此方法不…

01快速认识阿里云网站建设

1.网站(站点)的组成: 域名: baidu.com 程序和内容 服务器:用来存储内容 2.网站是怎么建成的 域名注册 服务器(虚拟主机)购买 域名服务器ip绑定 内容指向--提供服务 3.网站建设的注意事项 域名注意事项 免费域名 收录不好--测试使用…

大型网站架构演化(五)——数据库读写分离

网站在使用缓存后,使绝大部分数据读操作访问都可以不通过数据库就能完成,但是仍有一部分读操作(缓存访问不命中、缓存过期)和全部的写操作需要访问数据库,在网站的用户达到一定规模后,数据库因为负载压力过…

微软ASP.NET网站部署指南(4):配置项目属性

1. 综述 有些部署设置能够在项目属性里设置的,而且保持到项目文件中(.csproj或.vbproj)。大多数情况下。你都能够在Visual Studio 选择项目属性Project Properties,在属性窗体里设置这些參数。该章节将告诉你怎样设置这些參数。 …

《大型网站技术架构》读书笔记系列

一、此书到底何方神圣? 《大型网站技术架构:核心原理与案例分析》通过梳理大型网站技术发展历程,剖析大型网站技术架构模式,深入讲述大型互联网架构设计的核心原理,并通过一组典型网站技术架构设计案例,为读…

Java开发不得不了解的各种插件、工具、网站!!!

文章目录1. 前言2. IDEA 插件2.1 Alibaba Java Coding Guidelines2.2 jclasslib bytecode viewer2.3 Codota2.4 Auto filling Java call arguments2.5 GenerateO2O、 GenerateAllSetter2.6 Material Theme UI2.7 Rainbow Brackets2.8 Maven Helper2.9 FindBugs2.10 SequenceDia…

大型分布式网站架构技术总结

本文是学习大型分布式网站架构的技术总结。对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架构参考。一部分为读书笔记,一部分是个人经验总结。对大型分布式网站架构有很好的参考价值…

谈谈个人网站的建立(一)——建站历史和技术架构

首先,帮忙点击一下我的网站http://www.wenzhihuai.com/。谢谢啊,如果可以,GitHub上麻烦给个star,以后面试能讲讲这个项目,GitHub地址https://github.com/Zephery/newblog 大学的时候萌生的一个想法,就是建立…

网站图片优化的十五个原则

现在的网站大量的使用图片,那么这些图片如何优化才好呢?1)在网站设计之初,就先要做好规划,比如背景图片如何使用等等,做到心中有数。2)编辑图片的时候,要做好裁剪,之展示必要的,重要的&#xf…

网站优化之图片

图片应做成响应式、(大尺寸图片建议)使用渐进式JPEG、使用mozJPEG,tinyPNG等工具对图片进行压缩; 压缩工具: http://c7sky.com/kraken-io-image-optimizer.html 这里主要讲类似于bannner等大图优化加载问题; 压缩工具: -TinyPNG和…

网站加速技术

定义:网站加速技术是一个综合的提高网站访问速度的各种技术的总和。 静态数据:css、js、flash之类的数据,变动不大。 动态数据:从数据库查询出来的数据。 (一)页面静态化,可以从某种角度加快网站…

【网站管理5】_讲解网站后台SEO优化和如何修改关键字以及关键词布局

讲解网站后台SEO优化和如何修改关键字以及关键词布局 制作:赖忠标 QQ:392277956 1.打开后台点击左侧边上的栏目,点击最后的系统-系统基本参数-站点设置 如下图 2.上图所改处的关键词 是网站首页的关键词和描述,放在首页处…

wordpress制作独立手机端并绑定域名_【教程】手把手教你如何用Wordpress快速搭建个人网站...

上一篇文章中(【教程前言】WordPress能够为您做什么样的网站),我就跟大家描述过可以用Wordpress大家私人博客,在这篇文章中,我将详细展示如何用Wordpress创建个人博客,整个过程比你想象的更容易&#xff0c…

如何在首页只显示所有子网站的特定通知

我们设置好了在首页显示所有子网站(部门网站)的通知。但是,正常情况下,部门网站中的通知会包括发布到整个公司的通知以及本部门内部的通知。而在首页中显示的应该是针对整个公司的通知,下面我们就来进行一些设置。 在顶…

php网站中找不到指定的数据库,php找不到数据库的解决方法

php找不到数据库的解决方法发布时间:2020-08-21 14:15:38来源:亿速云阅读:79作者:小新这篇文章将为大家详细讲解有关php找不到数据库的解决方法,小编觉得挺实用的,因此分享给大家做个参考,希望大…

网站互点排名掉了网站互点排名掉了网站互点_葫芦岛seo公司关键词排名突然下降分析...

网站优化过程中,葫芦岛 发现发现有些网站会不时出现关键词百度排名忽然下降的现象,很多SEO人员肯定遇到过。很多行业的网站出现大规模洗牌之际,有站长喜有站长忧。一诺建站公司根据关键词百度排名突降几种现象进行分析及解决办法。1、原本NO.…

网页内存位置访问无效_网站访问速度慢的四大原因是什么?

很多企业的网站都是做了百度推广的,投下了大量的广告引流费用,如果网站访问速度很慢,导致网站收益不好就比较冤枉了。今天小编将会介绍几种常见的引起网站访问速度比较慢的原因。原因一:服务器配置问题服务器内存空间小&#xff0…

树莓派上的lnmp,建立网站

本篇主要记录lnmp的搭建过程&#xff0c;以及遇到的问题。 <时间:2018.2.11开始-18.3.8结束> 使用wordpress 可道云 等开源软件作为网站程序。 网站的运行环境是lnmp&#xff0c;它是 linux nginx mysql php的缩写。 注意: &#xff08; 首先: nginx安装完成后网页可以是…

初学者福音——10个最佳APP开发入门在线学习网站

2019独角兽企业重金招聘Python工程师标准>>> 根据Payscale的调查显示&#xff0c;现在的APP开发人员的年薪达到&#xff1a;$66,851。这也是为什么那么多初学的开发都想跻身到APP开发这行业的主要原因之一。每当你打开App Store时候&#xff0c;看着琳琅满目的APP&a…