[1line]用wget镜像网站

news/2024/5/16 8:11:25/文章来源:https://blog.csdn.net/weixin_34014555/article/details/92579929

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

最近收藏了一些老站点,是那些很久不更新,但是又有很多资源的站。

光是收藏感觉还不靠谱,谁知道哪天她们就突然消失了,所以决定镜像一下。


比如我要镜像www.oschina.net,oneline:

wget -c -m -k -np -p -w 10 --random-wait --waitretry=5 http://www.oschina.net/
解释一下:

-c --continue的意思,简单来说就是续传

-m --mirror的意思,专门用来做镜像用的

-k --convert-links,转换镜像中的链接,把可能的链接都转换成本地相对链接,方便本地浏览

-np --no-parent,不处理父亲目录

-p --page-requisites,wget会把显示一个html页面的所有元素都下载下来,包括图片、声音、样式表等

-w --wait,在做镜像的时候推荐加上--wait,这样相邻两次请求之间会隔上指定的时间,不会对服务器造成太多的负担

--random-wait, 和--wait配合使用,可以将请求间的等待时间一定范围内随机话;也可以避过站点的日志分析

--waitretry,当一个请求失败时,wget会再次请求,直到到达指定的次数

如果从浏览器中可以访问某个站点,但是在wget的时候返回“HTTP request sent, awaiting response... 403 Forbidden”,此时需要用-U(--user-agent)来改变wget的"User-Agent"字段。

可以用nc来获取浏览器的信息,执行下面的命令:

nc -l 8000

打开浏览器(我用的是chrome),访问http://localhost:8000,查看nc的输出:

GET / HTTP/1.1
Host: localhost:8000
Connection: keep-alive
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.101 Safari/537.11
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip,deflate,sdch
Accept-Language: en-US,en;q=0.8
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3

User-Agent:字段就是我们要的。

所以最终的命令是:

wget -U "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.101 Safari/537.11" -c -m -k -np -p -w 10 --random-wait --waitretry=5 http://www.oschina.net/
大功告成,接下来是漫长的等待……


更新:

如果网站结构层次较多,有可能发现down下来的网站缺少文件,这个时候可以试下-l depth(--level=depth)来指定最大遍历层数,默认是5层。

转载于:https://my.oschina.net/luckykiddie/blog/99190

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_814356.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

恶意软件如何通过网站感染用户

2019独角兽企业重金招聘Python工程师标准>>> Google 宣布,每天有 9,500 个感染了恶意软件的网站有可能会损害网站的访问者。了解恶意软件如何感染网站以及如何防止这样的感染有助于保证您的访问者的计算机不受恶意软件侵扰。 多年来,恶意软件…

基于网页自动化Selenium IDE的安装与部署 图书馆选座、网站防休眠、自动点击等

基于网页自动化Selenium IDE的安装与部署一. Selenium IDE的简介、安装与使用1. 什么是Selenium IDE?2. Selenium IDE的安装和使用3. 导出内容的分析二. 服务器端的相关部署1. python环境的部署2. 安装浏览器3. 安装selenium环境4. 安装selenium时可能遇到的问题三. 服务器端网…

收录最好的网站是哪个?

全网都在找:百度排名哪个网站做得最好,20年的优化技术告诉你怎么做排名_如今关键词优化已经成为了大部分站长提高网站排名的方法,能够让更多的用户通过关键词进入到网站,然后了解企业及企业的产品或服务,从而促进交易&…

百度快速收录服务(新网站长期不收录都可以优化)

2周多的测试,快速收录能达到85%以上做到百度收录,基本都是第二天收录。不收录全额退款,欢迎联系。 目前开通百度快速收录权限,只能通过百度小程序方式获取,目前获取要求是:站点关联智能小程序,成…

你的网站或许不需要前端构建

本文使用「署名 4.0 国际 (CC BY 4.0)」许可协议,欢迎转载、或重新修改使用,但需要注明来源。 署名 4.0 国际 (CC BY 4.0) 本文作者: 苏洋 创建时间: 2019年05月27日 统计字数: 8760字 阅读时间: 18分钟阅读 本文链接: https://soulteary.com/2019/05/…

独立官网建设SEO优化指南,刚学搭建卖家商城网页也能获取免费流量

独立官网建设SEO优化指南,新手搭建卖家商城网页也能获取免费流量! 大家好,欢迎观看USB自建站平台跨境电商讲堂,今天这期视频主要内容就是来分享独立这样的CEO优化指南,可能很多卖家会觉得店铺或者网站已经做了Faceboo…

织梦程序的网站文章可以一键迁移到人人站吗?

织梦程序的网站文章可以一键迁移到人人站吗? 织梦转人人站 - 模板数据无缝对接(增强版) 一键将织梦内容转移到人人站,一键转移织梦模版到人人站。 安装使用和原转移插件一致,详情查看: 任意安装一套人人…

SEO优化论坛让我懂了没团队经验,看如何制作短视频赚钱一天20元

SEO优化论坛让我懂了没团队经验,看如何制作短视频赚钱一天20元 都知道短视频博主特赚钱。 可是咱们自己一没经验。 二没团队。 连做什么内容都没人告诉我。 也想过找人知道,但是肯定得花钱,花钱倒是不怕,关键是没效果怎么办&…

独立站建设 新网站几个页面上线比较好?

独立站建设 新网站几个页面上线比较好? 昨天直播的时候有朋友问网站上线的时候应该是多少个页面,可能效果比较好。 如果你的网站是10个网页刚上线了,你觉得谷歌会对你的 网站有多少信任值呢? 就是当我们一个网站上线之前&#xff…

网站超链接同步百家号软件

网站超链接同步百家号软件 竞价广告的转化率是竞价专员以及公司最关注的重要数据之一,我已经做了很长时间的竞价了, 但是竞价的转化率很低,效果很差,那么怎么去提高这一个转化率呢? 其实针对不同的行业,不…

网站锚文本链接同步百家号

网站锚文本链接同步百家号 有流量就一定能赚到钱吗?答案是否定的,有人去超市逛了,但是却没有购物,这种可能是有的,这就是有流量没销量,不赚钱不赚钱的原因有两点, 一流量质量差,客户…

百度文章SEO软文优化是什么意思

hello,大家好,我是百收编辑。今天来分享一下如何用 SEO 的方式获取各平台的精准搜索流量,来做自己的私域流量增长。关于我以前最开始主要是从百度上去获取我们说的精准搜索流量,接下来就是从百度转到了微信,尤其是在微…

自媒体seo是啥?怎么做自媒体seo来搞流量?

hello,大家好,我是百收SEO OK,今天给大家分享一下。自媒体 SEO 怎么做? OK 好。要说自媒体SEO,必须先说一下三个概念,第一个自媒体,第二个SEO,第三个自媒体SEO。我们首先说自媒体&am…

网站开发制作收费标准(网站开发费用价目表)

网站开发制作收费标准(网站开发费用价目表)#网站#网站开发#网站建设#网站多少钱 需要多长时间?备案的时间周期是不是建立公司所能控制的?大家好,我是郑国,欢迎大家观看我的视频分享。最近我们有一个客户,备案已经提交了…

开发网站商城备案一般需要多久时间?

开发网站商城备案一般需要多久时间?#网站建设#开发网站#网站备案 高端的企业网站都有哪些特点? 1、页面布局简单大方。对比一般网站,高端网站的页面布局会精心设计,简单大方,导航栏一目了然,页面上也不会有过于复杂的…

专转本校园资讯网站(BM25相似性匹配算法)

专升本是提升自己专科学历到达本科阶段的一个方法和手段,考试成功之后就读两年就是本科的学历了,对于大多数的学生来说还是很有必要和帮助的。对于有决心考上专升本的学生以及愿意在这期间努力付出的学生而言,成功考上专升本以后就读两年是非…

网站收藏夹

2019独角兽企业重金招聘Python工程师标准>>> 时尚类 http://www.shoptiques.com 旅游类到到 http://www.daodao.com/ 电子商务 返利网http://www.ebates.com/ 转载于:https://my.oschina.net/lilugirl2005/blog/169259

高负载网站架构图

非本人所设计, 但也找不到作者了.转载于:https://www.cnblogs.com/silvester/archive/2009/04/21/1694657.html

国人当自强:两岸三地在线编程学习网站大搜罗

国人当自强:两岸三地在线编程学习网站大搜罗 发表于2013-12-13 18:30|81289次阅读| 来源CSDN|338 条评论| 作者唐小引移动开发网站在线教育Fenby麦可网开课吧多贝网优才网玩编程MOOC摘要:在本文中,我们介绍了来自两岸三地的编程学习网站&…

SEO(搜索引擎优化)网站优化排名最重要的是什么

SEO(搜索引擎优化)是网站优化的一个重要步骤,它能让你的网站在搜索引擎中有更好的排名,从而获得更多的流量。但是要想获得高质量的流量需要进行一定程度上的优化,以便大家能找到你的网站。 SEO优化基本上可以分成两部分…