如何优雅的扒网站——工具篇

news/2024/5/13 19:45:49/文章来源:https://blog.csdn.net/weixin_34049948/article/details/93841665

         在上一篇文章里本人介绍了扒网站的入门知识。可以说是仿站的必备知识。不过,在实战中没必要所有的页面都要全部手动去操作处理,完全可以借助大牛们写好的工具。网上搜索仿站工具或扒站工具能找到一堆,我就不一一介绍了。今天就分为两个部分来讲一讲扒站工具,第一部分是针对单页面的,第二部分是针对整站的。不要以为有了整站下载工具第一部分就可以跳过。目前为止我还没有找到一款完美的整站下载工具,大部分都要很繁锁地处理代码。所以除非页面很多,不然真不如单个页面分别抓取更快捷一些。

         第一个工具是抓取单网页的。

         每个软件的名称不一样,但是使用方法都是大同小异。我在这里就拿这个仿站工具举例了。首先打开软件,添加要抓取的网页地址,再点击下一步。

图片

         图片

         然后,选择好存放站点文件的目录,点击开始下载,等待下载完成即可。

图片

图片

 

         图片

         到这一步已经完成,打开选择的存放目录,你需要的文件已经按image,css,js分类好了,其中image是页面引用的图片,picture是css中引用的图片。是不是soeasy.

 图片

         第二部分是整站下载

         感觉整站下载是个高大上的手段,能把别人的网站整个剽窃下来。不过下面的步骤可能会令你有些失望。因为我使用的这个工具有太多不尽人意之处,比如说html,css,js没有美观的分类,html命名莫名地冗长,背景图片的无端丢失,还有软件商植入的标签痕迹。带着这些问题点我们要一一解决掉。

         先给这个工具来个特写吧,我是没有花钱直接下载的注册版,估计花钱购买的会更好用一些。

         图片

         首先在菜单栏,依次选择文件-新建项目向导,在弹出框里点击下一步。

图片

         然后,还是傻瓜式的操作。填写上要抓的网站地址,当然是写网站首页。链接深度不用管用默认的3就可以,接着点下一步。

         图片

         接下来还是下一步,如果有账号密码就填上,没有就忽略。

         图片

         一路点完成后,会提示选择存放路径。然后配置步骤就算完成了。然后激动人心的时刻来了,点击工具栏的三角图标。整站下载就开始了,等一两分钟,提示下载完成。


图片

图片


图片



图片

 

         不要以为这就算结束了,这才刚刚开始。你也看到了,所有文件都放在一个目录里。而且我已经按照类型排序,还是如此混乱。幸好是只有两个页面,如果多的话那要乱成什么样子。下面的工作就是处理我一开始说的各种问题,包括统一命名。因为如果有子页面的话,他会用特别长的字符来命名。

1.      按类型分类。

按类型分类是个很好的习惯,强列建议把这一步放在第一位,谨记分类后把页面的引入路径批量调整下。

 

         2.使用正则去掉tppabs标记

                   图片

                   如果你用的工具没有这种流氓行为那么可以忽略这一步。如果有那么我们就需要使用正则来批量替换了。这应该是特别简单的正则了,具体语句和替换方式请根据使用工具和文本编辑软件来使用,这里以sublime作参考,tppabs="[^"]+"

         图片

  3.使用脚本下载css中的背景图片。

          上面提到过了,这个工具会漏掉css文件中的背景图片文件。那么我们就需要单独写个脚本来下载图片了。至于用什么脚本看你擅长什么了。我用的是php,所以用php脚本作参考。同第一步一样,下载好以后,记得把引入的文件路径与实际路径对应上。

  

$root_url = 'http://m.enjoyfin.com/statics/css/'; //原存放css文件的根目录$pic_bac  = 'http://m.enjoyfin.com/statics/';     //原存放背景图片的根目录$webs = array('style.css','swiper.css');echo "<pre>";foreach($webs as $k=>$v){$url = $root_url.$v;$contents = file_get_contents($url);if(preg_match_all("/background:url\(\.\.\/(.+)\)\s+no-repeat/",$contents,$new)){//print_r($new[1]);foreach ($new[1] as $key => $value) {$pic_url = $pic_bac.$value;$new_url = './images/'.substr(strrchr($value, '/'), 1);echo "<br>";$content = file_get_contents($pic_url);file_put_contents($new_url,$content);echo $new_url;}}else{echo '未找到';}}

 

4.批量命名文件

不嫌麻烦的话手动重命名未尝不可,我在这里只是提供一个思路,肯定会有更好的方法。

首先打开cmd,进入存放html文件的目录,使用dir /b>abc.xls  命令把所有文件导出到abc.xls的excel表格里。然后,使用分列,合并等等方法,把每一条内容变成

 

rename "index.php-m=content&c=index&a=show&catid=9&id=9.htm" "catid=9id=9.htm"  // 重命名文件

 

类似这样一条命令,再把命令脚本全都放在一个记事本里,保存成bat拓展名的可执行脚本放在Html文件目录,双击执行就ok了。当然还有关键的一步,把html文件中的引入路径,链接路径批量替换一下。

 

 

         以上就是抓取单页面和整站使用工具的方法,如果任性可以去购买收费软件。如果穷逼或是练手,那么不妨一试吧。

 

转载于:https://www.cnblogs.com/zuoshoupai/p/8276741.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_730383.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[CTO札记]SNS蜂巢模型,及其在内容型网站的应用型态

始模型SNS有个典型的Honeycomb模型&#xff0c;将7个要素列举出来&#xff08;如下图&#xff09;。二、模型要素变更窃以为‘状态’要素并不合理&#xff0c;因为太窄。如果将‘状态’替换成更泛化的‘内容/信息’也许更好。三、应用于内容型网站也许大家认为SNS的内容/信息都…

图片素材网站收集

为什么80%的码农都做不了架构师&#xff1f;>>> 昵图网 http://www.nipic.com/index.html 千图网 http://www.58pic.com/ 千库网 http://588ku.com/ 我图网 http://www.ooopic.com/ 转载于:https://my.oschina.net/yjft/blog/1617184

用scrapy抓取网站图片

学习Python&#xff0c;就避免不了爬虫&#xff0c;而Scrapy就是最流行的一个。你可以爬取文字信息&#xff08;如招聘职位信息&#xff0c;网站评论等&#xff09;&#xff0c;也可以爬取图片&#xff0c;比如看到一些好的网站展示了很多精美的图片&#xff08;这里只用作个人…

流量排名前一千万网站,三分之一使用 WordPress

百度智能云 云生态狂欢季 热门云产品1折起>>> WordPress 在官博发文&#xff0c;庆祝它在流量排名前一千万网站中的市场占有率达到了三分之一。据 W3Techs 的数据&#xff0c;WordPress 在前一千万网站的市场份额从一年前的 29.9% 上升到了现在的 33.4%。WordPress …

基于django的个人博客网站建立(一)

基于django的个人博客网站建立&#xff08;一&#xff09; 前言 网站效果可点击这里访问 之前基于hexo和github page搭建过一个博客网页&#xff0c;后来由于换了个系统&#xff0c;感觉弄的有点麻烦也就没有再去管它了&#xff0c;最近偶然从网上找到了几个模板&#xff0c;感…

Google浏览器70把所有HTTP网站标注红色“不安全”

谷歌这几年虽吵着大力推进 HTTPS 的加密普及&#xff0c;此之前还声明呢&#xff0c;但响应支持度效果不太明显&#xff0c;这下新版Chrome 70 做了提升&#xff0c;把所有的HTTP网站都标注红色“不安全”警告! Google用心良苦&#xff0c;从Chrome 56 就开始向HTTP网页列为不安…

免费为网站加上HTTPS

为什么80%的码农都做不了架构师&#xff1f;>>> 前言 最近有好几位同学直接微信赞助说快点更新文章。这个要和大家说声抱歉&#xff0c;的确很久没有写文章了。我们也不找借口&#xff0c;我会尽力保证多写文章。今天我们的主题来讲解 如何给自己的网站 加上HTTPS …

python 第一个网站应用

Hello,第一个网页分析 打开文本编辑器。这里要说一下啦&#xff0c;理论上讲&#xff0c;所有的文本编辑器都可以做为编写程序的工具。前面已经提到的那个python IDE&#xff0c;是一个很好的工具&#xff0c;再有别的也行&#xff0c;比如我就用vim&#xff08;好像我的计算机…

大型网站技术架构(一)大型网站架构演化

2019独角兽企业重金招聘Python工程师标准>>> 看完了有一本书&#xff0c;就应该有所收获&#xff0c;有所总结&#xff0c;最近把《大型网站技术架构》一书给看完了&#xff0c;给人的印象实在深刻&#xff0c;再加上之前也搞过书本上讲的反向代理和负载均衡以及ses…

一步步构建大型网站架构

2019独角兽企业重金招聘Python工程师标准>>> 之前我简单向大家介绍了各个知名大型网站的架构&#xff0c;亿万用户网站MySpace的成功秘密、Flickr架构、YouTube网站架构、PlentyOfFish 网站架构学习、WikiPedia技术架构学习笔记。这几个都很典型&#xff0c;我们可以…

息壤网络出现问题,大批网站受灾

很久没有更新自己的博客&#xff0c;今天上去看看&#xff0c;看看不要紧&#xff0c;出了大问题了&#xff01;我的博客是息壤的虚拟主机&#xff0c;放在北京亦庄IDC&#xff0c;网络速度还行。可是所有的php页面都不正常&#xff0c;出现如下提示&#xff1a;CGI/PHP程序错误…

大型网站技术架构(三)--架构模式

作者&#xff1a;13 GitHub&#xff1a;https://github.com/ZHENFENG13 版权声明&#xff1a;本文为原创文章&#xff0c;未经允许不得转载。 此篇已收录至《大型网站技术架构:核心原理与案例分析》读书笔记系列&#xff0c;点击访问该目录获取完整内容。 前言 模式&#xff1a…

服务器搭建网站完整教程

服务器最大的用途&#xff0c;就是可以搭建网站&#xff0c;许多人都认为搭建网站是一件很难的事情&#xff0c;因为包含许多的比较专业东西&#xff0c;比如服务器、编程之类的&#xff0c;确实&#xff0c;在几年前是这样的&#xff0c;普通人想要自己做一个网站太难了 但是随…

一起学爬虫——如何爬取通过ajax加载数据的网站

2019独角兽企业重金招聘Python工程师标准>>> 一起学爬虫——如何爬取通过ajax加载数据的网站      目前很多网站都使用ajax技术动态加载数据&#xff0c;和常规的网站不一样&#xff0c;数据时动态加载的&#xff0c;如果我们使用常规的方法爬取网页&#xff0c…

大型网站技术架构(二)架构模式

2019独角兽企业重金招聘Python工程师标准>>> 每一个模式描述了一个在我们周围不断重复发生的问题及该问题解决方案的核心。这样&#xff0c;你就能一次又一次地使用该方案而不必做重复工作。 所谓网站架构模式即为了解决大型网站面临的高并发访问、海量数据、高可靠…

Web 2.0网站的九个特点

作者&#xff1a; 阮一峰 日期&#xff1a; 2007年11月26日昨天晚上&#xff0c;我在看一本书《Amazon.com Mashups》&#xff0c;里面总结了web 2.0网站的九个特征。我觉得总结得很好。自从“web 2.0”这个名词被发明以来&#xff0c;就一直是一个涵义模糊的词&#xff0c;谁也…

登录各网站的字体异常小

今天同事二部刘洋说&#xff0c; 他的登录界面字体异常的小&#xff0c;我也感到莫名其妙&#xff0c;我好想没有遇见过这样的事情,360浏览器不行&#xff0c;IE也不行. 登录百度空间等其它网站也不行. 只好在网上寻找高手. 还好&#xff0c;很快就找到了. 以下是摘自网络高手的…

当你的网站被疯狂攻击时你能做什么?

前言自开始搭建网站八爪鱼招标网到现在大概有四个多月的时间&#xff0c;搜索引擎收录方面也从零收录逐渐的发展到在百度有四十万的收录&#xff0c;在360搜索有四万多的收录&#xff0c;搜索引擎流入的流量也慢慢增多&#xff0c;今天上班时 发现网站出现有故障&#xff0c;主…

网页素材大宝库:40套高质量的网站纹理背景素材

对于设计师来说&#xff0c;高质量的网站纹理背景图片是非常有价值的素材。在网上能搜索到各种眼花缭乱的纹理背景资源&#xff0c;但是要为网站选择合适的高质量背景还是非常困难的。下面分享向大家分享40套免费的高质量网站纹理背景图片素材&#xff0c;赶紧为你的网站换上&a…

大型网站技术架构(一)大型网站架构演化

2019独角兽企业重金招聘Python工程师标准>>> 看完了有一本书&#xff0c;就应该有所收获&#xff0c;有所总结&#xff0c;最近把《大型网站技术架构》一书给看完了&#xff0c;给人的印象实在深刻&#xff0c;再加上之前也搞过书本上讲的反向代理和负载均衡以及ses…