抓取网站的5种方法

news/2024/5/10 13:24:44/文章来源:https://blog.csdn.net/w1304099880/article/details/110421313

来自维基百科
Web爬虫(有时也称为蜘蛛)是一种Internet机器人,通常系统地浏览Web索引,以进行Web索引。
Web搜寻器以要访问的URL列表(称为种子)开始。搜寻器访问这些URL时,它会识别页面中的所有超链接,并将它们添加到要访问的URL列表中。如果搜寻器正在执行网站的归档,它会复制并保存信息。该档案库被称为存储库,旨在存储和管理网页的集合。信息库类似于存储数据的任何其他系统,例如现代数据库。
让我们开始!!

Metasploit

此辅助模块是模块化的Web爬网程序,可与wmap(有时)或独立使用。
use auxiliary/crawler/msfcrawler
msf auxiliary(msfcrawler) > set rhosts www.example.com
msf auxiliary(msfcrawler) > exploit
从屏幕快照中,您可以看到该屏幕快照已加载了搜寻器,以便从任何网站中精确地隐藏文件,例如about.php,jquery联系人表格,html等,而使用浏览器无法从网站上精确地进行隐藏。为了收集任何网站的信息,我们可以使用它。
在这里插入图片描述

Httrack

HTTrack是Xavier Roche开发的免费开放源代码Web搜寻器和脱机浏览器
它允许您将Internet上的万维网站点下载到本地目录,以递归方式构建所有目录,并从服务器到计算机获取HTML,图像和其他文件。HTTrack安排原始站点的相对链接结构。
在终端内输入以下命令
httrack http://tptl.in –O /root/Desktop/file
它将输出保存在给定目录/ root / Desktop / file中。
在这里插入图片描述

从给定的屏幕截图中,您可以观察到这一点,它使包含html文件以及JavaScript和jquery的网站信息变得愚蠢
在这里插入图片描述

Black Widow

此Web Spider实用程序检测并显示用户选择的网页的详细信息,并且它提供其他网页工具。
BlackWidow的干净,逻辑标签式界面足够简单,适合中级用户使用,但在底层却足以满足高级用户的需求。只需输入您选择的URL,然后按Go。BlackWidow使用多线程来快速下载所有文件并测试链接。对于小型网站,该操作仅需几分钟。
您可以从此处下载。
在地址字段中输入您的URL http://tptl.in,然后按执行。
在这里插入图片描述

点击上start按钮就开始对左边URL扫描,然后选择一个文件夹来保存输出文件按钮。
从屏幕截图中,您可以观察到我浏览了C:\ Users \ RAJ \ Desktop \ tptl以便将输出文件存储在其中。
在这里插入图片描述

当您打开目标文件夹tptl时,您将获得图像或内容的网站完整数据,html文件,php文件和JavaScript都保存在其中。
在这里插入图片描述

Website Ripper Copier

Website Ripper Copier(WRC)是一种通用的高速网站下载器软件,用于保存网站数据。WRC可以将网站文件下载到本地驱动器以进行脱机浏览,提取特定大小和类型的网站文件,例如图像,视频,图片,电影和音乐,并以具有恢复支持的下载管理器的身份检索大量文件,和镜像站点。WRC还是站点链接验证器,资源管理器和选项卡式反弹出Web /脱机浏览器。
Website Ripper Copier是唯一可以从HTTP,HTTPS和FTP连接恢复中断的下载,访问受密码保护的网站,支持Web Cookie,分析脚本,更新检索到的网站或文件并启动五十多个检索线程的网站下载器工具
您可以从此处下载。
选择“websites for offline browsing(用于脱机浏览的网站)”选项。
在这里插入图片描述

输入网站URL作为http://tptl.in,然后单击下一步。
在这里插入图片描述

提取目录路径以保存输出结果,然后单击立即运行。
在这里插入图片描述

当您打开选定的文件夹tp时,将在其中获取CSS,php,html和js文件。
在这里插入图片描述

Burp Suite Spider

Burp Spider是用于自动爬网Web应用程序的工具。通常最好手动映射应用程序,但是对于非常大的应用程序或时间不足的情况,可以使用Burp Spider来部分自动化此过程。
有关更多详细信息,请从此处阅读我们以前的文章。
从给定的屏幕截图中,您可以观察到我已经获取了http://tptl.in的http请求;现在借助“操作”标签发送给Spider。
在这里插入图片描述

目标网站已添加到站点地图中“目标”选项卡下的位置,作为网络爬网的新范围。从屏幕截图中,您可以看到它开始了对目标网站的Web爬网,在该网站中,它以php,html和js的形式收集了网站信息。
在这里插入图片描述

作者:Aarti Singh是Hacking Articles(信息安全顾问,社交媒体爱好者和小工具)的研究员和技术作家。 侵删

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_739202.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个炫酷的前端导航网站

为什么80%的码农都做不了架构师?>>> 前端导航网 http://www.jsdig.com 弄个纯静态,便于维护的前端导航站。顺便放一些前端资源。提交网址 分类搜索 关键字搜索 关键字点击 添加网站 方法一 Fork到自己仓库修改根目录的data.json文件Pull req…

7.让网站支持http和https的访问方式

平台之大势何人能挡? 带着你的Net飞奔吧!:http://www.cnblogs.com/dunitian/p/4822808.html#iis 怎么让网站在本地支持SSL?http://www.cnblogs.com/dunitian/p/5248957.html 添加网站的时候不要只选择https(绑定里面添…

大型网站技术架构(六)网站的伸缩性架构

2019独角兽企业重金招聘Python工程师标准>>> 网站系统的伸缩性架构最重要的技术手段就是使用服务器集群功能,通过不断地向集群中添加服务器来增强整个集群的处理能力。“伸”即网站的规模和服务器的规模总是在不断扩大。 1、网站架构的伸缩性设计 网站的…

Bootstrap响应式建站

为什么80%的码农都做不了架构师?>>> Bootstrap是目前主流的css架构,不仅方便灵活,更做到了一套开发适应多终端的功能(仿似Java呀)。 重点:1.bootstrap编写是部分css要根据屏幕的大小进行调试和…

迈达斯cdn使用说明_新型DoS攻击或对使用了CDN的网站产生巨大威胁

在当今全球网络中,CDN服务扮演着很重要的角色,它的缓存系统可以极大缓解原网站的压力,并给访问者提供更好的网络体验。但近期,有安全研究人员发现了一种针对CDN缓存功能的DoS攻击——CPDoS,它有多种变体,不…

5 python 页面说明_PDF 的各种操作,我用 Python 来实现(附网站和操作指导)

导言PDF 处理是日常工作中的常见需求,包括 PDF 合并、删除、提取等。更复杂的任务如:将 PDF 转换成 图像。下面通过几个简单的例子和一份代码,帮助大家解决上面的需求,操作非常简单。在文末我会提供一份源码和一个神奇的 PDF 处理…

使用CSS3制作网站常用的小三角形

现在在前端开发中,经常会看到一些小三角形,如一些导航的下拉菜单,还有一些聊天信息的气泡模式,很多时候我们都是通过切图片的方法来制作,今天零度给大家分享一个完全通过css3实现的小三角效果。 先上html代码&#xff…

java建立本地网站,Eclipse搭建本地动态网站环境

准备Eclipse和Tomcat完成Web容器的配置在Eclipse中配置Tomcat (web容器)1、选择window->show view->other->servers 下面出现了servers点击 no servers are available click this link to create a new server -> 选择Tomcat7(下载的是7)->点击下一步->browe…

ecshop lbi替换为html,ecshop商城网站首页幻灯片替换成自定义js轮播方法

ecshop商城网站的首页都会有一个首页主广告位,可以不停的播放网站的一些图片。但是程序自带的首页幻灯片样式特别单一,而且首页幻灯片还带有黑色边框,不是很好看。下面学做网站论坛总结的将ecshop商城网站首页幻灯片替换成自定义js轮播方法和…

tp5限制地址栏直接访问_教你如何限制访问视频网站的方法

寝室所在的局域网里网速极慢,原因很简单,隔壁寝室的那几位老兄一天到晚开着土豆、酷六看电视剧,本来带宽就不够,还几个人同时看在线视频,网速简直让人崩溃。如果知道路由器的管理账号密码,那么要限制他们看…

资讯交流网站设计与实现_干货 | 室内设计师必备的10个网站!

大家好我是你们又美又瘦的小助打完这行字手抖了抖在我还小的时候曾经天真地幻想长大以后一定要成为 高逼格令人艳羡 的室内设计师直到我长大 通过自己不懈努力最终当上了和室内设计师八竿子打不到一块儿的 运营但是小助深知作为一名室内设计师最痛苦的莫过于缺少灵感以及素材来…

如何匿名访问网站

最近论坛上有网友提出了一些关于匿名访问的问题,趁此机会做一个总结,呵呵。先说说对于网站的匿名访问。 设置网站的匿名访问一般有三种情况:一是从已开始创建Web应用程序的时候进行匿名访问设置;二是对于已经建立的网站修改为匿名…

调优 网站性能指标

curl -o /dev/null -s -w %{time_total}"\n" www.yy.com -w %{option} //指定要获取的指标 可获取的指标,如下所示: time_total //完成请求所用的时间 time_namelookup //解析完成的时间 time_connect //建立到服务器的…

如何对网站进行压力测试 Apache ab和jmeter 的使用

本文档为个人博客文档系统的备份版本、作者:小游、作者博客:点击访问 这里压力测试我们使用的是Apache ab或者jmeter 我们先来安装Apache ab 安装地址:http://httpd.apache.org/download.cgi 然后我们再选下面这个 我们下载下面这个即可 下载…

OSINT系列:网站信任评估WOT

2019独角兽企业重金招聘Python工程师标准>>> OSINT系列:网站信任评估WOT Web of Trust(WOT)是芬兰的一家网站信任评估服务公司。它通过收集用户对网站的评价,来评估网站的可信任度。在该公司网站www.mywot.com&#xf…

大型网站技术架构-核心原理与案例分析

2021年01月26日 本地初略读了一遍,接下来还需要细致的研读; 牵涉技术点待进一步查询理解:集群、分布式、缓存、分布式缓存、消息队列、预发布、灰度 等 思考: 淘宝网-起初也是买的别人的开源现有网站做的业务需求更改就上线服务了; 在互联网公…

jmh气象传真图网站_风云激荡智慧气象

▶ 省气象台预报员通过分析风云气象云图和新一代天气雷达资料等信息预测未来天气。▼ 过去的黄山气象站气象工作人员在工作。(资料图片)上世纪50年代,气象信息传输主要依靠电话、传真和纸张。如今,安徽气象事业已迈入高质量发展的新时期,气象…

九度搜索引擎点击优化_SEO揭秘:常见的SEO优化策略有哪些?

很多朋友可能有这样的疑问,为什么有的网站能在搜索引擎上排名很好,而有的却连找到都找不到呢?这里面有什么秘密或者窍门吗?第一页SEO提醒你:要想网站有好的排名,有五个因素你是必须铭记于心的,它…

301跳转 https_谷歌SEO:如何正确理解301、302重定向

今天我们来探讨一下几个比较容易混淆的页面跳转标签:301,302,relcanonial。在谷歌SEO里面,我们比较容易常见的是第一个301,而302和canonial出现的比较少,但是不代表不存在,我会尝试从以下几个方…

本地服务器缓存网站文件,本地服务器缓存

本地服务器缓存 内容精选换一换磁盘增强型弹性云服务器自带高存储带宽和IOPS的本地盘,具有高存储IOPS以及读写带宽的优势。同时,本地盘的价格更加低廉,在海量数据存储场景下,具备更高的性价比。磁盘增强型弹性云服务器具备如下特点…