python 实现爬取网站下所有URL

news/2024/5/14 15:47:19/文章来源:https://blog.csdn.net/weixin_30384217/article/details/94981246

python3 实现爬取网站下所有URL

      • 获取首页元素信息:
      • 首页的URL链接获取:
      • 遍历第一次返回的结果:
      • 递归循环遍历:
      • 全部代码如下:
      • 小结:

python3.6 requests && bs4 采用递归方法,最终爬取网站所有链接

获取首页元素信息:

目标 test_URL:http://www.xxx.com.cn/
首先检查元素,a 标签下是我们需要爬取得链接,通过获取链接路径,定位出我们需要的信息

soup = Bs4(reaponse.text, "lxml")
urls_li = soup.select("#mainmenu_top > div > div > ul > li")

在这里插入图片描述

首页的URL链接获取:

完成首页的URL链接获取,具体代码如下:

def get_first_url():list_href = []reaponse = requests.get("http://www.xxx.com.cn", headers=headers)soup = Bs4(reaponse.text, "lxml")urls_li = soup.select("#mainmenu_top > div > div > ul > li")for url_li in urls_li:urls = url_li.select("a")for url in urls:url_href = url.get("href")list_href.append(head_url+url_href)out_url = list(set(list_href))for reg in out_url:print(reg)

演示结果如下:
在这里插入图片描述

遍历第一次返回的结果:

从第二步获取URL的基础上,遍历请求每个页面,获取页面中的URL链接,过滤掉不需要的信息
具体代码如下:

def get_next_url(urllist):url_list = []for url in urllist:response = requests.get(url,headers=headers)soup = Bs4(response.text,"lxml")urls = soup.find_all("a")if urls:for url2 in urls:url2_1 = url2.get("href")if url2_1:if url2_1[0] == "/":url2_1 = head_url + url2_1url_list.append(url2_1)if url2_1[0:24] == "http://www.xxx.com.cn":url2_1 = url2_1url_list.append(url2_1)else:passelse:passelse:passelse:passurl_list2 = set(url_list)for url_ in url_list2:res = requests.get(url_)if res.status_code ==200:print(url_)print(len(url_list2))

递归循环遍历:

递归实现爬取所有url,在get_next_url()函数中调用自身,代码如下:

get_next_url(url_list2)

全部代码如下:

#!/usr/bin/env python 
# -*- coding:utf-8 -*-import requests
from bs4 import BeautifulSoup as Bs4head_url = "http://www.xxx.com.cn"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}
def get_first_url():list_href = []reaponse = requests.get(head_url, headers=headers)soup = Bs4(reaponse.text, "lxml")urls_li = soup.select("#mainmenu_top > div > div > ul > li")for url_li in urls_li:urls = url_li.select("a")for url in urls:url_href = url.get("href")list_href.append(head_url+url_href)out_url = list(set(list_href))return out_urldef get_next_url(urllist):url_list = []for url in urllist:response = requests.get(url,headers=headers)soup = Bs4(response.text,"lxml")urls = soup.find_all("a")if urls:for url2 in urls:url2_1 = url2.get("href")if url2_1:if url2_1[0] == "/":url2_1 = head_url + url2_1url_list.append(url2_1)if url2_1[0:24] == "http://www.xxx.com.cn":url2_1 = url2_1url_list.append(url2_1)else:passelse:passelse:passelse:passurl_list2 = set(url_list)for url_ in url_list2:res = requests.get(url_)if res.status_code ==200:print(url_)print(len(url_list2))get_next_url(url_list2)if __name__ == "__main__":urllist = get_first_url()get_next_url(urllist)

小结:

刚开始学习写python脚本,有不足之处,多多指导,有一个小bug,后期会进一步完善。

转载于:https://www.cnblogs.com/dddjh/p/10753588.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_776533.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

企业网站托管外包公司有哪几种形式?

所有的企业网络营销都离不开网站,网站是基础也是核心。试问一句如果企业没有网站维护人员,那么企业选择网站托管公司网站托管公司又包括哪些内容呢?1网站策划任何一个企业的网络营销工作都是从网站策划开始的,前期网站策划的好坏直接影响着后…

自动化测试 (一) 12306火车票网站自动登录工具

还记得2011年春运,12306火车票预订网站经常崩溃无法登录吗。 今天我们就开发一个12306网站自动登录软件。 帮助您轻松订票 通过前两篇博客Fiddler教程和HTTP协议详解,我们了解了Web的原理. Web的原理就是,浏览器发送一个Request给Web服务器…

如何做一个大数据seo人员

作为流量运营者或者SEO人员,对于所从事行业领域的认识往往建立在一种直觉之上,我们很难对一个行业有一个全面的了解,这个行业领域有多宽,流量聚焦在哪里,那些是用户最关心的问题? 有的时候很难准确的把握&a…

7年测试工程师经验,浅谈一下如何测试一个web网站?

最近有工作了一年多的朋友在问我,一个web页面到底怎么测试?我的第一感觉是震惊,天天做web测试,咋还不知道怎么测试呢?再仔细一想,可能是我们每天忙于测试而忽略测试导致的,毕竟当局者迷&#xf…

dz论坛Discuz_X3.4最新网站漏洞

近期我们sinesafe安全部门审计discuz最新版的时候发现配置文件写入导致代码执行的问题。cms安装的时候一般会分为几个步骤去进行,其中有对配置文件config进行写入的步骤,当写入的时候未严格限制传入的参数就存在代码执行问题。 源码信息:Disc…

软件测试:测试一个网站

一、软件测试的原则 1、软件测试应尽早执行,并贯穿于整个软件生命周期 2、软件测试应追溯需求 3、测试应由第三方来构造 4、穷举测试是不可能的,要遵循 Good-enough 原则 5、必须确定预期输出(或结果) 6、必须彻底检查每个测试结果 7、…

网站流量下降的6个原因

网站流量下降的6个原因 有时网络流量会发生变化。有时是最好的。有时候不是那么好。诊断流量变化的原因并不困难。以下是如何控制网络流量以帮助其保持增长。 1.移动范式影响流量 移动正在改变搜索习惯。越来越多的企业注意到搜索模式正在发生变化。这是因为我们正在寻找人们搜…

web网站常用功能测试点总结

一、输入框 1.字符型输入框: (1)字符型输入框:英文全角、英文半角、数字、空或者空格、特殊字符 “~!#¥%……&*?[]{}” 特别要注意单引号和&符号。禁止直接输入特殊字符时&#xff0c…

基于web网站项目的性能测试结果分析

一款对并发要求比较高的web项目,需要对其压力测试,模拟线上可能存在的问题 工具描述: 压力工具:Loadrunner 服务器监控:nmon 数据库:oracle web容器:Tomcat war 项目就好像是一个木桶&…

Linux中什么是动态网站环境及如何部署

当谈论起网站时,我们可能听说过静态和动态这两个词,但却不知道它们的含义,或者从字面意思了解一些却不知道它们的区别。这一切可以追溯到网站和网络应用程序,Web应用程序是一个网站,但很多网站不是Web应用程序&#xf…

微服务 | 微服务网站性能测试

开发者们在工作中经常会遇到过这样的情况:在接手实际项目时,在传统的单体架构下,一个同事负责的功能模块出现故障后,会导致整个系统瘫痪。那么有什么办法才能解决这种问题呢?云上有一种服务——微服务,可以…

九度搜索引擎点击优化_快排会影响到seo优化排名吗?

今天,在seo优化中被人们常提起的就是“快排”,它的出现对seo行业整体冲击很大,不过很多的从事seo优化的站长又说,这种优化方式属于作弊手段,一旦网站做了快排,被搜索引擎发现很容易会惩罚网站,导…

cdn对php网站的加速效果,配置七牛自定义域名cdn加速,让你的网站飞起来

之前发过一篇是没有备案的,使用测试域名来缓存静态文件,效果也是杠杠的。如果你还没有备案,先看这篇文章吧,域名没备案使用七牛cdn加速 。步入正题了(为了节约博主发文的时间,尽量少用文字,多以图片展示&am…

怎么建文件夹_用 GitHub Pages 建个人网站的小白级教程

前段时间心血来潮想建一个个人网站,调研了一圈,试用了 Weebly、Wix、Squarespace 等等产品,感觉都没有办法满足我的奇葩需求……最终还是觉得 GitHub Pages 是最好的——自由、免费、流量够用,目前的访问速度也还不错,…

jsp mysql 注入_Jsp+Mysql网站注入并拿root权限的全过程

很多人可能都知道asp,php的编程要防止sql注入漏洞,而并不知道jsp编程同样也需要防备sql注入漏洞.其实,一旦jsp代码有注入漏洞,将直接影响到整个系统的安全。本文就是主要展示一下我的一次JSPMYSQL注入导出webshell的过程。www.***.***.cn是国内某一个著名研究所的网站&#xff…

模板建站和开发网站区别_模板网站与定制网站有什么区别?

如今存在许多网站设计公司,主要包括使用智能建站和成品网站等的模板网站建设公司还有定制网站建设公司两个大类。这两者都具有各自的优势与不足,接下来我们就将要对这两种不同的网站建设形式进行分析。模板建站和定制建站最显著的差异体现在价格上。正如…

网站服务器机房硬件配置,有关web服务器硬件配置的进阶知识

有关web服务器硬件配置的进阶知识今天,小编来聊一聊web服务器硬件配置,其希望大家对服务器各个配件有一些了解,特别是现在很多人选择组装的方式构建服务器,就更应该用稳定和适用去衡量产品,而不要一味降低成本&#xf…

静态文件快速建站

文章目录部署静态文件一、 初始化1、 创建文件2、 上传文件二、 GitHub1、 基本部署2、 框架部署三、 netlify部署静态文件 一、 初始化 1、 创建文件 首先我们要创建好我们的文件,这个可以随便写一点内容。然后我们写好的静态文件使用git添加到GitHub远程仓库中…

第13节 IIS之WEB服务器部署及网站发布——以win2003为例

IIS之WEB服务器部署及网站发布1概述1.1WEB服务器概念1.2协议端口号1.3常用发布软件1.4网站类型2部署WEB服务器2.1安装WEB服务器软件2.2编辑静态网站网页2.3发布静态网站2.4发布动态网站3解决一个服务器配置多个网站的问题3.1方法1:增加多个IP地址3.2方法2&#xff1…

第13节 Kali Linux系统利用Apache发布网站并设置访问限制

目录1 发布网站1.1 启动并检查apache状态1.2 主页建立1.3 设置IP1.4 客户端访问2 主配置文件分析3 访问控制设定3.1 设定白名单与黑名单3.2 对某些子网页设定需要账号密码才能访问4 总结5 参考文献1 发布网站 1.1 启动并检查apache状态 1.apache在kali虚拟机中已自带&#xf…