使用requests和BeautifulSoup库实现从任意网站爬取数据_附源代码+注释

使用requests和BeautifulSoup库实现从任意网站爬取数据_附源代码+注释

news/2024/5/13 15:18:40/文章来源:https://blog.csdn.net/Miracle1203/article/details/105274419

文章目录

- - 一.了解页面信息
  - 二.爬取数据代码
  - 三.获取数据结果

一.了解页面信息

这里我们以酷狗音乐古风榜为例
在这里插入图片描述
由此可见我们需要我曲目和歌手的信息都在框住的class里面

二.爬取数据代码

#导入requests和BeautifulSoup库
import requests
from bs4 import BeautifulSoupurl = "https://www.kugou.com/yy/rank/home/1-33161.html?from=rank"
#获取所有网页信息
response = requests.get(url)
#利用.text方法提取响应的文本信息
r=requests.get(url)
html = r.text
soup =BeautifulSoup(html,'html.parser')
#解析出歌名，find_all（）函数返回的是tag的列表
names = soup.find_all('a',class_='pc_temp_songname')
# 打印names
print(names)
for name in names:#利用split方法把歌手和曲目分隔返回成列表形式赋值给itemitem = name.get_text().split('-')#q巧妙利用数组格式化依次输出曲名和歌手print("曲名:{}  歌手:{} ".format(item[1],item[0]))

三.获取数据结果

在这里插入图片描述到这就结束了，一起学习共同进步 😃

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_877788.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

黄聪：C#模拟网站页面POST数据提交表单（二）--HttpWebRequest以及HttpWebResponse （转）

黄聪：C#模拟网站页面POST数据提交表单（二）--HttpWebRequest以及HttpWebResponse （转）

黄聪：C#模拟网站页面POST数据提交表单（二）--HttpWebRequest以及HttpWebResponse （转） 上次介绍了用WebClient的方式提交POST请求，这次，我继续来介绍用其它一种方式 HttpWebRequest以及HttpWebRe…

阅读更多...

黄聪：C#模拟网站页面POST数据提交表单（一）--WebClient （转）

黄聪：C#模拟网站页面POST数据提交表单（一）--WebClient （转）

黄聪：C#模拟网站页面POST数据提交表单（一）--WebClient （转） C#的提交表单方式主要有两种WebClient与HttpWebRequest，这里先介绍一种 WebClient，转送门：http://msdn.microsoft.com/zh…

阅读更多...

搭建基于github的个人网站

搭建基于github的个人网站

注： 1. 没写完，持续更新。 2. 有些条目写的顺序可能会有点奇怪，比如说我可能写完给博客换主题，然后写了买域名，又突然觉得换主题那块要再加一些内容，所以看上去可能我还没讲到买域名，但是自己…

阅读更多...

[网站动态]年轻态SNS席卷台湾

[网站动态]年轻态SNS席卷台湾

年轻态SNS席卷台湾年轻态SNS，个人感觉，比BOKEE这种的距离赢利更为接近。这次的文章来自于台湾 BLOGGER（Jason Chiang），分析的很是透彻，结合我的文章，让我们再度思考年轻态SNS的盈利&#xff0c…

阅读更多...

提升网站性能开发的10个技巧

提升网站性能开发的10个技巧

摘要：随着网络的高速发展，网络性能的持续提高成为能否在芸芸App中脱颖而出的关键。高度联结的世界意味着用户对网络体验提出了更严苛的要求。文中为大家总结10条有关性能提升的经验。随着网络的高速发展，网络性能的持续提高成为能否在芸芸Ap…

阅读更多...

《SparkStreaming 2》--UpdateStateByKey操作、spark-submit提交、网站日志案例（禁止爬虫、transform和join连接、网站的UV访问数、窗口操作PV）

《SparkStreaming 2》--UpdateStateByKey操作、spark-submit提交、网站日志案例（禁止爬虫、transform和join连接、网站的UV访问数、窗口操作PV）

UpdateStateByKey操作(按照key更新状态) 其它案例都是之前spark用到过的,以下是特殊RDD (之前案例统计的是5秒内的总次数，并不是wordcount的总次数,此Rdd可以统计整个流流过的内容的wordcount总次数) 该updateStateByKey操作允许您在使用新信息不断更新时保持任…

阅读更多...

js事件中的onmouseout和onmouseleave

js事件中的onmouseout和onmouseleave

写一个项目的过程中发现一个问题： 鼠标监听A元素的onmouseout事件，结果当鼠标移到A元素里面的B元素时，事件也触发了。原因是因为：事件冒泡。当鼠标从A元素进入到B元素时，A也会触发自己的onmouseout事件&#xff0…

阅读更多...

2022百度收录方法-顺鑫说seo

2022百度收录方法-顺鑫说seo

今年已经是2022年头了，现在百度是一个怎样的形式呢，好多人都在吐槽，也有很多默默无闻的人。我自认为我是一个很有想法的人。但是我不认为我是一个聪明的人。后来的我明白，时间和实践才是检验真理的唯一标准。我们一定要多看&am…

阅读更多...

网站设计流程

网站设计流程

以理论的角度： 使用NoahWeb进行网站开发，您可以将开发过程分为三个阶段：需求阶段、实现阶段、以及发布阶段。在三个阶段中，您同样可做到始终探索用户需求，多次将DEMO交付客户进行演示，网站开发中由于NoahW…

阅读更多...

负载测试—网站的“体能”测试

负载测试—网站的“体能”测试

通常来说，负载测试可以采用手动和自动两种方式。手动测试会遇到很多问题，如无法模拟太多用户、测试者很难精确记录相应时间、连续测试和重复测试的工作量特别大等。因此对于负载测试，手动方式通常用于初级的负载测试。目前，绝大多…

阅读更多...

如何查看网站的端口

如何查看网站的端口

转：http://jingyan.baidu.com/article/4dc40848be2fd2c8d946f1a0.html 本文教您: 1，网站的域名和端口是什么含义 2，网站的端口到底有哪些方法/步骤 1 通俗化解释什么是网站的端口，特别实用。 ---------------------------------…

阅读更多...

ubuntu网站服务器环境搭建

ubuntu网站服务器环境搭建

转账自：ubuntu网站服务器搭建如果想用Ubuntu作为网站的服务器，一些基本的服务是必备的。本文对环境的搭建做一个简单的整理。 Appach Apache是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上，由于其跨平台和…

阅读更多...

WordPress 网站漏洞扫描 wpscan Kali Linux

WordPress 网站漏洞扫描 wpscan Kali Linux

在 WordPress 网站漏洞扫描,我将向你展示一些有用的命令 ， 我们可以使用在 wpscan 搜索已知的漏洞在 wordpress 博客。打开终端 ， 使用下面的命令以启动对目标 wpscan WordPress 网站。使用 wpscan --url blog.tld (更换 blog.tld 域与要扫描的漏洞。…

阅读更多...

linux获取网站的响应时间

linux获取网站的响应时间

一个简易的抓包脚本 ----- url_check.sh ----- if ! [ $# -eq 1 ] then echo "Usage For example:" echo "$0 www.yy.com" exit -1 fi domain$1 echo "输入URL:"$domain echo "" echo "开始curl检测:" cu…

阅读更多...

Git 分支 - 分支的新建与合并分支的新建与合并让我们来看一个简单的分支新建与分支合并的例子，实际工作中你可能会用到类似的工作流。你将经历如下步骤：开发某个网站。为实现某个新的需求，创

Git 分支 - 分支的新建与合并分支的新建与合并让我们来看一个简单的分支新建与分支合并的例子，实际工作中你可能会用到类似的工作流。你将经历如下步骤：开发某个网站。为实现某个新的需求，创

Git 分支 - 分支的新建与合并分支的新建与合并让我们来看一个简单的分支新建与分支合并的例子，实际工作中你可能会用到类似的工作流。你将经历如下步骤： 开发某个网站。为实现某个新的需求，创建一个分支。在这个分支上开展工作。正…

阅读更多...

怎样得到一个清爽干净简洁的CSDN文章页面？开源一个小插件，可自由定制用于其他网站。【含视频教程】

怎样得到一个清爽干净简洁的CSDN文章页面？开源一个小插件，可自由定制用于其他网站。【含视频教程】

！！！想直接看视频教程的请点这里！！！ 一、原版CSDN文章页面与清爽版对比 1.1 原版CSDN文章页面原版页面分了三次截图还没截全： 1.2 清爽版CSDN文章页面二、忍不住吐槽一下CSDN（…

阅读更多...

360浏览器访问https网站直接跳转 se://error/ 或者se://errorpage/问题（无法打开网站，网页走丢了）解决方法

360浏览器访问https网站直接跳转 se://error/ 或者se://errorpage/问题（无法打开网站，网页走丢了）解决方法

最近发现360浏览器访问某个https://网站直接跳转 se://error/ 或者se://errorpage/具体如下用其他浏览器，例如chrome就可以正常访问那个https网站。所以问题出在浏览器这块了。经过查询资料和测试发现，这个问题的正确解决办法有两个 1、如果安装了IE8等…

阅读更多...

iptables+shell防御网站

iptables+shell防御网站

1.简易搭建一个web服务器 2.分析访问HTTP的日志，目录在 /var/log/httpd/access_log 3.根据网站一分钟之内的访问量来判断，限制IP过多访问，所以要设置时间变量来控制时间。先通过awk进行日志筛选出符合条件的ip，然后通过iptabl…

阅读更多...

使用tomcat和mybatis模拟在线人数统计和网站的访问量

使用tomcat和mybatis模拟在线人数统计和网站的访问量

思路使用一个文件来存储网站的总访问量（在这里时以键值对的形式来存储比如count0 然后通过一个properties通过count去获取值也就是访问量），每登陆网站一次就让文件存储的时加一用setArrtibute 方法给我们需要展示在页面的总访问量赋值每…

阅读更多...

如何利用客户端缓存对网站进行优化?

如何利用客户端缓存对网站进行优化?

介绍你的网站在并发访问很大并且无法承受压力的情况下,你会选择如何优化? 很多人首先会想从服务器缓存方面着手对程序进行优化,许多不同的服务器缓存方式都有他们自己的特点,像我曾经参与的一些项目中,根据缓存的命中率不同使用过 Com/Enterprise Libiary Caching/W…

阅读更多...

推荐文章

最新文章