爬虫实例6(获取哔哩哔哩网站《后浪》弹幕并可视化显示)(pyecharts词云,pandas库)

news/2024/5/17 6:33:50/文章来源:https://blog.csdn.net/weixin_47476051/article/details/106034778

声明,只用于学习研究爬虫

1.《后浪》弹幕词云

最近小视频《后浪》挺火,该视频是国家一级演员何冰登台演讲,认可、赞美与寄语年轻一代;对他们说:“你们有幸遇见这样的时代,但时代更有幸遇见这样的你们。”《后浪》在bilibili达到了1283.6万播放量,19.2万弹幕,137.2万点赞。

我播放的这个视频弹幕确实挺多,想看看弹幕里面哪些词出现频率最高,看是不是奔涌吧、后浪这些词汇,就萌生了使用pyecharts词云验证的想法。

编程语言:Python3.7. 系统:win10 64位。已将完整代码贴在自己的csdn和本文。

在这里插入图片描述

2.代码流程

一是分析网站,弹幕是和视频是分离,在开发者工具里面找到弹幕的网址。
在这里插入图片描述
在这里插入图片描述
二是请求网站。获取到网址后request
三是解析网站
对于会爬虫的小伙伴们,这就很简单了,设置请求头,然后request,解析HTML数据,将获取的弹幕数据和出现的频率一起保存在CSV文件中
四是制作词云
pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化工具,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。用 Echarts 生成的图可视化效果非常棒,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图,pyecharts就此产生,所以也可以这么认为PyEcharts = Python + Echarts。原网站有词云实例代码,有兴趣的小伙伴可以下载看看。

3.完整代码

#!/usr/bin/python
#导入相关库
import requests,json,pandas
from bs4 import BeautifulSoup
from pyecharts import WordCloud#请求网页
def get_html(url):headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36',}response=requests.get(url,headers = headers)response.encoding = 'utf-8'data=response.textreturn data#解析网页
def paser_html(html):danmu=[]soup=BeautifulSoup(html,'lxml')barrages=soup.find_all('d')for barrage in barrages:danmu.append( barrage.text)#s数据分析包data = pandas.Series(danmu).value_counts()#将数据存入文件data.to_csv('danmu.csv',encoding='utf-8-sig')
#生成词云
def wordcloud():dan_to=pandas.read_csv('danmu.csv',names=['A','B'])wordcloud = WordCloud(width=800, height=500)wordcloud.add('', dan_to['A'],dan_to['B'], word_size_range=[20, 100],shape="diamond")wordcloud.render()
#主函数
if __name__ == '__main__':#弹幕地址url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=186803402'#请求网页html=get_html(url)#解析网页paser_html(html)#生成词云wordcloud()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_893910.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站下载工具有哪些?

Teleport Ultra.exe 链接:https://pan.baidu.com/s/1LhrnKJdyjCKprALz6AbmWw 提取码:n3dw 注:本软件仅用于学习,禁止其它用途。

图标素材网站

素材图标 http://www.iconfont.cn/ 收藏和取消收藏 http://www.iconfont.cn/search/index?searchTypeicon&q%E6%94%B6%E8%97%8F&page1&fromCollection1

SEO书籍《这就是搜索引擎:核心技术详解》要点解读

经朋友的推荐,去年买了一本SEO书籍-《这就是搜索引擎:核心技术详解》,断断续续用了几个月的时间看完这本seo书籍。感觉还是蛮好的,此书涉及的内容广而不深,通俗易懂,适合广大站长朋友看,当然&am…

2014谷歌算法更新,再次降低全球网站PR值

2014谷歌算法更新了,即去年2月份后再次降低了全球网站PR值。2013全年全球网站的评价PR值已经从6.175降到现在为5.935。 这次GOOGLE即上次蜂鸟算法后又一次大的调整算法。据说,此次谷歌新算法调整,会针对全球网站降低PR值,同时&am…

东莞SEO联盟电商【干货分享】

昨天受SEO大师级人物-萧涵的邀请,参加了东莞SEO联盟电商小型聚会。和萧涵认识已有一段时间了,只是因为在网上认识的,却从未谋面,这次很荣幸能以这样一个形式在一起聚聚。这次东莞seo联盟聚会能圆满成功,还得感谢东莞市…

简单快速搭建个人博客网站

简单快速建站 准备开始使用宝塔安装lnmp环境使用WordPress部署博客 关于域名 准备 已经有云主机,亚马逊,阿里,腾讯,都有免费的可以申请。我的服务器是去年为了科学上网在亚马逊申请的,后来一两个月端口就被墙了&#…

PHP curl 爬取反 爬的网站,请开启JavaScript并刷新该页.

目标链接:http://www.pbc.gov.cn/zhengcehuobisi/125207/125213/125440/3876551/index.html 笔者查阅很多资料,大部分人说这样子需要模拟浏览器访问,根本原因是因为cookie不是动态生成的或者不是有效的,方法: 1、chrom…

在线网站、PC端、移动端,PDF转换器最全合集了解一下?

天天跟各种文档打交道的上班族们,对 PDF转换这个操作一定是深恶痛绝;什么PDF转Word、PDF转PPT、PDF转Excel;还有Word转PDF、PPT转PDF.......眼花缭乱,看着就头痛。 有的小伙伴会吐槽自己也就偶尔进行一下 PDF转换的操作&…

考研党必备软件和网站,PDF转Word工具上榜

考研,是一项考验精力、物力、财力和能力的声势浩大的工程。考研党每一天的行程基本可以概括为:不是在图书馆,就是在去图书馆的路上。废寝忘食、头悬梁锥刺股是考研党每天的状态。当然,那些真正考上研究生的人从来不是单枪匹马&…

谷歌如何找到网站,并抓取,索引,然后列出您的网站

通常情况下,一,两天之后,我开始一个新的营销网站,我会在这个问题的电子邮件或电话。即使在我的提议发出了向客户和我有合同的客户签署明确指出,需要3-8个月上市,并排名在谷歌的引擎。但是,问题仍…

iOS开发-------模拟团购网站(UITableView 表格视图)以及自定义cell

上一篇博客说了UIScrollView(滚动视图),以及如何实现无限滚动的原理,那么这一次结合UIScrollView,以及UITableView(表格视图)做一个模拟团购的小Demon,并使用了xib以及加载pilsit文件,因为这个demon楼主做了比较久了,属于学iOS的初…

python scrapy 爬取学习问答网站

废话不多说,直接入正题。 关于模拟登录,另一篇再讲解(这篇写太多了) 我们先来分析好页面。 首先打开知乎,点击进入首页的随便一个问答可以看到url是这样的👇 观察url可以发现question有一个id&#xff0c…

分享几个免费书籍的网站

最近的博客更新有些迟钝,原因是在学前端设计的时候,发现Javascript 和 PHP 不是很融洽! PHP 是后台,是一种 “穿插” 式语言;对学过其他程式语言人而言,只要了解怎么做输出就可以解决一大半的学习时间。 但…

新版Kali-2020版本介绍及image镜像网站

今天在安装新版的kali发现,现在的2020版本和之前的版本有些不一样。 首先,附上两个链接一个是网易的image镜像,一个是论坛 之前的阿里也有image镜像,现在他们改版了,我觉得不是很好用,刚好又找到网易的&…

bootstrap-自适应企业网站demo(一)

1.获取bootstrap文件 英文官网:http://getboostrap.com 中文官网:http://www.bootcss.xom 2.开发工具 开发工具选择WebStorm 3.创建基础文件 在WebStorm创建一个空的项目。 将下载的bootstrap文件解压,将文件夹下的css、fronts、js文件夹拷…

鼠标事件 onmouseover、onmouseenter、onmouseleave和onmouseout

触发时机: onmouseout:鼠标滑出 onmouseover:鼠标滑过(在表面经过即可) onmouseenter:鼠标进入(进入到里面) onmouseleave:鼠标离开 onmouseover 和 onmouseenter 的区…

黑客攻防技巧:2分钟入侵网站全程实录(组图)

说起流光、溯雪、乱刀,可以说是大名鼎鼎无人不知无人不晓,这些都是小榕哥的作品。每次一提起小榕哥来,我的崇拜景仰就如滔滔江水,连绵不绝 ~~~~(又来了!) 让我们崇拜的小榕哥最新又发布了SQL注入 工具 ,这回喜欢利用S…

SQL Server 2005全文检索技术在网站上的应用实录

SQL Server 2005全文检索技术在网站上的应用实录(1) 一、前言 “人类失去搜索,世界将会怎样?”,同样,很难想象一个拥有极大信息量的行业网站门户没有站内全文搜索将会出现怎样的局面,网站全文检索对于挖掘网站信息和整合网站资源…

部署创作的网站元素自定义项

http://technet.microsoft.com/zh-cn/library/cc262041.aspx 更新: 2008-01-17 本文内容: 使用内容部署功能部署内容 使用内容部署包部署内容 使用解决方案包部署内容 本文提供有关使用 Microsoft Office SharePoint Server 2007 部署创作的网站元素…

部署开发的网站元素自定义项

http://technet.microsoft.com/zh-cn/library/cc262995.aspx 更新: 2008-01-17 本文内容: 使用解决方案包部署开发的网站元素 使用功能部署开发的网站元素 本文提供有关使用 Microsoft Office SharePoint Server 2007 部署开发的网站元素自定义项的指…