【python 数据可视化】 WordCloud词云图

news/2024/4/28 21:08:50/文章来源:https://blog.csdn.net/weixin_74116463/article/details/137020053

目录

词云简介

准备工作

安装方法一:

安装方法二:

 生成词云步骤

数据预处理:

分词:

 统计词频出现的次数:

 去除词语:

生成词云:

显示词云:

保存词云:

完整代码


词云简介

词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于提出,词云是一种可视化描绘单词或词语出现在文本数据中频率的方式,它主要是由随机分布在词云图的单词或词语构成,出现频率较高的单词或词语则会以较大的形式呈现出来,而频率越低的单词或词语则会以较小的形式呈现。词云主要提供了一种观察社交媒体网站上的热门话题或搜索关键字的一种方式,它可以对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。

准备工作

我们需要安装一些基本的库:(因为wordcloud库,jieba库不是python的内置库)

  • wordcloud
  • jieba

安装方法一:

windows+R,打开cmd,在命令行输入:

pip install wordcloud

等待安装完成即可。同样的方法安装jieba库; 

安装方法二:

直接再pycharm软件中安装:

打开pycharm,找到pythong软件包,在搜索框中搜索要下载的库,点击安装即可。

(如果第一次安装失败的话,直接再次尝试安装,基本上第二次是可以成功的)。

 生成词云步骤

  1.  准备好文本数据,词云背景模板;
  2. 数据预处理:对文本数据处理,如去除标点符号,停用词,数字等,以便更好的生成词云图;
  3. 分词:文本数据处理好后,使用分词工具进行分词,也就是将词分成一个个词语;
  4. 统计词频:也就是统计每个词语出现的次数;
  5. 去除不想要的词语;
  6. 生成词云图:使用wordcloud库的函数生成词云图,设置一些背景颜色,字体,词云形状;
  7. 显示词云图;
  8. 保存词云图;

数据预处理:

file = open(r"test.txt", mode="r",encoding="utf-8")
txt1 = file.read()txt2 = re.sub(r"[^\u4e00-\u9fa5]","",txt1)
  • 这里file是打开文件的操作:如果直接print(file),结果显示的也只是一个操作,不会显示文本内容;要想真正的把文本里面的内容读取出来,就需要file.read()的方法;
  • txt1中存放的就是原始文本,但是只是原始文本并不行,使用re库中的re.sub将文本中的标点进行匹配,替换成空白,优化好的文本我们放到txt2中;

这里re.sub()函数可以看:re.sub()用法的详细介绍_jackandsnow的博客-CSDN博客_re sub

 

分词:

我们平常看到的词云:

如果整个文本直接生成词云肯定是不行的,接下来我们就需要对文本进行分词操作;

txt3 = jieba.cut(txt2)  # 可迭代对象#for i in txt3:
#    print(i)

这里我们就用到了准备工作中的jieba库:

jieba.cut(s) 精确模式:把文本精确的切分开,不存在冗余单词;

这样txt3中的保存的就是一个个的词语:

 统计词频出现的次数:

txt4 = {}
for i in txt3:if i not in txt4:txt4[i]=1else:txt4[i]+=1txt5 = sorted(txt4.items(),key=lambda x :x[1],reverse=True)txt6={}
for word,count in txt5:txt6[word]=count

这里我们把结果存放到字典里面,因为{key:value},可以存放值和出现次数;

存放好后,我们进行排序;

  • sorted函数是默认升序排序,当需要降序排序时,需要使用reverse = Ture;
  • 这里的items是将txt4字典转换为一个列表;

 我们排好序后,还需要将这个列表转换为一个字典;

 

 去除词语:

 统计并排好词后我们打印一下:

如果里面有不想出现的词语,可以把它删去:

list1={'的','和','我','我们','会','可以','是','我会','例如'} #去除不想要的词语
for i in list1:del txt6[i]

生成词云:

img =Image.open("R-C.jpg")//我们想要的词云模板导入img_array = np.array(img)wordcloud = WordCloud(mask=img_array, # 设置词云模板background_color='white', #背景颜色font_path='simsun.ttc', #字体路径max_words=500, #最大显示的单词数max_font_size=100, #单词最大字号width = 500, #宽度height= 500, #高度
).generate_from_frequencies(txt6)

显示词云:

plt.Figure(figsize=(8,8))  #画布大小
plt.imshow(wordcloud,interpolation='bilinear')
plt.axis('off') #关闭坐标轴
plt.show()

保存词云:

wordcloud.to_file('词云图片.jpg')  # 保存图片

完整代码

import re
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
import numpy as np
from PIL import Imagefile = open(r"test.txt", mode="r",encoding="utf-8")
txt1 = file.read()
# print(txt1)  #原始文本
txt2 = re.sub(r"[^\u4e00-\u9fa5]","",txt1)
# print(txt2) #进化后的文本txt3 = jieba.cut(txt2)  # 可迭代对象
# for i in txt3:
#     print(i)txt4 = {}
for i in txt3:if i not in txt4:txt4[i]=1else:txt4[i]+=1
txt5 = sorted(txt4.items(),key=lambda x :x[1],reverse=True)
# print(txt5)txt6={}
for word,count in txt5:txt6[word]=count
print(txt6)list1={'的','和','我','我们','会','可以','是','我会','例如'} #去除不想要的词语
for i in list1:del txt6[i]
# print(txt6)img =Image.open("R-C.jpg")img_array = np.array(img)wordcloud = WordCloud(mask=img_array, # 设置词云模板background_color='white', #背景颜色font_path='simsun.ttc', #字体路径max_words=500, #最大显示的单词数max_font_size=100, #单词最大字号width = 500, #宽度height= 500, #高度
).generate_from_frequencies(txt6)
plt.Figure(figsize=(8,8))  #画布大小
plt.imshow(wordcloud,interpolation='bilinear')
plt.axis('off') #关闭坐标轴
plt.show()
wordcloud.to_file('词云图片.jpg')  # 保存图片

完结!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1027676.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ClickHouse06-ClickHouse中基础的增删改查

使用数据库,最基础的学习都是增、删、改、查,然后才会去了解基础函数和高阶函数,今天就来看看大火的 ClickHouse 中简单的增删改查怎么写? 创建数据库:create database创建表格:create table修改表格&…

jmeter总结之:Regular Expression Extractor元件

Regular Expression Extractor是一个后处理器元件,使用正则从服务器的响应中提取数据,并将这些数据保存到JMeter变量中,以便在后续的请求或断言中使用。在处理动态数据或验证响应中的特定信息时很有用。 添加Regular Expression Extractor元…

AugmentedReality之路-通过蓝图启动AR相机(2)

本文实现打开AR相机和关闭AR相机功能,在主界面点击Start AR按钮后打开AR相机,在主界面点击Stop AR按钮后关闭AR相机 1、启动AR相关插件 通过Edit->Plugins启用AugmentedReality下面的所有插件 2、自定义Pawn 在Content->ARBase目录右键&…

【tensorflow框架神经网络实现鸢尾花分类】

文章目录 1、数据获取2、数据集构建3、模型的训练验证可视化训练过程 1、数据获取 从sklearn中获取鸢尾花数据,并合并处理 from sklearn.datasets import load_iris import pandas as pdx_data load_iris().data y_data load_iris().targetx_data pd.DataFrame…

Scikit-Learn K近邻分类

Scikit-Learn K近邻分类 1、K近邻分类1.1、K近邻分类及原理1.2、超参数K1.3、K近邻分类的优缺点2、Scikit-Learn K近邻分类2.1、Scikit-Learn K近邻分类API2.2、K近邻分类实践(鸢尾花分类)2.3、交叉验证寻找最佳K2.4、K近邻分类与Pipeline1、K近邻分类 K近邻是一种常用的分类…

ES学习日记(一)-------单节点安装启动

基于ES7.4.1编写,其实一开始用的最新的8.1,但是问题太多了!!!!不稳定,降到7.4 下载好的安装包上传到服务器或虚拟机,创建ES目录,命令mkdir -p /路径xxxx 复制安装包到指定路径并解压: tar zxvf elasticsearch-8.1.0-linux-x86_64.tar.gz -C /usr/local/es/ 进入bin目录安装,命…

bugku-web-Flask_FileUpload

查看页面源码 这里提示给他一个文件,它将返回一个python运行结果给我,并且提示只能上传jpg和png文件 传递一个图片 查看源码 传递一个非图片 将源码写入新建的txt文件中 print(hello world) 将文件后缀改为jpg 上传 上传成功 查看源码 得到运行结果 我…

SpringMVC第一个helloword项目

文章目录 前言一、SpringMVC是什么?二、使用步骤1.引入库2.创建控制层3.创建springmvc.xml4.配置web.xml文件5.编写视图页面 总结 前言 提示:这里可以添加本文要记录的大概内容: SpringMVC 提示:以下是本篇文章正文内容&#xf…

​python学习之变量类型​

print单纯输中的十种数据类型只需要用print()函数即可,()里面直接写变量名。 下面重点介绍print格式输出: 第一种方法:一个萝卜一个坑,下面的代码中,{0}、{1}、{2}分别表示j,i,j*i,单引号里面是输出格式。…

WPF 多路绑定、值转换器ValueConvert、数据校验

值转换器 valueconvert 使用ValueConverter需要实现IValueConverter接口,其内部有两个方法,Convert和ConvertBack。我们在使用Binding绑定数据的时候,当遇到源属性和目标控件需要的类型不一致的,就可以使用ValueConverter&#xf…

将html文件转化为pdf

1.用浏览器将html文件打开 2.空白处右键点击打印 3.另存为PDF即可

day72Html

常用标签: 分类: 块级标签:独立成行 行级标签:不独立成行,同一行可放多个行级标 注意网页显示时,忽略空白字符,(回车符,空格,tab制表符) 一)块级标签&#xf…

【MATLAB源码-第20期】基于matlab的短波通信多径信道仿真,多径数目为3,用QPSK来测试误码率效果输出误码率对比图。

操作环境: MATLAB 2022a 1、算法描述 短波通信是一种使用短波频段的无线电通信技术,它具有以下特点: 1. 频段范围:短波通信通常使用3MHz到30MHz之间的频段。这个频段之所以称为“短波”,是因为它的波长相对较短&am…

Prometheus +Grafana +node_exporter可视化监控Linux + windows虚机

1、介绍 待补充 2、架构图 Prometheus :主要是负责存储、抓取、聚合、查询方面。 node_exporter :主要是负责采集物理机、中间件的信息。 3、搭建过程 配置要求:1台主服务器 n台从服务器 (被监控的linux或windows虚机&am…

基于js css的瀑布流demo

要实现照片按照瀑布流展示&#xff0c;写个小demo&#xff0c;记录下。 瀑布流实现思路如下&#xff1a; CSS 弹性布局对 3 列按横向排列&#xff0c;对每一列内部按纵向排列 html代码&#xff1a; <div class"content"></div> css代码&#xff1a; …

【leetcode】环形链表的约瑟夫问题

大家好&#xff0c;我是苏貝&#xff0c;本篇博客带大家刷题&#xff0c;如果你觉得我写的还不错的话&#xff0c;可以给我一个赞&#x1f44d;吗&#xff0c;感谢❤️ 点击查看题目 首先我们要明确一点&#xff0c;题目要求我们要用环形链表&#xff0c;所以用数组等是不被允…

网站为什么要选择使用安全加速SCDN?

安全加速SCDN&#xff08;安全内容交付网络&#xff09;是一种网络加速服务&#xff0c;旨在提高网站和应用程序的性能和安全性。它使用专门的技术和基础设施来加速内容传输并保护网站免受网络攻击。 安全加速SCDN可以通过内容缓存、快速传输和动态路由技术来加速网站和应用程…

FPGA时钟资源详解(3)——全局时钟资源

FPGA时钟系列文章总览&#xff1a;FPGA原理与结构&#xff08;14&#xff09;——时钟资源https://ztzhang.blog.csdn.net/article/details/132307564 一、概述 全局时钟是 FPGA 中的一种专用互连网络&#xff0c;旨在将时钟信号分配到 FPGA 内各种资源的时钟输入处。这种设计…

【黑马头条】-day04自媒体文章审核-阿里云接口-敏感词分析DFA-图像识别OCR-异步调用MQ

文章目录 day4学习内容自媒体文章自动审核今日内容 1 自媒体文章自动审核1.1 审核流程1.2 内容安全第三方接口1.3 引入阿里云内容安全接口1.3.1 添加依赖1.3.2 导入aliyun模块1.3.3 注入Bean测试 2 app端文章保存接口2.1 表结构说明2.2 分布式id2.2.1 分布式id-技术选型2.2.2 雪…

【全栈小5】我的创作纪念日

目录 前言机缘收获粉丝和原创个人成就六边形战士 回顾文章原代码代码优化 憧憬 前言 全栈小5 &#xff0c;有幸再次遇见你&#xff1a; 还记得 2019 年 03 月 29 日吗&#xff1f; 你撰写了第 1 篇技术博客&#xff1a; 《前端 - 仿动态效果 - 展开信息图标》 在这平凡的一天&…