词云绘制,推荐三种 Python包外加一个在线网站!

news/2024/5/20 20:10:32/文章来源:https://blog.csdn.net/weixin_42512684/article/details/113806725

词云是文本可视化的重要方式,可将大段文本中的关键语句和词汇高亮展示,

本篇文章先介绍几种制作词云的 Python 库,分别是 WordCloud、StyleCloud、Pyecharts;再加一个在线词云制作网站;最后通过代码实操和可视化效果对它们做个简单比较

WordCloud、StyleCloud、Pyecharts 这三个包制作词云都具备一个特点:仅需几行代码就能绘制出一张精美的词云图,但需设置的参数量较大

WordCloud

WordCloud 是 Python 做词云图使用频率最高的一个库,上手简单,操作方便;词云 mask 形状可以自定义;后面介绍的两款库都是基于它 进行二次开发

WordCloud 把所有方法都封装到 WordCloud 类中,使用时只需更改一些参数,来调整词云图样式

以一个简单的 圆形 词云图为例,

先用 collections 构建了一个词频字典, 之后利用 WordCloud() 中的 generate_from_frequencies() 方法来拟合传入的文本

关于词云形状 ,下面代码中通过 numpy 生成一个圆形二值化数组作为 mask 参数;

from wordcloud import WordCloud
from collections import Counterword_list = []
with open("danmu.txt",encoding='utf-8') as f:words = f.read()for word in words.split('\n'):if re.findall('[\u4e00-\u9fa5]+', str(word), re.S):  # 正则表达式匹配中文字符word_list.append(word)def SquareWord(word_list):counter = Counter(word_list) # 计算词频;start = random.randint(0, 15) # 随机取0-15中间一个数字;result_dict = dict(counter.most_common()[start:]) # 在 counter 中取前start 个元素;x,y = np.ogrid[:300,:300] # 创建0-300二维数组;mask = (x-150)**2 + (y-150)**2>130**2 #创建以 150,150为圆心,半径为130的Mask;mask = 255*mask.astype(int) # 转化为 intwc = WordCloud(background_color='black',mask = mask,mode = 'RGB',font_path="D:/Data/fonts/HGXK_CNKI.ttf",  # 设置字体路径,用于设置中文,).generate_from_frequencies(result_dict)plt.axis("off")plt.imshow(wc,interpolation="bilinear")plt.show()SquareWord(word_list)# 绘制词云图主函数

效果如下:

square

WordCloud 相对于其它两个 Python 库最突出的一个点:**可以自定义 Mask **,通过 mask 参数传入一个 numpy 数组,来设定词云形状

但需要注意的是文本只填充 value!=255 的区域,对 Value ==255 区域忽略 ,所以如果作为mask的备选图像不满足这个条件的话,需对图像进行预处理如下,背景用纯白色像素填充

image-20210210103201422

自定义mask词云绘制

def AliceWord(word_list):counter = Counter(word_list)  # 计算词频;start = random.randint(0, 15)  # 随机取0-15中间一个数字;result_dict = dict(counter.most_common()[start:])  # 在 counter 中取前start 个元素;# x, y = np.ogrid[:300, :300]  # 创建0-300二维数组;# mask = (x - 150) ** 2 + (y - 150) ** 2 > 130 ** 2  # 创建以 150,150为圆心,半径为130的Mask;# mask = 255 * mask.astype(int)  # 转化为 int# 读取图片作为 Maskalic_coloring = np.array(Image.open("D:/Data/WordArt/Alice_mask.png"))wc = WordCloud(background_color = "white",# 设置背景颜色mode ="RGB",mask=alic_coloring,# 为None时,自动创建一个二值化图像,长400,宽200;min_font_size=4,#  使用词的最小频率限定;relative_scaling= 0.8,# 词频与大小相关性font_path="D:/Data/fonts/HGXK_CNKI.ttf",  # 字体路径,用于设置中文,).generate_from_frequencies(result_dict)wc.to_file("D:/Data/WordArt/wordclound.jpg")# 把生成的词云图进行保存plt.axis("off")plt.imshow(wc, interpolation="bilinear")plt.show()

可视化效果

wordclound

最后,这里提一下 WordCloud 中最主要的几个参数设定:

  • background_color(type->str) ,颜色名字或颜色代码,设置词云图的背景色
  • font_path(type->str), 自定义字体路径,需要注意的时若预览的是中文文本,这个参数必须设置,否则会出现乱码情况;
  • mask(type->ndarray),自定义词云形状,绘制时忽略纯白区域;
  • mode(type->str),设为 ’RGBA‘ 时,背景为透明,默认为 ’RGB‘;
  • relative_scaling(type-> float),词汇频率与最终词汇展示大小相关性,取值 0 -1;这个值越大相关性越强,默认为 0.5;
  • prefer_horizontal(type->float),控制水平文字相对于处置显示文字的比例,越小则词云图中竖直显示文字越多;

除了以上参数之外,还可以设定 颜色,禁用词,是否出现重复词 等信息

image-20210210110804316

详情可参考官方文档

https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html#wordcloud.WordCloud

StyleCloud

StyleCloud 是基于 WordCloud 开发的,在 WordCloud 的基础上又加入了一些新特性

image-20210210114111274

  • 1,支持颜色渐变;
  • 2,关于词云颜色,可以通过设计好的调色板来设置;
  • 3,支持图标 作为 mask,这个新特性是最赞的,并且设置时可直接对接 Font Awesome 网站,这里面有各式各样的图标
  • 4,除了 text文本可作为词汇输入之外,还支持等 csv、txt 文件格式的输入;

主程序只需一行代码即可

def Style_WordArt():# StyleClound 绘制词云图stylecloud.gen_stylecloud(file_path = "danmu.txt",#词云文本background_color='white',#背景颜色palette="colorbrewer.qualitative.Dark2_7",#调色板,来改变词云图文本颜色icon_name='fas fa-cat',# 词云图标;font_path= "D:/Data/fonts/HGXK_CNKI.ttf",# 中文字体路径random_state=40,#控制文本颜色随机状态;invert_mask= False,# 最终Mask是否逆置;output_name="D:/Data/WordArt/styleclound.jpg",# 图片保存路径)

效果如下:

styleclound

修改蒙版的话只需要更改 icon_name 参数即可,可参考 Font Awesome 网站,https://fontawesome.com/icons?d=gallery&m=free,里面几千种图案都可以使用

image-20210210115437929

icon_name名称的设置为目标图标的 class 标签即可,如下

image-20210210120030256

icon_name = 'fas fa-dog'

styleclound1

icon_name ='fab fa-amazon' 时:

styleclound11

关于词云颜色调色板设定,修改 palette 参数即可,palette 设定可参考 Palettable 网站:https://jiffyclub.github.io/palettable/ ,有多种调色样式模板可供选择

image-20210210120541712

其中上面每个模块中又有许多子模块,为最终需要设置的调色板

image-20210210121310786

设置时选择任意模板的子模板即可, 不需要前面的palettable. 字符串;例如我想设置 palettale.colorbrewser.qualitative.Dark2_3 作为调色版,只需要将 palettle = 'colorbrewser.qualitative.Dark2_3'即可

设置不同的调色板,最终会有不同的样式效果哦!

paletabble ='colorbrewer.qualitative.Paired_10'

image-20210210121514012

paletabble ='lightbartlein.diverging.BlueDarkOrange12_11'

image-20210210121739080

关于 Stylecloud 其它参数用法,可参考官方文档 https://github.com/minimaxir/stylecloud

Pyecharts

Pyecharts 是基于 Apache Echarts 开发的,主要用于数据可视化;词云图只是其中众多图表类型中的一个,相对于前两种词云包,Pyecharts 的可视化效果要弱一些

但 Pyecharts 将词云图保存为单个 html 文件,最终呈现出来有一定的交互效果

word

代码部分

from pyecharts.charts import WordCloud
import pyecharts.options as optsword_list = []
with open("danmu.txt",encoding='utf-8') as f:words = f.read()for word in words.split('\n'):if re.findall('[\u4e00-\u9fa5]+', str(word), re.S):  # 正则表达式匹配中文字符word_list.append(word)def Pyecharts_wordArt(word_list):counter = Counter(word_list)  # 计算词频;start = random.randint(0, 15)  # 随机取0-15中间一个数字;result_dict = list(counter.most_common()[start:])  # 在 counter 中取前start 个元素;print(result_dict[5:])Charts = WordCloud().add(series_name="Pyecharts", data_pair=result_dict, word_size_range=[6, 66]).set_global_opts(title_opts=opts.TitleOpts(title="Pyecharts", title_textstyle_opts=opts.TextStyleOpts(font_size=23)),tooltip_opts=opts.TooltipOpts(is_show=True),)Charts.render("Pyecharts_Wordclound.html")Pyecharts_wordArt(word_list)

需要注意的是,Pyecharts 输入的文本需要是列表类型, 并且每隔词语与他出现的频率以数组形式存在,格式如下:

image-20210210130357486

总结

在这三种词云图的基础上,这里再推荐一个词云在线制作网站,WordArt.com, 最终的可视化效果要优于上面三种,并且调整样式也非常方便,简单直观,如果制作词云图数量不是很多的话,建议借助这个网站进行绘制

image-20210210131002843

要对这几个工具做个比对的话,从下面几个角度我对它们做了个排序

可视化效果

WordArt > Stylecloud > WordCloud > Pyecharts

交互效果

WordArt > Pyecharts > StyleCloud = WordCloud

自动化效率

Pyecharts = StyleCloud = WordCloud > WordArt

上手容易程度

WrodArt > StyleCloud > Pyecharts > WordCloud

至于最终选择那个作为最终词云绘制工具,需要结合自身情况及使用场景进行选择,但无论哪一种工具,都要要提前简单了解一下

好了,以上就是本篇文章的全部内容了,最后感谢大家的阅读,我们下期见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_764693.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue + Django + PaddleOCR 实现一个在线OCR 识别网站,一键上传快速识别

大家好,我是小张~ 之前写过一篇博文介绍了一款OCR 识别库,识别精度能达到商用级别,并且支持多语言识别,使用详情请参考文章:文本OCR,这个Python库识别效果不输于商用!, 除了Paddle…

写一个简单的网站首页,初识 CSS 中 Flex 布局

之前一直用 VUE 写后台管理界面,对前端 CSS 这块一直是半知半解,为了巩固这方便知识,抽空写一些基础页面来巩固一下 今天带来的是一个简单的网站首页,源于《深入解析CSS》中的案例,首页做了简单的自适应,但…

印象笔记如何分享链接_杭州诠网科技分享seo优化如何做好网站的反向链接

几乎所有的网站管理员都希望自己的网站能够在百度、谷歌和其他搜索引擎中排名靠前。因为在搜索引擎排名靠前可以给网站带来很多新客户,这有利于网站产品或服务的营销和网站品牌的提升。虽然我们还没有找到一个神奇的公式来提高网站在搜索引擎中的排名。但是很多例子…

linux网站宝塔无法访问ipv6,centos7宝塔面板服务器开启纯IPV6访问

随着互联网世界日新月异的发展,ipv6好像已经成为一种必不可少的趋势,但是当前国内机房大部分还不能支持ipv6,腾讯云亦如此。同时,现在有部分程序在服务器上运行的时候,需要服务器能监听一个ipv6地址才行,因…

【伸手党福利】【第一弹】jeecg-boot前端主要更改位置(网站标题栏图标、logo、登录后的logo、显示的标题文字、用户头像)

【伸手党请光看标题】 网站标题栏图标 位置 ant-design-vue-jeecg\public\index.html 1、index.html标题在head第9行替换掉&#xff0c;然后复制ico到/public <link rel"shortcut icon" href"<% BASE_URL %>favicon.ico" type"image/x-ic…

关于百度机器人搜索你网站的页面权限设置

百度robots.txt上加 User-agent: * Disallow: / 这可能涉及到公司的网站是否存在信息泄露的风险

git 在线学习网站

Learn Git Branchinghttps://learngitbranching.js.org/?NODEMO&localezh_CN

在线测试键盘网站

在线键盘测试 | zFrontier 装备前线键盘测试工具&#xff0c;在线使用&#xff0c;无需下载&#xff0c;快速检测键盘好坏&#xff0c;兼容各种配列机械键盘、客制化键盘、薄膜键盘https://www.zfrontier.com/lab/keyboardTester

在线 YAML 转 Properties 网站

在线YAML转Properties工具- ToolTT在线工具箱https://tooltt.com/yaml2properties/

revel MySQL_使用Revel(go)开发网站

Revel很好的利用了Go语言的goroutine&#xff0c;把每一个request都分配到了goroutine里。不用再写一大堆的回调。如果你写过nodejs的话就会深刻的体会到callback hell是什么样子的。正是由于Revel有了goroutine&#xff0c;Revel的性能也有了很大的提升。官网号称请求的吞吐量…

SEO研究:网站结构

在衡量所有权重之间&#xff0c;网站结构大概占到30%&#xff0c;这也是很多网站排名不好&#xff0c;或者有站长根本不用优化就能获得很好排名的原因。说到结构必须明白两个概念&#xff0c;一个是物理概念,就是文件存放的路径&#xff0c;另一个是逻辑结构。比较好的情况是逻…

c 获取网站服务器时间,c 获取服务器的时间

c 获取服务器的时间 内容精选换一换当NTP服务器异常时产生该告警。当NTP服务器异常消除时&#xff0c;该告警恢复。主OMS节点配置的NTP服务器异常&#xff0c;可能会导致主OMS节点与外部服务器不能同步时间&#xff0c;集群时间可能会产生飘移。NTP服务器网络异常。与NTP服务器…

Silverlight SEO优化

Silverlight SEO优化SEO优化 2008年10月份&#xff0c;微软发布了针对Silverlight应用程序进行搜索引擎优化的指导文档&#xff0c;该文档描述了对Silverlight应用程序进行搜索 引擎优化一些最佳实践。这些实践知识可以帮助开发人员将他们开发的基于Silverlight的内容能够出现在…

[Python爬虫]模拟登陆**查网站

这是一篇使用Python模拟登陆##查网站的详细介绍&#xff0c;##查网站上有许多的企业信息&#xff0c;因此抓取##查数据十分重要&#xff0c;本文使用selenium模拟登陆##查网站。 其实我之前就想写这个python模拟登录网站的&#xff0c;因为之前爬虫用的时候感觉还挺好用的&…

ansi c++ 标准 电子书_如何最快速地转换电子书的格式?最全的格式转换网站集合!...

将如果你喜欢看电子书&#xff0c;那么电子书的文件格式就是你必须了解的。不同的电纸书、不同的阅读应用能打开和编辑的电子书格式是不同的&#xff0c;对于使用kindle 的小伙伴来说&#xff0c;EPUB 电子书就是无法使用的&#xff0c;而mobi、azw3 等格式就是显示效果最好的。…

vue seo关键词设置_百度SEO关键词排名规则详解

搜索引擎的作用都是为了用户能够快速地检索信息&#xff0c;但各大搜索引擎平台的SEO关键词排名规则却不尽相同&#xff0c;由此也形成了各平台搜索易用性及SEO策略之间的较大差异。以下以国内市场份额最大的百度搜索为例&#xff0c;详尽分析其关键词排名规则及最新的SEO策略。…

网络连接异常、网站服务器失去响应_服务器一直被攻击怎么办?

有很多人问说&#xff0c;网站一直被攻击&#xff0c;什么被挂马&#xff0c;什么被黑&#xff0c;每天一早打开网站&#xff0c;总是会出现各种各样的问题&#xff0c;这着实让站长们揪心。从修改服务器管理账号开始&#xff0c;到修改远程端口&#xff0c;什么措施都做了&…

网站部署到IIS上如何进行调试

在一个网站成功部署后&#xff0c;有时候可能会遇到一些错误&#xff0c;但又不能一眼看出错误源&#xff0c;如果能在源程序里下断点进行调试就好了&#xff0c;这样就能准确的找出错误代码。 下面就跟大家说说如何在一个已经部署了的网站上进行断点调试&#xff08;前提 有网…

使用pp架构形成计算机集群请求的地址无效_分布式之大型网站架构学习笔记

学习笔记1、大型网站架构的发展史(红字就是每一步发展历程的关键)(1)从一个小网站发展起来&#xff0c;一台服务器&#xff0c;应用程序、数据库、文件等所有资源都在一台服务器上(2)网站业务的发展&#xff0c;一台服务器逐渐不能满足需求&#xff0c;因此要将应用和数据分离&…

网站会员整合ucenter 实现多站点同步登录方法(转)

之前简单的写过一篇的用户注册整合ucenter的文章&#xff0c;因为写的很简洁&#xff0c;很多童鞋都看的不是很明白&#xff0c;也收到了很多童鞋的问题邮件。前几天因为公司的几个 网站需要做同步登录功能&#xff0c;因此就用到了ucenter作为中间桥梁。现在很多开源的cms系统…