python爬取某金融网站的用户评论,并进行词云图可视化。

news/2024/5/9 18:38:53/文章来源:https://blog.csdn.net/qq_45058254/article/details/105147189

python爬取某金融网站的用户评论,并进行词云图可视化。

一,爬取数据

1. 唠叨一下
多说一句,这里编写的代码用来作为学习所用,希望使用者不要恶意的用来造成别人的网站服务器压力,我们爬到数据就行不要恶意运行代码,好了不多说了,说我们的正事。

2. 所要爬取的网站,及其数据
网站
http://www.affta.cn/financeReview.jspxpageNumber=1&pageSize=10&contentType=0&zim=#viewall
爬取的数据
在这里插入图片描述

3. 审查元素发现爬取的数据都是静态的,请求就可以得到,没有JavaScript,以及AjAX动态发送过来的,这样就好办了,直接解析网页,提取内容就可以了。

# -*- coding: utf-8 -*-
#@Project filename:PythonDemo  SpiserFinancial.py
#@IDE   :IntelliJ IDEA
#@Author :ganxiang
#@Date   :2020/03/27 0025 15:19
import json
import requests
import parsel
import pandas
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0"
}def process(url): #process()方法是爬取机构点评的数据,使用css提取数据print(url)res =requests.get(url,headers=headers)# print(res.text)sel =parsel.Selector(res.text)user_name =sel.css('p.list_org a span::text').getall()print(user_name)user_href =sel.css('p.list_org a::attr(href)').getall()print(user_href)comments =sel.css('p.list_content ::text').getall()print(comments)s =[user_name,user_href,comments]return sdef process_all(url):#process_all()方法是爬取全部点评的数据,使用xpath提取数据print(url)res =requests.get(url,headers=headers)# print(res.text)sel =parsel.Selector(res.text)info =sel.xpath('//*[@id="viewall"]/ul')for f in info:user_name =f.xpath('./li/div/p[2]/a/text()').getall()print(user_name)user_href =f.xpath('./li/div/p[2]/a/@href').getall()print(user_href)comments =f.xpath('./li/div/h4/a/text()').getall()print(comments)comments_href =f.xpath('./li/div/h4/a/@href').getall()print(comments_href)all_data =[user_name,user_href,comments,comments_href]return all_datadef save(text):#这里为了方便保存数据我直接使用pandas的DataFrame方法直接导出,会出现重复的用户,用户链接,用户评论的内容,这里没太多影响就没更一步的美化了# 这个data保存的是机构点评的数据data ={"用户":text[0],"用户链接":["http://www.affta.cn/financeReview"+x for x in text[1]],"用户评论内容":text[2]}# 这个all保存的是全部点评的数据# all ={#     "用户":text[0],#     "用户个人链接":text[1],#     "用户评论内容":text[2],#     "用户评论内容链接":text[3]# }df =pandas.DataFrame(data)# df.to_excel("./SaveData/financial.xlsx")df.to_csv("./SaveData/financial_机构点评.csv",mode="a",encoding='gb18030',index=1)#以追加的形式将数据写入到同一张csv表中def run():# urls =['http://www.affta.cn/financeReview.jspx?pageNumber={}&pageSize=10&zim=#viewall'.format(i)for i in range(1,19)]#这是全部点评的urlurls =['http://www.affta.cn/financeReview.jspx?pageNumber={}&pageSize=10&contentType=0&zim=#viewall'.format(i)for i in range(1,11)]#这是机构点评的urlfor url in urls:text =process(url)# text =process_all(url)print(type(text))save(text)if __name__ =='__main__':run()

上面代码是爬取机构点评的数据,运行结果如下图
在这里插入图片描述

二,词云图可视数据

得到数据为了方便他人浏览,这里简单的进行词云图的可视化,之前我也写了词云图可视化的代码,博文链接为https://blog.csdn.net/qq_45058254/article/details/104445612,可参考。

1,可视化用户评论次数结果
将用户的信息保存到一个txt文档中,然后读取数据,使用Wordcould,matplotlib库画词云图。

# -*- coding: utf-8 -*-
#@Project filename:PythonDemo  FinancialWordCloud.py
#@IDE   :IntelliJ IDEA
#@Author :ganxiang
#@Date   :2020/03/27 0027 17:33from wordcloud import WordCloud
import matplotlib.pyplot as pltwith open("./Read/user.txt",'r',encoding='utf-8') as f:txt =f.read()# print(txt)photo =plt.imread('./Read/t1.jpg')#形成词云图的图片形状wordCould=WordCloud(font_path="simhei.ttf",#设置输出词云的字体max_font_size=100,#设置字体的大小,默认200background_color='white',width=2300,height=1900,scale=3,#设置图的词密度random_state=50,## random.Random用来生成随机颜色mask=photo#设置图片形状).generate(txt)#根据用户的名字出现频率画词云图plt.imshow(wordCould,interpolation='spline16')plt.axis('off')plt.savefig('./Save/financial_user.jpg')plt.show()

用户词云图
在这里插入图片描述

2,根据用户的评论内容画词云图

原理跟上面一样的,这里不多说了,直接展示画好的图了。
在这里插入图片描述

最后,感觉有帮助的,点赞一哈,毕竟也写了一哈时间的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_862060.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Companion Sitemap Generator WordPres网站地图插件安装使用

Companion Sitemap Generator – HTML & XML是一款 WordPress网站地图插件,用于生成 WordPress网站地图。站点地图是一个 xml静态文件,提供网站页面信息。站点地图告诉搜索引擎哪些页面重要,并提供这些页面的有价值的信息。搜索引擎通过读…

wordpress友链插件SEO优化必备插件-Simple Links

WordPress SEO插件 – Simple Links。 这是由国人Awaken开发的一款方便添加内部链接的插件,可以让你轻松地在一篇文章中插入已经发布的文章的链接, 存放在/wp-content/plugins下解压 https://share.weiyun.com/2cL5IOfb

start.spring.io网站访问不到

start.spring.io网站经常访问不到,修改server URL为aliyun https://start.aliyun.com/

如何制作自己的网站?

1、购买一个域名,一个虚拟主机 2、解析该域名,进行DNS解析(有的需要是Cname解析) 查看解析是否成功: 运行输入cmd , Enter, 输入ping www.XXX.com ,Enter, 出现下图,解析成功 3、虚拟主机绑…

如何制作网站_如何制作自己的网站

如何制作网站_如何制作自己的网站 今天我们为初学者提供了一种快速简单的方法来创建网站,而无需学习HTML / CSS编码或阅读冗长乏味的教程。 在本指南中,我们将向你展示大多数Web开发人员如何构建他们的站点以及如何避免昂贵的网站建设费用,这…

5种简单方法来增加网站流量

5种简单方法来增加网站流量 你是否为努力增加网站流量而想尽一切方法,即使您已尝试过各种“方法”?无论你做什么,你的网站流量数字都不会让步......而且你的网站赚不到钱。好吧,我们今天分享实用的网站流量增长方法,希…

模板建站什么意思?对网站开发和运营好吗?

“模板建站什么意思?对网站运营好不好”这个问题是一个网友提问的,这边解答一下。模板建站的意思就是利用第三方平台提供的网站模板,自主建站。很多行业新人觉得模板建站对网站运营不利,但其实不然,说明你对模板建站还…

企业会用的网站制作软件有哪些?效果哪个好?

不同企业单位都有自己习惯用的网站制作软件,现在网上各种各样的网站制作软件有很多,要说效果哪个好,具体还是要根据程序员们的水平来定,根据我的经验,分为不同的等级水平分享一些我所了解的网页制作软件: …

实测分析免费建站软件有哪些?哪个最好?

免费建站软件行业从很早之前就已经开始发展,很多个人站长都利用免费建站软件平台拥有自己的博客、论坛、网站……建站的目的各不相同,有的是为了个人爱好,有的是为了创业,有的是为了展示个人工作室,我自己亲测了很多免…

SEO建站优化白皮书之如何给网站定位?

同样都是做网站,为什么我的网站就是不如别人的网站效果好呢?问题出在网站定位没做好! 一、网站定位是什么? 简单来说,网站定位就是确定网站的风格、用途、展现形式等内容。很多企业组织或个人希望通过建立网站&#x…

什么是网站建设?网站建设的常见要素有哪些?

互联网时代,越来越多的企业想要建设自己的网站,但是等到真的开发完网站之后,又傻眼了:网站该怎么建设,才能发挥它的作用?甚至有些小白对什么是网站建设都没有概念。 那么我首先跟大家科普下网站建设是什么…

不懂技术的小白,使用电商网站建设工具有什么注意事项?

对于不懂代码,不会技术的小白来说,想要做一个电商网站,快速的方式应该就是使用电商网站建设工具。而且现在很多程序员如果要做电商网站,也会使用很多国内外的电商网站建设工具。但是电商网站也有很多需要注意的地方,接…

简历类个人网站如何制作?

又是一年毕业季,各位找工作的毕业生们想必已经开始忙碌了。找工作的第一步便是让HR认识自己,但是,普通的简历所承载内容有限,而且只有文字部分,想要单凭纸质简历从众多竞争者中脱颖而出,实在太难了。 另外…

个人博客建站教程最全解析

前不久开始筹备自己的个人博客网站,由于没有经验,走了不少弯路。今天把个人博客搭建需要了解的相关知识整理一下,也给大家解答下一些常见问题。 首先是关于个人博客建站的难易度问题,很多人都以为不懂代码无法建站,于…

我的个人博客网站是怎么制作的?

首先得恭喜自己,因为今天我的个人博客网站终于上线了!要问到我做个人博客的初衷是什么?这得追溯到大学的时候,大学刚接触到Dreamweaver,喜欢上Photoshop是就萌芽出做一个属于自己的网站。那时就在想有个自己的网站得多…

网站制作中如何增加界面的信任体验

建站者在制作网站过程中需要站在用户的角度去考虑网站的信任体验,如何增加信任体验,延长用户浏览网站的时间,重在细节斟酌,强调稳定性,小编今天给大家总结一下: 1、底部信息:网站底部信息内容是…

新手如何建立网站,网站建设的几个步骤。

一、购买域名 新手建立网站,域名是必不可少的。简洁的域名能让人记忆深刻。选择域名大部分都以.com为主,也有很多新的后缀域名。域名后缀不同价格也不同,一般以年为单位。新手可以到阿里域名平台购买。二、购买虚拟主机 虚拟主机和服务器可…

网站建设后怎么提高网站打开相应速度

怎么提高网站打开相应速度 很多用户会发现做网站发布到服务器上后访问速度很慢,这个对网站来说是个致命伤,网站相应速度慢,即使网站做的很漂亮,内容很完整,客户打开蜗牛一样的也会失去耐心,可能直接关闭网站…

企业建站的意义是什么

建网站最根本的作用就是宣传,互联网,是一个可以用最低的成本让企业形象和产品传播更远的的方案。当前时代已经到了网络时代后期,但是很多企业管理者还是没有真正适应这个时代,观念没有转变过来,这是需要管理者多和网络…

企业网站制作需要注意什么?

企业在网页设计上往往搞不清楚自己想做成怎么样?想实现怎么样的效果?今天小编给大家分析几点关于网站设计的事项:一、网页布局类型 一、网页布局类型 网页布局大致可分为“国”字型、拐角型、标题正文型、左右框架型、上下框架型、综合框架型…