一个完整的大作业:80电影天堂网站

news/2024/5/12 14:45:41/文章来源:https://blog.csdn.net/weixin_33904756/article/details/94463362

 

1.选一个自己感兴趣的主题。

2.网络上爬取相关的数据。

3.进行文本分析,生成词云。

4.对文本分析结果解释说明。

5.写一篇完整的博客,附上源代码、数据爬取及分析结果,形成一个可展示的成果。

网站:80电影天堂网站(http://www.80dyy.cc/80kehuan/index.html)

我预期是首先完成的爬取所有科幻片的演员的名字,然后分析出哪些演员的频率高,得知他在该网站的电影中的热门程度

分析网站,看的电影的标题和连接放在<li>标签里面的<dl>标签里,主要看代码部分的解释

爬取内容保存到数据库代码import requests

由于<dl>标签里 的连接只是后面那部分,所以使用了一条循环,补全链接

for names in soup.select('dl'):      name = names.select('a')[0]['href']addname = "http://www.80dyy.cc{}".format(name)        

提取内容到数据库的代码:

 

import re
from bs4 import BeautifulSoup
from datetime import datetime
import pandas
import sqlite3def getdetail(url):resd = requests.get(url)resd.encoding='gbk'   soupd=BeautifulSoup(resd.text,'html.parser')namels={}#print(url)for names in soupd.select('.mtext'):namels['标题'] = names.select('li')[0].contents[0].textnamels['链接']= urlaction= names.select('li')[1].textaction = action.replace('\xa0',' ')namels["演员"] = action[3:len(action)+1]return(namels)def onepage(pageurl):res = requests.get(pageurl)res.encoding = 'gbk'soup = BeautifulSoup(res.text,'html.parser')namels = []for names in soup.select('dl'):      name = names.select('a')[0]['href']#print(name)addname = "http://www.80dyy.cc{}".format(name)
        namels.append(getdetail(addname)) #break  #这个用来停止循环,等一页的所有信息都完成后删去即可return namelsnewst= []
zurl = 'http://www.80dyy.cc/80kehuan/'
resd = requests.get(zurl)
resd.encoding='gbk'   
soup=BeautifulSoup(resd.text,'html.parser')
newst.extend(onepage(zurl))for i in range(2,4):listurl='http://www.80dyy.cc/80kehuan/index{}.html'.format(i)newst.extend(onepage(listurl))#print(newst)
    
df = pandas.DataFrame(newst)
with sqlite3.connect("dyactiondb10.sqlite") as db:df.to_sql('dyactiondb108',con = db)

 

 保存成功

 保存到本地excel并查看excel表格:

df = pandas.DataFrame(newst)
df.to_excel('dyaction.xlsx')

 

 

 

 

 

 

 

由上面得到的列表newst。接下来把列表的演员全部输出,并保存到text文件里。

df = pandas.DataFrame(newst)
print(df["演员"])

 

由于文件内容过多,我选择先完成2个页面的输出:

处理成字符型数据:

df = pandas.DataFrame(newst)
#print(df["演员"])
straction = " ".join(df["演员"])
print(straction)

输出的结果:

 

 接下来,做词云统计。

把保存到text的文件先统计出现的次数,看有没有不相干的词语。

import jiebatxt = open("ac1.txt","r",encoding='utf-8').read()ls = []
words = jieba.lcut(txt)
counts = {}
for word in words:ls.append(word)if len(word) == 1:continueelse:counts[word] = counts.get(word,0)+1items = list(counts.items())
items.sort(key = lambda x:x[1], reverse = True)
for i in range(50):word , count = items[i]print ("{:<10}{:>5}".format(word,count))

结果:

 

接下来完成词云部分:

 

 

import jieba
import WordCloud
import matplotlib.pyplot as plttxt = open("ac1.txt","r",encoding='utf-8').read()wordlist = jieba.cut(text,cut_all=True)
wl_split = "/".join(wordlist)mywc = WordCloud().generate(text)
plt.imshow(mywc)
plt.axis("off")
plt.show()

分析出迈克尔、克里斯、约翰、威廉等词出现的次数最多。

 

转载于:https://www.cnblogs.com/ruijin-chen/p/7718896.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_792657.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新手如何掌握制作和提交网站地图?

新手如何掌握制作和提交网站地图? 网站地图作为根据网站的结构&#xff0c;框架&#xff0c;内容生成的导航网页文件。 大多数人都知道网站地图对于提高用户体验有好处&#xff1a;它们为网站访问者指明方向&#xff0c;并帮助迷失的访问者找到他们想看的页面。 那么什么是网站…

SEO实战干货:网页建库与未建库的标准规则!

很多SEO人稍微有点基础就都知道降权这个词语&#xff0c;但是在搜索引擎规范标准指南里面并未提到站点降权一说&#xff0c;严格来讲用建库这个说法更加准确。首先我们不妨来回顾一下搜索结果排序的过程&#xff0c;从蜘蛛的爬行到蜘蛛的抓取再到网页收录(这里面包括了页面纯收…

WPF使用Hyperlink超链接跳转到外部网站

效果如下&#xff1a; xaml文件主要代码如下&#xff1a; <TextBlock>for more information,please click<Hyperlink NavigateUri"http://www.baidu.com" Click"lnk_Click">baidu</Hyperlink></TextBlock>在.cs文件中添加点击响应…

网站seo方案模板_百度SEO优化:搜索引擎提高网站排名的方案

在涉及到网站优化&#xff0c;大家都想着为自己的网站能在搜索引擎排名比较靠前的位置&#xff0c;希望更多人访问或者给搜索用户对自己的网站留下良好印象&#xff0c;那么这就需要我们SEO的网站优化操作了&#xff0c;那么如何将自己的网站在搜索引擎中有个好的排名呢?下面锐…

wps2019不能用自网站的数据_抖音运营常用的8个数据分析网站,自媒体小白必备...

众所周知在抖音里面一个视频能爆在机缘巧合因素之外也必定蕴藏着整体市场与用户特定需求及兴趣点的反馈一个好的选题、音乐、入境人物或道具都是会从不同程度影响视频的整体传播指数运营者在看热门视频或热门音乐时不能只纯看热闹更要从运营角度去分析视频数据今天我们就带来&a…

中南大学python程序设计实践_「中南大学教务管理系统」中南大学教务系统学生成绩爬虫 - seo实验室...

中南大学教务管理系统 写本博客的原因 其实这个项目很早前我就做完了&#xff0c;当时由于时间仓促&#xff0c;仅在csdn上传了打包后的程序&#xff1a;点击下载&#xff0c;没想到陆陆续续有校友找到了我&#xff0c;这让我受宠若惊&#xff0c;恰巧暑假放假在家&#xff0c;…

静态部署_Hugo部署静态网站设计的一些思考

静态网站设计的个人思考为什么要搭建自己的静态博客系统&#xff1f;写好的Markdown可以快速的发布到自己的博客网站上&#xff0c;不需要什么一键式多平台发布、自媒体自动同步(支持的不全面)没有广告&#xff0c;页面干净酸爽高度自由化&#xff0c;支持定制化css样式&#x…

python 异步加载图片_Python爬虫学习笔记(1.3)爬取网站异步加载数据

异步加载数据&#xff1a;简单的举个例子&#xff0c;有些网页不需要换页&#xff0c;只要网页上的滚动条滑到最下方&#xff0c;它就会自动加载部分数据&#xff0c;和瀑布流一样&#xff0c;可以持续不断的加载数据 &#xff0c;这些持续加载的数据就属于异步数据(由js控制&a…

爬虫技术教程 java_基于java的小说网站网络爬虫程序开发视频教程 下载

简介&#xff1a;基于java的小说网站网络爬虫程序开发视频教程下载基于java的小说网站网络爬虫程序开发视频教程附代码资料10课|____注意&#xff01;很重要&#xff0c;观看前必读说明.txt|____99.资料|____novel.web-0.0.1-SNAPSHOT.war|____generator.zip&nb基于java的小…

500个符合web标准的网站模板

链接地址:http://bolm.cn/xhtml/ 转载于:https://www.cnblogs.com/xiaozhuoyun/archive/2007/12/07/987031.html

使用C#登录带验证码的网站

转载自:http://www.cnblogs.com/studyzy/archive/2008/05/08/1187626.html 我在上一篇文章中已经讲解了一般网站的登录原来和C#的登录实现&#xff0c;很多人问到对于使用了验证码的网站该怎么办&#xff0c;这里我就讲讲验证码的原理和对应的登录方法。 验证码的由来 几年前&a…

给你一份网站升级攻略,让你的网站焕然一新

关键词&#xff1a;网站建设&#xff0c;企业官网 虽然已有官网&#xff0c;但是公司业务繁忙没时间去维护&#xff1f;久而久之网站就出现了很多问题&#xff0c;老板不看还好&#xff0c;一看不得了&#xff0c;糟糕的界面&#xff0c;过时的内容&#xff0c;还怎么好意思拿去…

大型网站架构演变和知识体系

之前也有一些介绍大型网站架构演变的文章&#xff0c;例如LiveJournal的、ebay的&#xff0c;都是非常值得参考的&#xff0c;不过感觉他们讲的更多的是每次演变的结果&#xff0c;而没有很详细的讲为什么需要做这样的演变&#xff0c;再加上近来感觉有不少同学都很难明白为什么…

织梦网站修改栏目模型后,文章不显示的解决办法

在一次织梦网站改版的过程中&#xff0c;有一个栏目需要改成一个新建的内容模型&#xff0c;这时候就会遇到一个问题&#xff0c;栏目的文章会突然“消失不见”&#xff0c;这是因为更改之后栏目文章会因为数据表没有更改所导致的。找到了一个方法&#xff0c;大家一起来看看吧…

学习英语的好网站 (要时刻保持对英语的热情与激情,呵呵)

这些网站是从新东方尹圆圆老师的博客上找来的&#xff0c;希望大家好好利用&#xff1a; 1. http://www.texun.cn/addrso/index.htm 特训网&#xff1a;English Learning Websites 2. http://broadcast-live.com/ Live Radio and TV from Around the World 3. http://www.nxeng…

CDN内容分发服务推荐-加速你的网站

CDN内容分发服务推荐-加速你的网站 导语 CDN的全称是Content Delivery Network&#xff0c;即内容分发网络。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节&#xff0c;使内容传输的更快、更稳定。 CDN服务公司推荐 免备案&#xff08;免费&#…

怎么在php上加栏目,wordpress网站如何添加栏目

wordpress自定义栏目设置方法用wordpress程序建站时&#xff0c;往往很难去设置产品的大小、重量、单价等参数&#xff0c;好在wordpress有一个自定义栏目功能。我们可以通过wordpress自定义栏目给产品增加参数属性。设置方法首先是开启自定义栏目模块&#xff0c;进入后台后&a…

十大网站管理工具

引用:http://www.williamlong.info/archives/1278.html 当网站发展到一定的规模&#xff0c;站长就应该开始考虑要为网站托管服务器。通常情况下服务器会被放到电信或网通的机房&#xff0c;网站管理员通过远程来管理服务器。在网站服务器进行托管时&#xff0c;需要安装一些常…

提高网站加载速度的3项黄金守则

如何优化网页加载速度是每个前端开发工程师需要了解的&#xff0c;也是前端开发工程师需要具备的基本条件。 优化网站加载速度的原理主要是减少网站文件的大小&#xff0c;减少HTTP请求数。网站文件越小&#xff0c;浏览器加载页面会比较轻松&#xff0c;打开页面的速度也会提升…

网站架构设计

centos7.5网站架构设计 如图&#xff1a; 大致流程&#xff1a; 1、用户访问网站通过防火墙&#xff0c;连接三层交换机到达web服务器 2、负载均衡服务器根据各个服务器的负载合理调节资源 3、web服务器先去缓存服务器找相应的资源&#xff0c;若没有&#xff0c;再去数据库等…