爱奇艺视频网站数据清洗整理和结论研究

news/2024/5/12 9:27:53/文章来源:https://blog.csdn.net/sinat_39480731/article/details/82696998
'''
1、数据清洗 - 去除空值
'''
import numpy as np
import pandas as pd data = pd.read_csv('C:/Users/HP/Desktop/爱奇艺视频数据.csv',engine = 'python')def data_cleaning(df):for col in df.columns:if df[col].dtype == 'object':df[col].fillna('缺失数据',inplace = True) #fillna方法填充缺失数据,注意inplace参数else:df[col].fillna(0,inplace = True)return (df)data_c1 = data_cleaning(data)
data_c1.iloc[20:30]
'''
2、数据清洗 - 时间标签转化
'''
def date_cleaning(df,*cols):for col in cols:df[col] = df[col].str.replace('年','.')df[col] = df[col].str.replace('月','.')df[col] = df[col].str.replace('日','.')df[col] = pd.to_datetime(df[col]) # 需要将中文日期转化为非中文日期return (df)
data_c2 = date_cleaning(data_c1,'数据获取日期')
'''
3、 分析出不同导演电影的好评率,并筛选出TOP20
'''
df_dir = data_c2.groupby('导演').sum()[['好评数','评分人数']] #好评率 = 好评数 / 评分人数
df_dir['好评率'] = df_dir['好评数']/df_dir['评分人数']
df_dir = df_dir.sort_values('好评率',ascending = False)[:20]
print(df_dir)

执行结果:

                 好评数          评分人数       好评率
导演                                           
王静       5.601448e+06  5.602704e+06  0.999776
萧锋       4.415545e+07  4.416801e+07  0.999716
向灼       3.685386e+06  3.691240e+06  0.998414
乌兰塔娜     1.916524e+07  1.920091e+07  0.998142
徐宗政      3.113422e+06  3.123920e+06  0.996639
欧凡       3.088701e+06  3.100421e+06  0.996220
肖光辉      3.264290e+05  3.284140e+05  0.993956
张国立/罗长安  8.177111e+06  8.230880e+06  0.993467
刘逢声/林峰   3.591638e+06  3.617351e+06  0.992892
林添一      1.049628e+09  1.057556e+09  0.992504
毛尉光      1.747925e+06  1.766237e+06  0.989632
郭东旭      1.027664e+06  1.039609e+06  0.988510
苏沅峰/张艺腾  3.600976e+06  3.643071e+06  0.988445
袁刚/成志超   1.185439e+07  1.200596e+07  0.987375
胡雪杨      1.042170e+06  1.056247e+06  0.986673
丁晓雄      1.568219e+06  1.591727e+06  0.985231
延艺       4.094535e+07  4.157757e+07  0.984794
潇庸       5.338679e+06  5.427978e+06  0.983548
白羽/陈迅    1.705608e+07  1.737295e+07  0.981761
张蠡/姜峰    2.100617e+08  2.143382e+08  0.980047
import matplotlib.pyplot as plt
import matplotlib as mpl
%matplotlib inlinempl.rcParams['font.sans-serif']=['SimHei']  #调整字体格式,防止中文不能显示
mpl.rcParams['axes.unicode_minus']=False
mpl.rcParams['font.size']=15 # 设置字体大小fig = plt.figure(figsize = (15,6))
df_dir['好评率'].plot(kind = 'bar',width = 0.8,rot = 45,color = 'grey',ylim = (0.98,1),   alpha = 0.8,edgecolor ='k')
plt.title('不同导演的好评率TOP20\n',fontsize = 20,color = 'k')
plt.grid(True,linestyle = '--',linewidth = 0.5,color = 'grey')
plt.xlabel('导演',fontsize = 15)
for i,j in zip(range(20),df_dir['好评率']):plt.text(i-0.4,0.981,'%.4f'%j,fontsize = 12)

这里写图片描述

'''
4、统计分析2001-2016年每年评影人数总量
'''
q1data = data_c2[['上映年份','整理后剧名','导演']].drop_duplicates()
q1data = q1data[q1data['上映年份']!= 0]q2data = data_c2.groupby('整理后剧名').sum()[['评分人数','好评数']]
q3data = pd.merge(q1data,q2data,left_on = '整理后剧名',right_index = True)
q4data = q3data.groupby('上映年份').sum()[['评分人数','好评数']]
print(q4data.head())# 通过面积图,做图表可视化,分析每年人数总量变化规律。
fig1 = plt.figure(num = 1,figsize = (14,6))
q4data['评分人数'].loc[2001:].plot.area(grid = True,alpha = 0.8,)
plt.xticks(range(2001,2017))
plt.grid(True,linestyle = '--',linewidth = 0.5,color = 'grey')
plt.title('2001-2016年每年评影人数总量\n',color = 'k',fontsize = 20)#通过箱型图验证异常值情况
fig,axes = plt.subplots(4,4,figsize = (14,18))
start = 2001
for i in range(4):for j in range(4):data = q3data[q3data['上映年份'] == start]f = data[['评分人数','好评数']].boxplot(whis = 3,sym = '+',grid = True,return_type = 'dict',ax = axes[i,j])start += 1

运行结果:

             评分人数        好评数
上映年份                        
1937.0    84367.0    63120.0
1985.0   163064.0   135462.0
1986.0    58593.0    41216.0
1987.0  3930018.0  3728651.0
1988.0   410722.0   337484.0

这里写图片描述
这里写图片描述
这里写图片描述

'''
验证是否有异常值(极度异常)
筛选查看异常值 → 是否异常值就是每年的热门电影?
'''
# 创建函数分析出数据外限最大最小值
def data_e(df,col):q1 = df[col].quantile(q = 0.25) #  通过quantile(q=0.5)方法,得到四分位数q3 = df[col].quantile(q = 0.75)iqr = q3 - q1   # IQR=Q3-Q1tmax = q3 + 3*iqr  # 外限:最大值区间Q3+3IQRtmin = q1 - 3*iqr   # 最小值区间Q1-3IQR (IQR=Q3-Q1)return (tmax,tmin) for i in range(2001,2017):data_year = q3data[q3data['上映年份'] == i]print('%i年有%i条数据'%(i,len(data_year)))t = data_e(data_year,'评分人数')print(t)print(data_year[data_year['评分人数']>t[0]])

下面是2015-2016年的结果

2015年有324条数据
(8785182.0, -6582672.25)上映年份      整理后剧名               导演         评分人数          好评数
98     2015.0       特警力量               刘猛   38965035.0   34765796.0
116    2015.0        小爸妈              毛小睿   13843324.0   10845473.0
263    2015.0        仙侠剑              朱锐斌   12257353.0    8589762.0
281    2015.0    抓住彩虹的男人          吴锦源/邓衍成   16323976.0   13230803.0
430    2015.0        地雷战              焦晓雨    9350124.0    7335714.0
476    2015.0       千金女贼      陈玉珊/马华干/周晓鹏   57678789.0   49943512.0
587    2015.0         大舜              吴子牛    8865405.0    6782176.0
652    2015.0         花火              邹集城   12446127.0   10594296.0
743    2015.0        鸳鸯佩              黄家辉   17827128.0   12909386.0
1106   2015.0        野山鹰           虎子/张文东    9643269.0    6707485.0
1366   2015.0       2胎时代           滕文骥/王为   24608401.0   21156992.0
1663   2015.0     冰与火的青春              潘镜丞   47471498.0   38431391.0
1674   2015.0     加油吧实习生               孙皓  198990274.0  175397693.0
1730   2015.0       左手劈刀               李印   10972150.0    8111186.0
1774   2015.0       克拉之恋              陈铭章   11178336.0    9864390.0
1775   2015.0       克拉恋人              陈铭章  301107808.0  256092092.0
1805   2015.0       神犬小7              王小列   82828676.0   76041178.0
1857   2015.0      俺娘田小草               王梓   11559426.0    8039081.0
1968   2015.0    爱情公寓番外篇               韦正   13816459.0   12222270.0
2018   2015.0    我的媳妇是女王               俞钟   17072270.0   14224495.0
2033   2015.0       聊斋新编  黄祖权/蓝志伟/麦炳华/谭朗昌   10692667.0    8420913.0
2084   2015.0       多情江山          李惠民/白云默   33151339.0   25256433.0
2121   2015.0    少年神探狄仁杰               林峰   35482235.0   31894395.0
2142   2015.0    锦绣缘华丽冒险              林合隆   54482448.0   46376708.0
24177  2015.0  熊出没之冬日乐翻天             缺失数据    8967986.0    6191465.0
2016年有77条数据
(7406404.0, -5545542.0)上映年份     整理后剧名           导演        评分人数         好评数
282    2016.0   寂寞空庭春欲晚          吴锦源  39880567.0  34573682.0
358    2016.0     青丘狐传说  林玉芬/高林豹/徐惠康  41505217.0  35920680.0
769    2016.0  山海经之赤影传说          朱锐斌  36172373.0  31617163.0
983    2016.0      煮妇神探      吴锦源/冯柏源  57826201.0  52276038.0
1123   2016.0     武神赵子龙  袁英明/程力栋/国建勇  37148312.0  31850186.0
92960  2016.0     武神赵子龙      梁胜权/国建勇  37148312.0  31850186.0
1878   2016.0   因为爱情有幸福          刘俊杰  35075669.0  30790737.0
1935   2016.0     5鼠闹东京          吴家骀  13576509.0  11748866.0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_868380.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ASP.NET 2.0网站专案同时使C#与VB.NET之技巧

转自:http://blog.csdn.net/dotnetcool/archive/2006/09/07/1189291.aspx 在以往VS.NET 2002及VS.NET 2003的Visual Studio工具本身不支援多个组件档(Assembly),也就是专案编译后只会产生一个.dll组件,而一个组件只允许…

从零打造视频播放网站(2)-后端接口设计篇

后端接口设计篇 环境:接口文档:说明:测试: 环境: centos7系统php7.0框架:thinkphp5.0服务器:nginx 接口文档: http://39.106.207.193:8000/doc 说明: 返回类型均为 JSON数据格式 测试: http://39.106.207.193:8000/play/group/2337?fromkkm3u8 [{"id": 1, &q…

从零打造视频播放网站(1)-数据采集篇

数据采集篇 1.数据库设计:2.环境:3.创建项目:4. settings.py5.爬虫编写:6.增量式爬虫:7.启动爬虫:8.总结: 1.数据库设计: source表(播放源): idnamedescparseshow自增id播放源名称播放源描述解析url展示名 video表: idtitledesctypeareathumbyeardirectorintroductionactors…

黑马就业班(02.JavaWeb+项目实战\16.JavaWeb综合项目实战手把手学习)旅游网站项目(发现案例有问题!已修正)+浏览器页面代码调试(视频45-16.00)

本文对应项目:目录:G:\idea_java_project 下的travel项目本文参考资料《综合案例笔记》笔记 1、准备工作 项目导入 将资料的空travel项目导入IDEA中。(注意导入项目的方法,选择的是pom.xml文件,参考视频1-4.00&#…

缓存、动态页面静态化、网站优化

一、缓存 缓存(Cache)技术在软件开发过程中有着广泛的用途, 它对提升软件性能和改善客户体验有很大帮助. 所谓缓存, 是指将那些经常重复的操作结果暂时存放起来, 在以后的执行过程中, 只要使用前面的暂存结果即可. 缓存技术在日常生活中随处可见, 就拿排队买票来说吧: 买票时需…

vs2008开发wap网站(一)

http://www.cnblogs.com/3stones/archive/2009/01/05/1351969.html 首先新创建个项目,打开VS2008,新建个网站项目,我们添加新项时会发现以前在vs2003或vs2005中的“移动Web窗体”项没有了,下图为vs2003和2005中的。 vs2008中就没…

关于spring 获取不到网站上的xsd的处理记录

前两天做一个项目还好好的,今天突然报出这个错误 cvc-complex-type.2.4.c: The matching wildcard is strict, but no declaration can be found for element mvc:annotation-driven 应该是xml文件找不到相应的xsd了,这时候我的springmvc.xml的头部是这么…

创建网站快捷方式

直接托那个图标就可以了

网站网页通用底部

效果&#xff1a; 代码&#xff1a; <!DOCTYPE html> <html><head> <meta charset"UTF-8"> <title>标题名</title> <style>*{margin:0px;padding:0px;box-sizing:border-box}body{margin:0 auto;font-size:12px;font-fam…

Linux系统中搭建LAMP动态博客网站

在新Web2.0革命中&#xff0c;博客是最早出现的&#xff0c;也被更多的人所了解。博客的中文有两重含义&#xff0c;既指撰写个人网络日志的人(Blogger)&#xff0c;也指承载个人网络日志的网站(Blog)。用全球最大博客网站Blogger.com的解释&#xff1a;“blog 可以是个人日记、…

【哔哩哔哩播放器】2020最新版高仿哔哩哔哩视频播放器网站源码

【哔哩哔哩播放器】2020最新版高仿哔哩哔哩视频播放器网站源码 Lan 2020-05-12 10:06 190 人阅读 0 条评论 2020最新版高仿哔哩哔哩视频播放器网站源码&#xff0c;支持弹幕&#xff0c;演示链接&#xff1a;点击进入 可以用于视频cms使用 使用方法 &#xff1a;域名/?url 如…

给你的网站加上随机一句,一言API调用代码

给你的网站加上随机一句&#xff0c;一言API调用代码 Lan 2020-05-19 13:24 258 人阅读 0 条评论 这个接口由萌创团队开放的&#xff0c;文档地址&#xff1a;点击进入 引用代码&#xff1a; <div class"hitokoto" style"text-align: center;color: grey; …

大型网站架构演化过程(一)

1. 初始阶段的网站架构 小型网站访问量不大&#xff0c;所以一台服务器绰绰有余&#xff0c;这时网站架构如图1所示。 2. 随着网站的业务的发展&#xff0c;数据量越来越多&#xff0c;一台服务器不能满足需求的时候&#xff0c;越来越多的用户访问导致服务器的响应越来越慢&am…

大型网站架构演化过程(二)

本文接上篇文章&#xff1a;大型网站架构演化过程&#xff08;一 &#xff09; 3. 使用应用服务器集群改善网站的并发处理能力 使用集群是网站解决高并发&#xff0c;海量数据问题的常用手段。当一台服务器的存储空间不足hi抵抗并发压力时&#xff0c;不要企图去更换更强大的服…

大型网站架构演化过程(三)

上接:大型网站架构演化过程&#xff08;二&#xff09; 6.使用分布式文件系统和分布式数据库系统 我们都知道&#xff0c;任何强大的单一服务器都无法满足大型网站持续增长的业务需求。数据库经过读写分离后&#xff0c;从一台变成两台&#xff0c;但随着业务的发展依然无法满足…

网站优化篇

网站优化篇 最近公司要大力推广官方网站&#xff0c;但是发现不论是PC网站还是手机网站的打开响应速度都比较卡顿&#xff0c;而每个人都知道官方网站&#xff0c;一般是企业对外用户打造品牌&#xff0c;进行宣传的第一道门&#xff0c;如果用户访问网站时遇到了卡顿&#xff…

利用Asp来打包网站

如何利用asp来打包网站 一、遇到的权限问题。 我们在打包网站的时候经常会遇到权限问题。因为现在的虚拟主机的安全性不断的在提高&#xff0c;很多虚拟主机都禁用了WScript.shell。因为这个对象可以执行一些cmd命令&#xff0c;对虚拟主机的安全具有很大的威胁。记得前几…

使用JFreeChart 在网站中使用走势图

生活中我们经常用到各种图表&#xff0c;走势图就是其中的一种&#xff0c;例如&#xff1a;股票走势图&#xff0c;产品价格走势图&#xff0c;某个网站访问量走势图?D?D没错&#xff0c;现在网站中使用走势图也是越来越普遍了。因为网站本身是为了发布信息而存在的&#xf…

使用JFreeChart 在网站中使用走势图

生活中我们经常用到各种图表&#xff0c;走势图就是其中的一种&#xff0c;例如&#xff1a;股票走势图&#xff0c;产品价格走势图&#xff0c;某个网站访问量走势图?D?D没错&#xff0c;现在网站中使用走势图也是越来越普遍了。因为网站本身是为了发布信息而存在的&#xf…