1 ,可以采用的技术 :选哪种方式都行,我们都用用
- RDD
- DataFrame
- DataFrame + RDD
- DataSet
2 ,需求 :
- 某电影 : 男性不同年龄观看者人数
- 某电影 : 女性不同年龄观看者人数
- 所有电影 : 评分最高的 topN
- 最流行电影 : 观看人数最多 topN
- 最流行电影 : 男生观看人数最多 topN
- 最流行电影 : 女生观看人数最多 topN
- 微信用户最喜欢的电影 : topN
- 淘宝用户最喜欢的电影 : topN
- 二次排序
3 ,电影评级 : 项目历史
- 发起者 : 美国明尼苏达大学
- 目的 : 学术研究
- 数据在哪里 :
https://grouplens.org/datasets/movielens/ - 这个网站中有很多种数据,大小不等,我们选择适合我们的数据,开发使用