网站流量日志分析系统笔记(Hadoop大数据技术原理与应用)
news /
2024/5/9 13:44:51 /
文章来源:https://blog.csdn.net/qq_30693057/article/details/96052930
一、系统架构设计
首先,会将Nginx服务器所产生的日志文件通过Flume采集到HDFS中; 其次,开发人员根据原始日志文件及规定数据格式定制开发MapReduce程序进行数据与处理; 接着,通过Hive进行最为重要的数据分析; 再次,将分析的记过通过sqoop工具导出到关系数据库MySQL中; 最后,通过Web系统,实现最为重要的数据分析
二、系统概述
虚拟机中的Flume采集网站日志,存放入到虚拟机hdfs中。
将虚拟机hdfs中的日志数据,存放到window中的D:/input文件夹中
在window中的eclipse中编写MapReduce程序,对D:/input中的日志数据进行清洗,并输出到D:/output
再将D:/output中的清洗后的数据,上传到虚拟机中的hdfs中
在虚拟机中的hive中,创建了数据仓库中的表,字段对应日志中的数据,并加载hdfs中清洗后的数据到该表中。编写HQL语句(类似sql语句),对数据进行汇总统计分析。因为hive中的表存放在hdfs中,所以汇总分析之后的数据也在hdfs中。
通过sqoop将hive统计分析之后的数据导入到mysql中。
编写ssm框架,利用Echarts,将mysql中的数据进行了可视化展示
三、最终展示效果
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_896003.aspx
如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!