视频网站数据平台变迁之路(一)

news/2024/5/17 15:20:22/文章来源:https://blog.csdn.net/weixin_34277853/article/details/90589292

一.数据系统架构V1

_
  
优酷早在2007年便采用php语言自主开发了一套数据系统。系统分为数据采集、数据存储、数据分析、报表平台,四个模块。整体架构如下:

1

  这套架构至今在一些需要自己搭建数据平台的小公司而言也是足够的,在没有海量数据之前可以不使用Hadoop之类的开源框架,WebServer日志和一些自定义的日志已经足够日常数据分析的需求了,通过Linux上的一些命令已经可以分析很多数据指标了。

1.数据采集与数据存储

  根据用户行为不同,数据采集上也有多种方式,最初在移动端没兴起的时候,数据的采集多是针对PC端网站上的,这里列出几种用户行为

  • 页面访问
  • 点击链接跳转
  • 页面停留
  • 视频观看
  • 广告点击
  • 播放器操作

以上这些用户行为,都是通过http协议以请求的方式发送给服务端,服务端接收并进行初步处理写入日志中的。

在V1架构中采集服务器共经历了三个大的阶段:
第一阶段
  采集服务器最早只用来收集页面访问日志和点击链接跳转日志,使用了N台服务器做负载,每台服务器各写一份日志。N台服务器日志每天会定时汇总到一个磁盘阵列中供后续分析使用。当时日志量不大,扩容起来也比较方便

第二阶段
  为了满足分析服务器上的业务分析需求(后面数据分析中会介绍),我们又对每台服务器的日志做了一次调整,请求会先根据用户唯一标识的Hash转发到不同的服务器上。再扩容时就需要对每台服务器保存多少用户日志做估算了

第三阶段
  当时这些采集服务器磁盘是200G左右,随着访问量的日益增加,本地磁盘可以保存的日志天数越来越少。而且原来的一天同步一次日志的方式,会导致一过凌晨多台服务器一起同步大量日志会占满磁盘阵列服务器的内网带宽和IO,所以我们改成了每小时保存一个日志,每小时同步一次的做法。这样两个问题都解决了

总结一下遇到的问题:

  • 服务器监控层面的缺失,包括单点服务器健康状态(负载、磁盘、心跳)
  • 单点服务器宕机,导致部分未同步到磁盘阵列的日志丢失,其它服务器压力较大时可能会出现问题
  • 日志同步磁盘阵列失败的检查缺失。虽然失败可以重新同步,但会影响当天的数据分析完成时间
  • 磁盘阵列内网带宽和IO瓶颈。在此架构下由于流量越来越大,日志越来越多,磁盘阵列瓶颈也显现了出来,直接影响当天的数据分析完成时间
  • 扩容和维护的成本越来越高

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_769151.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VS Code 调试Node.js express网站

VS Code是微软出品的一款跨平台的轻量级的Editor,我就不宣传了,想了解的自己去搜吧,总之我很喜欢。 下载地址:https://code.visualstudio.com/ 安装完成侯应该是自动加到环境变量里了吧,不记得了,如果没有自…

JavaWeb(11) 快速爬取别人的网站页面(Ctrl+A,Ctrl+C,Ctrl+V一分钟搞定)

设备:火狐浏览器,WebStorm 操作方法:CtrlA,CtrlC,CtrlV 第一步:进入自己所需要借用的网站,在这里我拿bootstrap官网进行操作吧 第二步:按F12查看元素进行操作或者直接…

网站内容加载数据时出现延迟友好交互动画的实现步骤

网站内容加载数据时出现延迟友好交互动画的实现步骤 参考网站:https://www.cnblogs.com/lhb25/p/loading-spinners-animated-with-css3.html 实现步骤1:新建一个:css/component.css文件 /*loading*/ .spinner{margin:100px auto;width:20px…

实现网站的-浏览器的favicon.ico

favicon.ico尽可能小一点&#xff01; 在每个网页面中的html页面头部增加&#xff1a; <link rel"shortcut icon" href"/favicon.ico" type"image/x-icon" />

Drupal Commerce 产品 URL 优化 SEO

为什么80%的码农都做不了架构师&#xff1f;>>> https://www.drupal.org/project/commerce_product_urls For each product it provides id parameter, for example: http://www.mycommercesite.com/node/1?id1 http://www.mycommercesite.com/node/1?id2as well…

c 中 中文乱码_二级MS真题第5套:Excel导入数据网站乱码打不开!这是bug!

云呱给大家讲一个bug&#xff0c;存在于计算机二级真题第5套Excel中。真题如下&#xff1a;从网站导入数据到Excel中&#xff0c;操作很简单&#xff0c;我就不细讲了&#xff0c;只着重讲一下在导入过程中出现的各种问题当我们点击Excel数据选项卡下的“自网站”后会弹出“脚本…

Linux下使用Apache搭建Web网站服务器

实验目标apache服务器常见概念apache服务器安装及相关配置文件实战&#xff1a;例1&#xff1a;为公司内网搭建一个web服务器例2&#xff1a;取消apache默认欢迎页&#xff1a;例3&#xff1a;使用rpm搭建lamp 环境例4, 使用别名&#xff0c;引用网站根目录以外的路径。例6&…

支付宝支付(1) 电脑网站支付(SpringBoot+沙箱环境)

一、前言 本文将基于 springboot沙箱环境 来简单实现支付宝的电脑网站支付功能 二、获取所需配置参数信息 APPID支付宝网关支付宝公钥RSA2私钥 登录支付宝 -> 研发服务 -> 沙箱 https://open.alipay.com/platform/appDaily.htm?tabinfo 设置RSA2 在线生成密钥工具&…

支付宝支付(2) 电脑网站支付(SpringBoot+沙箱环境+Alipay Easy SDK)

一、前言 支付宝支付(1) 电脑网站支付(SpringBoot沙箱环境)Alipay Easy SDK 文档Alipay Easy -> https://github.com/alipay/alipay-easysdk 注&#xff1a;本文只是简单的介绍Alipay Easy SDK的简单使用 ^_^ 二、获取所需配置参数信息 注&#xff1a;这个所需参数信息&…

运维(17) OHTTPS配置免费证书及宝塔网站管理配置

文章目录一、前言二、OHTTPS配置免费证书1、创建证书2、域名解析配置3、验证解析记录4、查看证书三、宝塔网站管理配置1、添加站点2、配置SSL3、访问网站测试4、其它一、前言 本文将通过OHTTPS来配置免费的https证书&#xff0c;以及通过宝塔来安装nginx部署网站并使用https访…

域名能访问的网站,为什么直接通过ip不能访问?

有时候一台ip主机上部署多个网站&#xff0c;它们具有同一个ip。这样的话&#xff0c;直接通过ip是不能访问的. 在通过域名访问时&#xff0c;请求头有这样一个字段&#xff1a; 那么ip主机上对获得host然后代理转发即可。 而直接通过ip是没有这个字段的&#xff0c;代理服务…

使用vue2.0 + vue-router + vuex + element-ui实现的一个影评网站

使用vue2.0 vue-router vuex element-ui实现的一个影评网站。网站设计没参考其他网站&#xff0c;完全是我自己意淫出来的。 这就是一个纯前端的东西&#xff0c;由于没有后端&#xff0c;所以大多数功能都简化了。开源地址&#xff1a;https://github.com/xuyintao/f...

PC网站实现微信扫码登录功能(二)

上篇我们介绍了怎么申请账号以及最后拿到appId和appSecret,如果有不清楚的可以看一下 如果需要测试实现效果可以点击链接进行体验 微信在线答题抽奖、考试系统、答题小程序轻松制作平台-应奇H5应奇H5可以轻松制作基于微信公众平台的各种微信答题系统&#xff0c;在线考试系统…

PC网站实现微信扫码登录功能(一)

铁汁我正在参加博客之星评选活动&#xff0c;如果感觉文章对你有所帮助&#xff0c;能够给我投个票吗~拜谢https://bbs.csdn.net/topics/611391073https://bbs.csdn.net/topics/611391073 现在微信的使用用户越来越多&#xff0c;如果网站添加上微信登录&#xff0c;就能节省很…

DocuSign网站用户资料泄露,病毒团伙利用邮件疯狂作恶

本文讲的是DocuSign网站用户资料泄露&#xff0c;病毒团伙利用邮件疯狂作恶&#xff0c;一、综述近期&#xff0c;火绒安全实验室发出警报&#xff0c;著名的美国数字文档签署平台 DocuSign的用户正在遭受病毒邮件的攻击&#xff0c;该平台在全球拥有2亿用户&#xff0c;其中包…

FBI网站被黑致数据泄露?官方称这根本是个骗局

著名黑客CyberZeist最近入侵了FBI网站(FBI.gov)&#xff0c;并将几个备份文件(acc_102016.bck&#xff0c;acc_112016.bck&#xff0c;old_acc16.bck等)公布在了Pastebin&#xff0c;数据内容包括姓名、SHA1加密密码、SHA1盐和电子邮件等。 【1.6 更新】黑客宣称攻破FBI官网利用…

evasive 模块保护您的网站免受应用层 DOS 攻击

2019独角兽企业重金招聘Python工程师标准>>> 有多种可以导致网站下线的攻击方法&#xff0c;比较复杂的方法要涉及数据库和编程方面的技术知识。一个更简单的方法被称为“拒绝服务Denial Of Service”&#xff08;DOS&#xff09;攻击。这个攻击方法的名字来源于它的…

一步一步SharePoint 2007之八:允许所有域用户访问网站

特别提醒的是&#xff0c;这里不是逐个逐个地允许域用户访问&#xff0c;而是一次性允许所有域用户都可以访问网站。  这里说的一次性允许所有域用户都可以访问&#xff0c;实际上就是允许域用户组可以访问网站。这样做的好处嘛&#xff0c;哈哈&#xff0c;我只要加一次用户…

javaweb高并发量网站解决方案

为什么80%的码农都做不了架构师&#xff1f;>>> 一个小型的网站&#xff0c;可以使用最简单的html静态页面就实现了&#xff0c;配合一些图片达到美化效果&#xff0c;所有的页面均存放在一个目录下&#xff0c;这样的网站对系统架构、性能的要求都很简单。随着互联…

Web网站服务

“Apache”服务器是针对之前出现的若干个Web服务器程序进行整合&#xff0c;完善后形成的软件&#xff0c;其主要的特点&#xff1a;开放源代码、跨平台应用、支持各种Web编程语音、模块化设计、良好的安全性。 安装http服务器1、卸载原来已经存在的httpd2、插入光盘&#xff1…