视频网站数据平台变迁之路(一)

news/2024/5/10 2:30:54/文章来源:https://blog.csdn.net/weixin_34376562/article/details/90285070

一.数据系统架构V1

_

优酷早在2007年便采用php语言自主开发了一套数据系统。系统分为数据采集、数据存储、数据分析、报表平台,四个模块。整体架构如下:

1

  这套架构至今在一些需要自己搭建数据平台的小公司而言也是足够的,在没有海量数据之前可以不使用Hadoop之类的开源框架,WebServer日志和一些自定义的日志已经足够日常数据分析的需求了,通过Linux上的一些命令已经可以分析很多数据指标了。

1.数据采集与数据存储

  根据用户行为不同,数据采集上也有多种方式,最初在移动端没兴起的时候,数据的采集多是针对PC端网站上的,这里列出几种用户行为

  • 页面访问
  • 点击链接跳转
  • 页面停留
  • 视频观看
  • 广告点击
  • 播放器操作

以上这些用户行为,都是通过http协议以请求的方式发送给服务端,服务端接收并进行初步处理写入日志中的。

在V1架构中采集服务器共经历了三个大的阶段: 
第一阶段 
采集服务器最早只用来收集页面访问日志和点击链接跳转日志,使用了N台服务器做负载,每台服务器各写一份日志。N台服务器日志每天会定时汇总到一个磁盘阵列中供后续分析使用。当时日志量不大,扩容起来也比较方便

第二阶段 
为了满足分析服务器上的业务分析需求(后面数据分析中会介绍),我们又对每台服务器的日志做了一次调整,请求会先根据用户唯一标识的Hash转发到不同的服务器上。再扩容时就需要对每台服务器保存多少用户日志做估算了

第三阶段 
当时这些采集服务器磁盘是200G左右,随着访问量的日益增加,本地磁盘可以保存的日志天数越来越少。而且原来的一天同步一次日志的方式,会导致一过凌晨多台服务器一起同步大量日志会占满磁盘阵列服务器的内网带宽和IO,所以我们改成了每小时保存一个日志,每小时同步一次的做法。这样两个问题都解决了

总结一下遇到的问题:

  • 服务器监控层面的缺失,包括单点服务器健康状态(负载、磁盘、心跳)
  • 单点服务器宕机,导致部分未同步到磁盘阵列的日志丢失,其它服务器压力较大时可能会出现问题
  • 日志同步磁盘阵列失败的检查缺失。虽然失败可以重新同步,但会影响当天的数据分析完成时间
  • 磁盘阵列内网带宽和IO瓶颈。在此架构下由于流量越来越大,日志越来越多,磁盘阵列瓶颈也显现了出来,直接影响当天的数据分析完成时间
  • 扩容和维护的成本越来越高

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_752384.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站性能工具Yslow的使用方法

Yslow是雅虎开发的基于网页性能分析浏览器插件,从年初我使用了YSlow后,改变了博客模板大量冗余代码,不仅提升了网页的打开速度,这款插件还帮助我分析了不少其他网站的代码,之前我还特意写了提高网站速度的秘籍&#xf…

快速提升网站排名的方法

网站快速排名是每一个SEOER密切关注的话题,那么如何提升网站排名? 深圳易商网认为网站的排名没有任何的捷径可以走,即使你通过黑帽的手法做上排名了,但是也会很快的,你的网站就会被K掉,这种事得不偿失的,选…

提升网站内容质量有什么小技巧?

作为一个新媒体的人员,相信大家对于提高网站内容质量都不陌生,那么该怎么去提高呢?小野有去综合了解了一下,下面来给大家说一说。 一、原创度 不论是让百度收录还是想获得更多推荐量都离不开原创度这个词,所以我们想提…

分享seo优化怎么查竞争对手网站的外链(怎么查外链 查外链教程)

网站外链是一个网站seo优化必不可少的东西,一个网站在搜索引擎中的排名好坏与它的外链建设是息息相关的。当我们发现竞争对手的网站排名比我们好的时候,我们就可以对其网站发布建设的外链进行分析,那么怎么查竞争对手网站的外链呢&#xff1f…

分享一种查网站外链类型的方法(查外链 外链类型)

从事seo网站优化的可能都知道建设一个网站后期的维护与优化必须要有外链也可以说反向链接来支撑的。做过外链发布或者建设的都知道,外链的类型有分为描文本、纯文本和图片链接等的几种类型,那么如果我们需要分析一个网站的外链主要是做的哪种类型该怎么查…

查域名历史建站时间的方法分享(查域名历史 域名建站时间)

我们有许多自建站的站长在建站时会使用老域名来操作,使用老域名搭建的新网站在后续网站seo优化中关键词排名和收录在搜索引擎上都会得到优先级的待遇。当然也不是说老域名就一定是好的,我们拥有一个老域名时还要对其进行分析,对我们优化有用的…

(怎么查外链)查网站外链的引用域名数量方法

相信做seo网站优化的都知道外链的重要性,虽然说外链已经是上个互联网时代的遗物了,但是我认为还是有用的,而且搜索引擎活多久,外链就有用多久。因为搜索引擎做的事情毕竟是链接,脱离链接,搜索引擎就失去意义…

网站不收录的原因(三步分析)

进入互联网时代越来越多的朋友都在网络上自建网站进行运营,但是由于很多朋友在运营网站时对seo知识并不了解,所以我们经常会看到一些站长或者SEOer朋友们都在吐槽网站不会被收录或者收录很慢的问题。这对网站seo优化并不友好,因为网站的排名与…

(发外链教程)网站外链怎么正确的发

通过这几年搜索引擎的维护和整改,搜索引擎对外链的认可权重也降低了,但是我们要记住是降低,而不是取消,降低不代表就没用了。我相信大家做seo优化的都听人说过外链没用了,不用发外链之类的话,小编本人是不认…

(怎么查网站外链)查外链有这三招就够了

都说网站seo优化工作其实是个思维工作,做这个思路一定要好,要多找方法多尝试,那么我们必不可少的就是分析网站了。我们再分析一个好的网站时难免会要对其做的外链进行分析,那么这时就有人问了,该如何查到一个网站做的外…

(怎么找外链资源)网站如何扩展更多外链

做网站seo优化的每个人都知道网站链接越多越好,那么链接有什么好处呢?外部链接可以提高网站的知名度,增加流量,增加网站在搜索引擎中的权重,提高网站的PR值等。那么,我们如何找到更多的外链资源呢&#xff…

怎么查网站反向链接(查反向链接方法)

所有做搜索引擎优化的人都肯定要时不时的查询某个网页或某个域名的反向链接,不光是自己的网站,也会查竞争对手的网站。有很多方法可以查反向链接,主要都是通过搜索引擎来查,当然也有一些软件工具自动查询,接下来我就跟…

网站外链和反向链接的区别(怎么区分外链与反向链接)

我们经常通过新云查分析网站查外链时看到查出显示的是反向链接,这时也许会有人问外链与反向链接的区别是什么?这个问题在网上是比较有争议的,其实现在的优化我们也不需要分那么清楚,把反链当作外链看就行了,但是我们身…

怎么增加网站的反向链接(外链怎么做)

反向链接包括外部网站的链接和自己网站内部链接。对于SEO,反向链接是搜索引擎排名重要的参考因素,反向链接的好坏直接影响着整体网站SEO收录和爬行频率,也是网站从搜索引擎获得的流量的重要手段。小编以往的文章中说过在新云查分析网站时查外…

域名历史年龄对seo优化的作用(怎么查域名历史年龄)

在网站优化中,域名占据着很重要的作用!而我们网站域名注册时间的长短,也是优化排名的一个重要的因素之一,老域名往往要比新域名有太多的优势,说到这里可能很多人就不太清楚了,那么域名历史年龄久对seo优化的…

网站新域名和老域名哪个好(怎么选域名)

我们的网站在搭建好后要上线之前都必须是要选择一个域名,在近几年中域名的选择这个事情是比较有争议性的,有些人认为新域名好,有些人则认为老域名更加有优势,网站域名的选择对后期的网站seo优化是有影响的,下面小编就来…

怎么用新云查分析网站的外链(网站外链有什么用)

在目前互联网越来越盛行的时代,有很多人都在网上自行搭建网站进行运营,我们想要做好一个网站并不是说把网站搭建好然后上线就行了,如果想要让别人搜到你,想要网站的展现量更高,那么必不可少的就是网站seo优化了。seo优…

网站外链的类型有哪些(运用新云查工具分析外链类型)

我们平常除了做网站站内优化,还需要适当进行外链建设的优化,不只是单单做做站内优化就可以了,好的优质外链可以给我们的网站带来不错的排名。即使到了现在,外链依旧是网站seo优化中非常重要的一部分,尤其是对于要求网站…

2020-08-07域名对seo优化有什么影响(新云查分析域名历史)

我们在建站后上线前都需要选择一个域名,域名,是站长个人或公司的无形资产,一个好域名,更是可以创造无限价值。网站的域名对我们的网站seo优化有什么影响呢? 域名过长不利于用户体验:域名就像是一块指路的牌…

老域名对新网站优化有什么好处(老域名历史怎么分析)

许多学过SEO的人都知道,使用老域名来建站可能能起到事半功倍的效果。可以快速获得在搜索引擎上的排名,获得高排名的不二之选,有些优质老域名,还是有大量的外链,因为之前别人做营销的时候,发布了很多的外链&…