知名互联网公司网站架构图

news/2024/5/20 20:39:49/文章来源:https://blog.csdn.net/weixin_34380781/article/details/86005722

引言

近段时间以来,通过接触有关海量数据处理和搜索引擎的诸多技术,常常见识到不少精妙绝伦的架构图。除了每每感叹于每幅图表面上的绘制的精细之外,更为架构图背后所隐藏的设计思想所叹服。个人这两天一直在搜集各大型网站的架构设计图,一为了一饱眼福,领略各类大型网站架构设计的精彩之外,二来也可供闲时反复琢磨体会,何乐而不为呢?特此,总结整理了诸如国外wikipedia,Facebook,Yahoo!,YouTube,MySpace,Twitter,国内如优酷网等大型网站的技术架构(本文重点分析优酷网的技术架构),以飨读者。

本文着重凸显每一幅图的精彩之处与其背后含义,而图的说明性文字则从简从略。ok,好好享受此番架构盛宴吧。当然,若有任何建议或问题,欢迎不吝指正。谢谢。

1、WikiPedia 技术架构

WikiPedia 技术架构图Copy @Mark Bergsma

来自wikipedia的数据:峰值每秒钟3万个 HTTP 请求 每秒钟 3Gbit 流量, 近乎375MB

350 台 PC 服务器。

GeoDNSA :40-line patch for BIND to add geographical filters support to the existent views in BIND", 把用户带到最近的服务器。GeoDNS 在 WikiPedia 架构中担当重任当然是由 WikiPedia 的内容性质决定的--面向各个国家,各个地域。

负载均衡:LVS,请看下图:

2、Facebook 架构

Facebook 搜索功能的架构示意图

细心的读者一定能发现,上副架构图之前出现在此文之中:从几幅架构图中偷得半点海里数据处理经验。本文与前文最大的不同是,前文只有几幅,此文系列将有上百幅架构图,任您尽情观赏。

3、Yahoo! Mail 架构

Yahoo! Mail 架构

Yahoo! Mail 架构部署了 Oracle RAC,用来存储 Mail 服务相关的 Meta 数据。

4、twitter技术架构

twitter的整体架构设计图

twitter平台大致由twitter.com、手机以及第三方应用构成,如下图所示(其中流量主要以手机和第三方为主要来源):

缓存在大型web项目中起到了举足轻重的作用,毕竟数据越靠近CPU存取速度越快。下图是twitter的缓存架构图:

关于缓存系统,还可以看看下幅图:

5、Google App Engine技术架构

GAE的架构图

简单而言,上述GAE的架构分为如图所示的三个部分:前端,Datastore和服务群。

前端包括4个模块:Front End,Static Files,App Server,App Master。

Datastore是基于BigTable技术的分布式数据库,虽然其也可以被理解成为一个服务,但是由于其是整个App Engine唯一存储持久化数据的地方,所以其是App Engine中一个非常核心的模块。其具体细节将在下篇和大家讨论。

整个服务群包括很多服务供App Server调用,比如Memcache,图形,用户,URL抓取和任务队列等。

6、Amazon技术架构

Amazon的Dynamo Key-Value存储架构图

可能有读者并不熟悉Amazon,它现在已经是全球商品品种最多的网上零售商和全球第2大互联网公司。而之前它仅仅是一个小小的网上书店。ok,下面,咱们来见识下它的架构。

Dynamo是亚马逊的key-value模式的存储平台,可用性和扩展性都很好,性能也不错:读写访问中99.9%的响应时间都在300ms内。按分布式系统常用的哈希算法切分数据,分放在不同的node上。Read操作时,也是根据key的哈希值寻找对应的node。Dynamo使用了 Consistent Hashing算法,node对应的不再是一个确定的hash值,而是一个hash值范围,key的hash值落在这个范围内,则顺时针沿ring找,碰到的第一个node即为所需。

Dynamo对Consistent Hashing算法的改进在于:它放在环上作为一个node的是一组机器(而不是memcached把一台机器作为node),这一组机器是通过同步机制保证数据一致的。

下图是分布式存储系统的示意图,读者可观摩之:

Amazon的云架构图如下:

Amazon的云架构图

7、优酷网的技术架构

从一开始,优酷网就自建了一套CMS来解决前端的页面显示,各个模块之间分离得比较恰当,前端可扩展性很好,UI的分离,让开发与维护变得十分简单和灵活,下图是优酷前端的模块调用关系:

这样,就根据module、method及params来确定调用相对独立的模块,显得非常简洁。下图是优酷的前端局部架构图:

优酷的数据库架构也是经历了许多波折,从一开始的单台MySQL服务器(Just Running)到简单的MySQL主从复制、SSD优化、垂直分库、水平sharding分库。

1.简单的MySQL主从复制。

MySQL的主从复制解决了数据库的读写分离,并很好的提升了读的性能,其原来图如下:

其主从复制的过程如下图所示:

但是,主从复制也带来其他一系列性能瓶颈问题:

写入无法扩展

写入无法缓存

复制延时

锁表率上升

表变大,缓存率下降

那问题产生总得解决的,这就产生下面的优化方案。

2. MySQL垂直分区

如果把业务切割得足够独立,那把不同业务的数据放到不同的数据库服务器将是一个不错的方案,而且万一其中一个业务崩溃了也不会影响其他业务的正常进行,并且也起到了负载分流的作用,大大提升了数据库的吞吐能力。经过垂直分区后的数据库架构图如下:

然而,尽管业务之间已经足够独立了,但是有些业务之间或多或少总会有点联系,如用户,基本上都会和每个业务相关联,况且这种分区方式,也不能解决单张表数据量暴涨的问题,因此为何不试试水平sharding呢?

3. MySQL水平分片(Sharding)

这是一个非常好的思路,将用户按一定规则(按id哈希)分组,并把该组用户的数据存储到一个数据库分片中,即一个sharding,这样随着用户数量的增加,只要简单地配置一台服务器即可,原理图如下:

如何来确定某个用户所在的shard呢,可以建一张用户和shard对应的数据表,每次请求先从这张表找用户的shard id,再从对应shard中查询相关数据,如下图所示:

是如何解决跨shard的查询呢,这个是个难点,据介绍优酷是尽量不跨shard查询,实在不行通过多维分片索引、分布式搜索引擎,下策是分布式数据库查询(这个非常麻烦而且耗性能)。

缓存策略

貌似大的系统都对“缓存”情有独钟,从http缓存到memcached内存数据缓存,但优酷表示没有用内存缓存,理由如下:

避免内存拷贝,避免内存锁

如接到老大哥通知要把某个视频撤下来,如果在缓存里是比较麻烦的

而且Squid 的 write() 用户进程空间有消耗,Lighttpd 1.5 的 AIO(异步I/O) 读取文件到用户内存导致效率也比较低下。

但为何我们访问优酷会如此流畅,与土豆相比优酷的视频加载速度略胜一筹?这个要归功于优酷建立的比较完善的内容分发网络(CDN),它通过多种方式保证分布在全国各地的用户进行就近访问——用户点击视频请求后,优酷网将根据用户所处地区位置,将离用户最近、服务状况最好的视频服务器地址传送给用户,从而保证用户可以得到快速的视频体验。这就是CDN带来的优势,就近访问。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_752993.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大型网站技术学习-1. 虚拟化技术概述

牛人就不要看了~ 1.1 引言 先举个例子,一台物理主机有16G内存,用户A的程序只需要2G内存,用户B的程序只需要4G内存,如果没有用虚拟化技术,他们的解决方案如下: 两用户程序放到同一台物理机器上&a…

Nodejs学习笔记(六)--- Node.js + Express 构建网站预备知识

目录 前言新建express项目并自定义路由规则如何提取页面中的公共部分?如何提交表单并接收参数? GET 方式POST 方式如何字符串加密?如何使用session?如何使用cookies?如何清除session和cookies?写在之后前言 前面经过五篇Node.js的学习,基本可以开始动手构建一…

在C#开发中如何使用Client Object Model客户端代码获得SharePoint 网站、列表的权限情况...

自从人类学会了使用火,烤制的方式替代了人类的消化系统部分功能,从此人类的消化系统更加简单,加速了人脑的进化;自从SharePoint 2010开始有了Client Side Object Model ,我们就可以不用在服务器上开发SharePoint解决方…

万网免费主机wordpress快速建站教程-域名申请

在上一篇文章中,小伙伴们已经申请好了万网的免费主机,接下来教大家如何申请域名。 由于万网免费主机要绑定在阿里备案的域名,现在以万网的域名注册为例子。 首先进入万网域名注册页面(http://www.net.cn/domain)&#…

网站统计中的数据收集原理及实现_埋点统计

网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理&#xf…

一个普通网站发展成大型网站的架构演变历程

2019独角兽企业重金招聘Python工程师标准>>> 1、物理分离webserver和数据库 最开始,由于某些想法,于是在互联网上搭建了一个网站,这个时候甚至有可能主机都是租借的,但由于这篇文章我们只关注架构的演变历程&#xff0…

IT招聘网站

2019独角兽企业重金招聘Python工程师标准>>> http://www.ithelloworld.com/ 转载于:https://my.oschina.net/lilugirl2005/blog/359953

20款覆盖全面的响应式网站设计工具

2019独角兽企业重金招聘Python工程师标准>>> 灵活的栅格和布局,响应式的图片和智能的CSS媒体查询,构成了响应式网页的主要特征。当用户扔下沉重的笔记本电脑拿起平板,响应式的网站能够自然而然地随之适配,掏出手机也毫…

微软正式发布Azure Storage上的静态网站

微软正式宣布了Azure Storage上的静态网站,提供了从托管在Azure Storage上的HTML、CSS和JavaScript文件提供内容的能力。静态网站包含内容固定的Web页面,同时仍然允许利用JavaScript等客户端代码来创建丰富的用户体验。 有了这个新功能,继用于…

flac转mp3_免费的音视频格式转换网站-ncm, qmc, mflac, mgg转mp3

1、.mov转换为.mp4.mov是QuickTime影片格式,是Apple公司开发的一种音频、视频文件格式。我们只需要iMovie打开相关文件,然后重新导出即可,iMovie默认导出的视频格式就是.mp42、.mp4转换为.gifMP4轉GIF轉換器。在线自由 - Convertio​converti…

对某网站被挂黑广告源头分析

公粽号:黒掌 一个专注于分享网络安全、黑客圈热点、黑客工具技术区博主! 背景 目标站点是国内一家有影响力的综合技术网站。通过网管人员及技术人员多次排查均告失败或者未能解决问题。 网站不断被人疑似挂马,在其所有网站上发现挂有图片的…

Wordpress 网站搭建及性能监控方法详解!

前言 说到 Wordpress,大家往往想到的是博客,其实,如今的 WordPress 已经成为全球使用量最多的开源 CMS 系统。并且,如果你有一定的技术基础稍加改动,就可以搭建出新闻网站、企业网站、电影网站,甚至是商城系…

程序员资源网站

2019独角兽企业重金招聘Python工程师标准>>> soho接单 程序员客栈 http://www.proginn.com/ 极客邦soho http://www.looip.cn/ 好用的markup博客 droplets http://dropplets.com/ 招聘网站 电猴 (针对电商) http://www.dianhou.com/…

宠物合成网站源码_如何阅读大型前端开源项目的源码,授人以鱼不如授人以渔...

目前网上有很多「XX源码分析」这样的文章,不过这些文章分析源码的范围有限,有时候讲的内容不是读者最关心的。同时我也注意到,源码是在不断更新的,文章里写的源码往往已经过时了。因为这些问题,很多同学都喜欢自己看源…

网站技术架构与性能优化,附高性能思维导图

一).大型软件系统的特点1.高并发2.高可用3.海量数据4.用户分布广泛,网络情况复杂5.安全环境恶劣6.需求快速变更,发布频繁二).大型网站架构发展历程1.应用服务和数据服务分离2.大量使用缓存改善网站性能(CDN加速、反向代理)3.使用服…

杂志类网站参考

2019独角兽企业重金招聘Python工程师标准>>> 爱范儿 http://www.ifanr.com/ Ghost http://marketplace.ghost.org/Medium https://medium.com/ 转载于:https://my.oschina.net/lilugirl2005/blog/593673

php 新浪微博登陆,PHP使用新浪微博登入第三方网站实例代码

之前我写过一个使用php使用QQ一键登入第三方网站的教程,今天我再给大家分享PHP使用新浪微博API一键登入第三方的网站,好吧,不说废话,下面开始。注册登入新浪微博以后,可以点在新浪微博底部的开放平台链接进入&#xff…

这些优化 Drupal 网站速度的超简单办法,你忽略了多少?

“怎么样能让我的 Drupal 网站更快一些?”是我们最常遇到的一个问题。站点速度确实非常重要,因为它会影响你的 SEO排名效果、访客是否停留以及你自己管理网站所需要的时间。今天我们就来看看那些通过 Drupal 自带界面便能够实现的提速操作。启用缓存通过…

发布网站的程序池应用程序_大程序? 经常发布

发布网站的程序池应用程序我正在研究“ 敏捷和精益计划管理:整个组织的协作”的发行计划一章。 有许多计划发布的方法。 但是关键呢? 经常释放。 多常? 我建议每月一次。 是的,每月一次真正,诚实到善的发布。 我敢打…

【网站搭建】用阿里云服务器搭建个人网站

文章目录搭建过程如下:1 准备工具:2 详细过程(1)进入控制台(2)进入轻量应用服务器管理台(3)远程连接(4)下载宝塔面板(5)添加网站&…