MySQL在大型网站的应用架构演变

news/2024/5/18 22:39:08/文章来源:https://blog.csdn.net/winsonyuan/article/details/41277173

MySQL在大型网站的应用架构演变

【编者按】作为最流行的开源数据库,MySQL被广泛应用在Web应用程序以及其它中小型项目上。然而不可忽视的是,在许多大型IT公司中,MySQL在高度优化和定制化后,已逐渐偏离了原有的开源版本,更像是一种分支,比如Facebook前不久开源的WebScaleSQL。近日,@大熊先生发表了一篇博文,从大型网站架构发展的角度看MySQL应用所发生的改变,这里为大家分享。


免费订阅“CSDN云计算”微信公众号,实时掌握第一手云中消息!

CSDN作为国内最专业的云计算服务平台,提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、Hadoop、Spark、机器学习、智能算法等相关云计算观点,云计算技术,云计算平台,云计算实践,云计算产业资讯等服务。


以下为博文:

写在最前:

本文主要描述在网站的不同的并发访问量级下,Mysql架构的演变。

可扩展性

架构的可扩展性往往和并发是息息相关,没有并发的增长,也就没有必要做高可扩展性的架构,这里对可扩展性进行简单介绍一下,常用的扩展手段有以下两种:

  • Scale-up:纵向扩展,通过替换为更好的机器和资源来实现伸缩,提升服务能力
  • Scale-out:横向扩展,  通过加节点(机器)来实现伸缩,提升服务能力

对于互联网的高并发应用来说,无疑横向扩展才是出路,同事通过纵向购买更高端的机器也一直是我们所避讳的问题,也不是长久之计。那么,在横向扩展的理论下,可扩展性的理想状态是什么?

可扩展性的理想状态

 

一个服务,当面临更高的并发的时候,能够通过简单增加机器来提升服务支撑的并发度,且增加机器过程中对线上服务无影响(no down time),这就是可扩展性的理想状态!

架构的演变

V1.0  简单网站架构

一个简单的小型网站或者应用背后的架构可以非常简单,数据存储只需要一个Mysql Instance就能满足数据读取和写入需求(这里忽略掉了数据备份的实例),处于这个时间段的网站,一般会把所有的信息存到一个Database    Instance里面。


在这样的架构下,我们来看看数据存储的瓶颈是什么?

  • 数据量的总大小  一个机器放不下
  • 数据的索引(B+ Tree)一个机器的内存放不下       
  • 访问量(读写混合)一个实例不能承受

只有当以上3件事情任何一件或多件满足时,我们才需要考虑往下一级演变。 从此我们可以看出,事实上对于很多小公司小应用,这种架构已经足够满足他们的需求了,初期数据量准确评估是杜绝过度设计很重要的一环,毕竟没有人愿意为不可能发生的事情而浪费自己的精力。

这里简单举个我的例子,对于用户信息这类表 (3个索引),16G内存能放下,大概2000万行数据的索引,简单的读和写混合访问量3000/s左右没有问题,你的应用场景是否?

V2.0 垂直拆分

一般当V1.0 遇到瓶颈时,首先最简便的拆分方法就是垂直拆分,何谓垂直?就是从业务角度来看,将关联性不强的数据拆分到不同的Instance上,从而达到消除瓶颈的目标。以图中的为例,将用户信息数据,和业务数据拆分到不同的三个实例上。对于重复读类型比较多的场景,我们还可以加一层Cache,来减少对DB的压力。


在这样的架构下,我们来看看数据存储的瓶颈是什么?

单实例单业务依然存在V1.0所述瓶颈:遇到瓶颈时可以考虑往本文更高V版本升级,若是读请求导致达到性能瓶颈可以考虑往V3.0升级,    其他瓶颈考虑往V4.0升级。

V3.0  主从架构

此类架构主要解决V2.0架构下的读问题,通过给Instance挂数据实时备份的思路来迁移读取的压力,在MySQL的场景下就是通过主从结构,主库抗写压力,通过从库来分担读压力,对于写少读多的应用,V3.0主从架构完全能够胜任。


在这样的架构下,我们来看看数据存储的瓶颈是什么?很明了,写入量主库不能承受。

V4.0  水平拆分

对于V2.0、V3.0方案遇到瓶颈时,都可以通过水平拆分来解决,水平拆分和垂直拆分有较大区别,垂直拆分拆完的结果,在一个实例上是拥有全量数据的,而水平拆分之后,任何实例都只有全量的1/n的数据,以下图UserInfo的拆分为例,将UserInfo拆分为3个Cluster,每个Cluster持有总量的1/3数据,3个Cluster数据的总和等于一份完整数据。

注:这里不再叫单个实例 而是叫一个Cluster 代表包含主从的一个小MySQL集群。


那么,这样架构中的数据该如何路由?

1. Range拆分

sharding key按连续区间段路由,一般用在有严格自增ID需求的场景上,如UserId、UserId Range的小例子,以UserId    3000万为Range进行拆分:1号Cluster的UserId是1-3000万,2号Cluster  UserId是 3001万-6000万。

2. List拆分

List拆分与Range拆分思路一样,都是通过给不同的sharding key来路由到不同的Cluster,但是具体方法有些不同。List主要用来做sharding    key不是连续区间的序列落到一个Cluster的情况,如以下场景:

假定有20个音像店,分布在4个有经销权的地区,如下表所示:

地区                商店ID 号               
北区                3, 5, 6, 9, 17               
东区                1, 2, 10, 11, 19, 20               
西区                4, 12, 13, 14, 18               
中心区                7, 8, 15, 16               
业务希望能够把一个地区的所有数据组织到一起来搜索,这种场景List拆分可以轻松搞定

3. Hash拆分

通过对sharding key 进行哈希的方式来进行拆分,常用的哈希方法有除余,字符串哈希等等,除余如按UserId%n的值来决定数据读写哪个Cluster,其他哈希类算法这里就不细展开讲了。

4. 数据拆分后引入的问题

数据水平拆分引入的问题主要是只能通过sharding key来读写操作,例如以UserId为sharding key的切分例子,读UserId的详细信息时,一定需要先知道UserId,这样才能推算出在哪个Cluster进而进行查询,假设我需要按UserName进行检索用户信息,需要引入额外的反向索引机制(类似HBase二级索引),如在Redis上存储username->userid的映射,以UserName查询的例子变成了先通过查询username->userid,再通过userid查询相应的信息。

实际上这个做法很简单,但是我们不要忽略了一个额外的隐患,那就是数据不一致的隐患。存储在Redis里的username->userid和存储在MySQL里的userid->username必须需要是一致的,这个保证起来很多时候是一件比较困难的事情,举个例子来说,对于修改用户名这个场景,你需要同时修改Redis和Mysql。这两个东西是很难做到事务保证的,如MySQL操作成功,但是Redis却操作失败了(分布式事务引入成本较高)。对于互联网应用来说,可用性是最重要的,一致性是其次,所以能够容忍小量的不一致出现.    毕竟从占比来说,这类的不一致的比例可以微乎其微到忽略不计。(一般写更新也会采用mq来保证直到成功为止才停止重试操作)

在这样的架构下,我们来看看数据存储的瓶颈是什么?

在这个拆分理念上搭建起来的架构,理论上不存在瓶颈(sharding key能确保各Cluster流量相对均衡的前提下)。不过确有一件恶心的事情,那就是Cluster扩容的时候重做数据的成本,如我原来有3个Cluster,但是现在我的数据增长比较快,我需要6个Cluster,那么我们需要将每个Cluster    一拆为二,一般的做法是:

  1. 摘下一个slave,停同步
  2. 对写记录增量log(实现上可以业务方对写操作多一次写持久化mq或者MySQL主创建trigger记录写等等方式)
  3. 开始对静态slave做数据一拆为二
  4. 回放增量写入,直到追上的所有增量,与原Cluster基本保持同步
  5. 写入切换,由原3 Cluster 切换为6 Cluster

有没有类似飞机空中加油的感觉,这是一个脏活,累活,容易出问题的活,为了避免这个,我们一般在最开始的时候,设计足够多的sharding cluster来防止可能的Cluster扩容这件事情。

V5.0  云计算 腾飞(云数据库)

云计算现在是各大IT公司内部作为节约成本的一个突破口,对于数据存储的MySQL来说,如何让其成为一个SaaS是关键点。在MS的官方文档中,把构建一个足够成熟的SaaS(MS简单列出了SAAS应用的4级成熟度)所面临的3个主要挑战:可配置性,可扩展性,多用户存储结构设计称为"three    headed monster"。可配置性和多用户存储结构设计在MySQL SaaS这个问题中并不是特别难办的一件事情,所以这里重点说一下可扩展性。

MySQL作为一个SaaS服务,在架构演变为V4.0之后,依赖良好的sharding key设计,已经不再存在扩展性问题,只是他在面对扩容缩容时,有一些脏活需要干,而作为SaaS,并不能避免扩容缩容这个问题,所以只要能把V4.0的脏活变成:第1,扩容缩容对前端APP透明(业务代码不需要任何改动);第2,扩容缩容全自动化且对在线服务无影响。如果实现了这两点,那么他就拿到了作为SaaS的门票。


对于架构实现的关键点,需要满足对业务透明,扩容缩容对业务不需要任何改动,那么就必须eat our own dog food,在你MySQL    SaaS内部解决这个问题,一般的做法是我们需要引入一个Proxy,Proxy来解析SQL协议,按sharding key来寻找Cluster,判断是读操作还是写操作来请求Master或者Slave,这一切内部的细节都由Proxy来屏蔽。

这里借淘宝的图来列举一下Proxy需要干哪些事情

对于架构实现的关键点,扩容缩容全自动化且对在线服务无影响; 扩容缩容对应到的数据操作即为数据拆分和数据合并,要做到完全自动化有非常多不同的实现方式,总体思路和V4.0介绍的瓶颈部分有关,目前来看这个问题比较好的方案就是实现一个伪装Slave的Sync    Slave,解析MySQL同步协议,然后实现数据拆分逻辑,把全量数据进行拆分。具体架构见下图:


其中Sync Slave对于Original Master来说,和一个普通的Mysql Slave没有任何区别,也不需要任何额外的区分对待。需要扩容/缩容时,挂上一个Sync    slave,开始全量同步+增量同步,等待一段时间追数据。以扩容为例,若扩容后的服务和扩容前数据已经基本同步了,这时候如何做到切换对业务无影响?    其实关键点还是在引入的Proxy,这个问题转换为了如何让Proxy做热切换后端的问题。这已经变成一个非常好处理的问题了。

另外值得关注的是:2014年5月28日——为了满足当下对Web及云应用需求,甲骨文宣布推出MySQL Fabric,在对应的资料部分我也放了很多Fabric的资料,有兴趣的可以看看,说不定会是以后的一个解决云数据库扩容缩容的手段。   

V more ?

等待革命……

淘宝用例

  • 淘宝RDS 云数据库设计:        http://blog.csdn.net/ywh147/article/details/8954625 http://www.infoq.com/cn/news/2012/10/taobao-ump

Mysql  Fabric

  • http://mysqlmusings.blogspot.jp/2013/09/brief-introduction-to-mysql-fabric.html
  • http://vnwrites.blogspot.jp/2013/09/mysqlfabric-sharding-introduction.html
  • http://vnwrites.blogspot.in/2013/09/mysqlfabric-sharding-example.html
  • http://vnwrites.blogspot.in/2013/09/mysqlfabric-sharding-migration.html
  • http://vnwrites.blogspot.jp/2013/09/mysqlfabric-sharding-maintenance.html

博文链接:Mysql在大型网站的应用架构演变

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_874676.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大型网站技术架构探讨

 目录: 1、大型网站架构的目标与挑战 2、网站架构演变及其技术脉络 3、架构设计理论与原则 何为“大型”网站? 没有统一的判断标准,流量大小是一个重要指标(日均流量至少IP>1,000,000才算大型网站&…

如何构建高扩展性网站?

 阅读目录 主要内容 化简方程 分布工作 横向扩展设计 使用正确的工具 不要做重复的工作 积极利用缓存 从错误中吸取教训 数据库原则 容错设计与故障控制 避免或分发状态 异步通信和消息总线 其他原则 参考 主要内容 本书从多个方面围绕高…

精选31个网站界面设计实践教程

设计一个网站从来都不是一件容易的事。如果你去询问一位在该行业有丰富经验的网页设计师,他会告诉你以前根本没有太多关于Web设计/开发的资源、文章和各种沟通交流平台,更不用说高质量免费教程了。 如果您打算建立自己的个人网站或者重新设计您的博客的主…

10个提高网站可用性的实用技巧

不论是企业网站、个人博客,或者购物网站、游戏网站,我们都希望能吸引访问者并且给他们留下愉快的访问体验。 可用性是用户体验的一种度量,它可以用访问者完成网站功能的方便程度来描述——无论是通过自身知识还是通过学习新方式来完成这种功能…

基于ASP.NET的网站发布、打包和安装

安装配置环境: 操作系统:Win7旗舰版 Visual Studio版本:VS2010 一、在发布、打包和安装网站之前,首先需要安装配置IIS。Win7默认已安装IIS。 1、打开IIS管理器功能。 打开控制面板-->程序->打开或关闭Windows功能 2、打…

ASP.NET网站发布中的错误类型

错误类型1&#xff1a; 解决方法&#xff1a;删除配置文件web.config里面的 <authentication mode"Windows" />行。 错误类型2&#xff1a; 分析&#xff1a;.Net Framework的版本不对应&#xff0c;要求Framework版本为4.0。 解决方法&#xff1a; 1、安装4.…

fastjson反序列化方法JSON.parseObject(String str,ClassT clazz)

fastjson这一工具包帮助我们进行java对象和json格式的字符串之间的相互转换。对象到字符串的过程&#xff0c;我们称之为序列化&#xff1b;反之&#xff0c;我们称为反序列化。 现在我们就来谈谈fastjson提供的反序列化方法&#xff0c;本篇只讨论按照指定的字节码返回相应对…

视频网站套上CDN是什么效果?

1、什么是CDN加速&#xff1f; 内容分发网络&#xff08;Content Delivery Network&#xff09;&#xff0c;是在现有 Internet 中增加的一层新的网络架构&#xff0c;由遍布全国的高性能加速节点构成。这些高性能的服务节点都会按照一定的缓存策略存储您的业务内容&#xff0c…

CMU-CSAPP-深入理解计算机系统-P1-courseoverview

首先让我们看一个实例 原因是数据是如何在内存中布局。C不会进行边界检查&#xff0c;容易崩溃 这两种程序功能是一样的 但是他们的时间完全不一样

1001、单机安装基于LNMP结构的WordPress网站、web与数据库服务分离

project 第1部分 文章目录 project 第1部分project1 整体架构一、单机安装基于LNMP&#xff08;Linux Nginx Mysql PHP&#xff09;结构的WordPress网站1、 基本环境准备2、配置nginx3、配置数据库服务器4、部署wordpress 二、web与数据库服务分离准备数据库服务器自由扩展&…

阿里云——手把手教你搭建个人网站

言归正传&#xff0c;阿里算是做云服务最早的一批了&#xff0c;当时的其他几家有名气的现在基本都死了&#xff0c;只有阿里这支部队熬过来了&#xff0c;就我了解的几家云商做个简单的介绍&#xff1a; 青云&#xff1a;有情怀有理想&#xff0c;不过短板也很明显&#xff0c…

Servlet+JSP+MySQL社交网站

在网站架构上&#xff0c;采用MVC设计模式&#xff0c;实现将网站的页面显示与业务逻辑分离&#xff0c;使其各司其职&#xff1b;在数据库操作上&#xff0c;利用DAO模式&#xff08;Data Access Object数据存取对象&#xff09;技术&#xff0c;将程序中的类对象映射成为数据…

《大型网站系统与JAVA中间件实践》pdf版电子书网盘附下载链接+仪式感技术书阅读法

附Java/C/C/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全&#xff1a; 书单导航页&#xff08;点击右侧 极客侠栈 即可打开个人博客&#xff09;&#xff1a;极客侠栈 ①【Java】学习之路吐血整理技术书从入门到进阶最全50本&#xff08;珍藏版) ②【算法…

《大型网站技术架构:核心原理与案例分析李智慧》pdf版电子书网盘附下载链接+仪式感技术书阅读法

附Java/C/C/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全&#xff1a; 书单导航页&#xff08;点击右侧 极客侠栈 即可打开个人博客&#xff09;&#xff1a;极客侠栈 ①【Java】学习之路吐血整理技术书从入门到进阶最全50本&#xff08;珍藏版) ②【算法…

SSM(springMVC+spring+mybatis)旅游网站项目源码,课程设计(毕业设计)

最近在翻文件的时候发现大四时的毕业设计&#xff0c;一个旅游网站&#xff0c;虽然代码写得很烂&#xff0c;但还是可以跑起来&#xff0c;想着删了还不如分享一下&#xff0c;毕竟我也觉得做毕设是真的无聊又浪费时间......... 整体功能图(其实是做得很敷衍&#xff0c;大部…

如何使用TFilter网站快速获取FIR滤波器的相关系数

最近需要对数据进行滤波&#xff0c;考虑到赛灵思已经有免费的FIR滤波器的ip核&#xff0c;便准备使用硬件进行滤波。但是不论是怎样使用FIR滤波器&#xff0c;都离不开相关系数的确定。实际设计中&#xff0c;不可能拿笔去一个个数值的计算&#xff0c;因此需要借助工具。 网上…

Linux基础PHP网站搭建

我们以ubuntu20.04为例&#xff0c;接下为了方便操作我们用Xshell连接Ubuntu20.04 输入&#xff1a;apt-get install apache2 &#xff08;安装apache&#xff0c;遇到选择全部选择Y&#xff09; 输入&#xff1a;service apache2 restart &#xff08;重新启动apache2…

自己做了个网站 网址:http://www.sunshinelin.club

网址&#xff1a; http://www.sunshinelin.club 当初做这个网站的目的就是为了能够自己用&#xff0c;想做什么功能就写什么功能。感觉使用自己的东西比较有成就感。 这个是网站的首页 我用的ssmshiro后台框架开发&#xff0c;服务是阿里云的centOS 在开发的时候会遇到各…

PHP网站上传大文件失败

问题&#xff1a; 上传较大的视频文件失败 解决&#xff1a; 1.修改网站本身的上传大小限制 2.修改php.ini文件&#xff0c;修改这两个参数post_max_size,upload_max_filesize&#xff0c;根据自己的需要设置大小&#xff0c;单位为M 3.IIS的设置&#xff0c;在发布网站 …

旧手机建立自己的博客网站之踩坑记||在旧手机上建立自己的服务器(2)||2020年新货

接上一篇 接下来配置LNPM环境。 方案一 根据大佬的博文安装时会出现以下情况网站搜索无果&#xff0c;全是让改软件源的&#xff0c;改完后问题依然&#xff0c;其实分析后可知&#xff0c;无法定位就是源里面没有软件或者源错误&#xff0c;所以 这里不指定版本安装。 这里…