大型网站架构技术演进的思考(一):存储的瓶颈(1)

news/2024/5/10 1:12:08/文章来源:https://blog.csdn.net/weixin_30437847/article/details/96813022
大型网站架构技术演进的思考(一):存储的瓶颈(1)

 

2016-03-23 架构说
前不久公司请来了位互联网界的技术大牛跟我们做了一次大型网站架构的培训,两天12个小时信息量非常大,知识的广度和难度也非常大,培训完后我很难完整理出全部听到的知识,今天我换了个思路是回味这次培训,这个思路就是通过本人目前的经验和技术水平来思考下大型网站技术演进的过程。
首先我们要思考一个问题,什么样的网站才是大型网站,从网站的技术指标角度考虑这个问题人们很容易犯一个毛病就是认为网站的访问量是衡量的指标,懂点行的人也许会认为是网站在单位时间里的并发量的大小来作为指标,如果按这些标准那么像hao123这样的网站就是大型网站了,如下图所示:
其实这种网站访问量非常大,并发数也非常高,但是它却能用最为简单的web技术来实现:我们只要保持网站的充分的静态化,多部署几台服务器,那么就算地球上所有人都用它,网站也能正常运行。
我觉得大型网站是技术和业务的结合,一个满足某些用户需求的网站只要技术和业务二者有一方难度很大,必然会让企业投入更多的、更优秀的人力成本实现它,那么这样的网站就是所谓的大型网站了。
一个初建的网站往往用户群都是很小的,最简单的网站架构就能解决实际的用户需求,当然为了保证网站的稳定性和安全性,我们会把网站的应用部署到至少两台机器上,后台的存储使用数据库,如果经济实力允许,数据库使用单台服务器部署,由于数据是网站的生命线,因此我们常常会把部署数据库的服务器使用的好点,这个网站结构如下所示:
这个结构非常简单,其实大部分初建网站开发里往往业务逻辑没有企业级系统那么复杂,所以只要有个好的idea,建设一个新网站的成本是非常低的,所使用的技术手段也是非常的基本和简单,不过该图我们要准备三台服务器,而且还要租个机房放置我们的服务器,这些成本对于草根和屌丝还是非常高的,幸运的是当下很多大公司和机构提供了云平台,我们可以花费很少的钱将自己的应用部署到云平台上,这种做法我们甚至不用去考虑把应用、数据库分开部署的问题,更加进一步的降低了网站开发和运维的成本,但是这种做法也有一个问题,就是网站的小命被这个云平台捏住了,如果云平台挂了,俺们的网站服务也就跟着挂了。
这里我先讲讲自己独立使用服务器部署网站的问题,如果我们要把网站服务应用使用多台服务器部署,这么做的目的一般有两个:
  1. 保证网站的可用性,多台服务器部署应用,那么其中一些服务器挂掉了,只要网站还有服务器能正常运转,那么网站对外任然可以正常提供服务。
  2. 提高网站的并发量,服务器越多那么网站能够服务的用户,单位时间内能承载的请求数也就越大。
不过要做到以上两点,并不是我们简单将网站分开部署就可以满足的,因为大多数网站在用户使用时候都是要保持用户的状态,具体点就是网站要记住请求是归属到那一个客户端,而这个状态在网站开发里就是通过会话session来体现的。分开部署的web应用服务要解决的一个首要问题就是要保持不同物理部署服务器之间的session同步问题,从而达到当用户第一次请求访问到服务器A,第二个请求访问到服务器B,网站任然知道这两个请求是同一个人,解决方案很直接:服务器A和服务器B上的session信息要时刻保持同步,那么如何保证两台服务器之间session信息的同步呢?
为了回答上面的问题,我们首先要理解下session的机制,session信息在web容器里都是存储在内存里的,web容器会给每个连接它的客户端生成一个sessionid值,这个sessionid值会被web容器置于http协议里的cookie域下,当响应被客户端处理后,客户端本地会存储这个sessionid值,用户以后的每个请求都会让这个sessionid值随cookie一起传递到服务器,服务器通过sessionid找到内存中存储的该用户的session内容,session在内存的数据结构是一个map的格式。那么为了保证不同服务器之间的session共享,那么最直接的方案就是让服务器之间session不断的传递和复制,例如java开发里常用的tomcat容器就采用这种方案,以前我测试过tomcat这种session同步的性能,我发现当需要同步的web容器越多,web应用所能承载的并发数并没有因为服务器的增加而线性提升,当服务器数量达到一个临界值后,整个web应用的并发数甚至还会下降,为什么会这样了?
原因很简单,不同服务器之间session的传递和复制会消耗服务器本身的系统资源,当服务器数量越大,消耗的资源越多,当用户请求越频繁,系统消耗资源也会越来越大。如果我们多部署服务器的目的只是想保证系统的稳定性,采用这种方案还是不错的,不过web应用最好部署少点,这样才不会影响到web应用的性能问题,如果我们还想提升网站的并发量那么就得采取其他的方案了。
时下使用的比较多的方案就是使用独立的缓存服务器,也就是将session的数据存储在一台独立的服务器上,如果觉得存在一台服务器不安全,那么可以使用memcached这样的分布式缓存服务器进行存储,这样既可以满足了网站稳定性问题也提升了网站的并发能力。
不过早期的淘宝在这个问题解决更加巧妙,他们将session的信息直接存储到浏览器的cookie里,每次请求cookie信息都会随着http一起传递到web服务器,这样就避免了web服务器之间session信息同步的问题,这种方案会让很多人诟病,诟病的原因是cookie的不安全性是总所周知的,如果有人恶意截取cookie信息那么网站不就不安全了吗?这个答案还真不好说,但是我觉得我们仅仅是跟踪用户的状态,把session存在cookie里其实也没什么大不了的。
其实如此专业的淘宝这么做其实还是很有深意的,还记得本文开篇提到的hao123网站,它是可以承载高并发的网站,它之所以可以做到这一点,原因很简单它是个静态网站,静态网站的特点就是不需要记录用户的状态,静态网站的服务器不需要使用宝贵的系统资源来存储大量的session会话信息,这样它就有更多系统资源来处理请求,而早期淘宝将cookie存在客户端也是为了达到这样的目的,所以这个方案在淘宝网站架构里还是使用了很长时间的。
在我的公司里客户端的请求到达web服务器之前,会先到F5,F5是一个用来做负载均衡的硬件设备,它的作用是将用户请求均匀的分发到后台的服务器集群,F5是硬件的负载均衡解决方案,如果我们没那么多钱买这样的设备,也有软件的负载均衡解决方案,这个方案就是大名鼎鼎的LVS了,这些负载均衡设备除了可以分发请求外它们还有个能力,这个能力是根据http协议的特点设计的,一个http请求从客户端到达最终的存储服务器之前可能会经过很多不同的设备,如果我们把一个请求比作高速公路上的一辆汽车,这些设备也可以叫做这些节点就是高速路上的收费站,这些收费站都能根据自己的需求改变http报文的内容,所以负载均衡设备可以记住每个sessionid值对应的后台服务器,当一个带有sessionid值的请求通过负载均衡设备时候,负载均衡设备会根据该sessionid值直接找到指定的web服务器,这种做法有个专有名词就是session粘滞,这种做法也比那种session信息在不同服务器之间拷贝复制要高效,不过该做法还是比存cookie的效率低下,而且对于网站的稳定性也有一定影响即如果某台服务器挂掉了,那么连接到该服务器的用户的会话都会失效。
解决session的问题的本质也就是解决session的存储问题,其本质也就是解决网站的存储问题,一个初建的网站在早期的运营期需要解决的问题基本都是由存储导致的。上文里我提到时下很多新建的web应用会将服务器部署后云平台里,好的云平台里或许会帮助我们解决负载均衡和session同步的问题,但是云平台里有个问题很难解决那就是数据库的存储问题,如果我们使用的云平台发生了重大事故,导致云平台存储的数据丢失,这种会不会导致我们在云平台里数据库的信息也会丢失了,虽然这个事情的概率不高,但是发生这种事情的几率还是有的,虽然很多云平台都声称自己多么可靠,但是真实可靠性有多高不是局中人还真不清楚哦,因此使用云平台我们首要考虑的就是要做好数据备份,假如真发生了数据丢失,对于一个快速成长的网站而言可能非常致命。
写到这里一个婴儿般的网站就这样被我们创造出来了,我们希望网站能健康快速的成长,如果网站真的按我们预期成长了,那么一定会有一天我们制造的宝宝屋已经满足不了现实的需求,这个时候我们应该如何抉择了?换掉,全部换掉,使用新的架构例如我们以前长提的SOA架构,分布式技术,这个方法不错,但是SOA和分布式技术是很难的,成本是很高的,如果这时候我们通过添加几台服务器就能解决问题的话,我们绝对不要去选择什么分布式技术,因为这个成本太高了。上面我讲到几种session共享的方案,这个方案解决了应用的水平扩展问题,那么当我们网站出现瓶颈时候就多加几台服务器不就行了吗?那么这里就有个问题了,当网站成长很快,网站首先碰到的瓶颈到底是哪个方面的问题?
本人是做金融网站的,我们所做的网站有个特点就是当用户访问到我们所做的网站时候,目的都很明确就是为了付钱,用户到了我们所做的网站时候都希望能快点,再快点完成本网站的操作,很多用户在使用我们做的网站时候不太去关心网站的其他内容,因此我们所做的网站相对于数据库而言就是读写比例其实非常的均匀,甚至很多场景写比读要高,这个特点是很多专业服务网站的特点,其实这样的网站和企业开发的特点很类似:业务操作的重要度超过了业务展示的重要度,因此专业性网站吸纳企业系统开发的特点比较多。但是大部分我们日常常用的网站,我们逗留时间很长的网站按数据库角度而言往往是读远远大于写,例如大众点评网站它的读写比率往往是9比1。
12306或许是中国最著名的网站之一,我记得12306早期经常出现一个问题就是用户登录老是登不上,甚至在高峰期整个网站挂掉,页面显示503网站拒绝访问的问题,这个现象很好理解就是网站并发高了,大量人去登录网站,购票,系统挂掉了,最后所有的人都不能使用网站了。当网站出现503拒绝访问时候,那么这个网站就出现了最致命的问题,解决大用户访问的确是个超级难题,但是当高并发无法避免时候,整个网站都不能使用这个只能说网站设计上发生了致命错误,一个好的网站设计在应对超出自己能力的并发时候我们首先应该是不让他挂掉,因为这种结果是谁都不能使用,我们希望那些在可接受的请求下,让在可接受请求范围内的请求还是可以正常使用,超出的请求可以被拒绝,但是它们绝对不能影响到全网站的稳定性,现在我们看到了12306网站的峰值从未减少过,而且是越变越多,但是12306出现全站挂掉的问题是越来越少了。通过12036网站改变我们更进一步思考下网站的瓶颈问题。
排除一些不可控的因素,网站在高并发下挂掉的原因90%都是因为数据库不堪重负所致,而应用的瓶颈往往只有在解决了存储瓶颈后才会暴露,那么我们要升级网站能力的第一步工作就是提升数据库的承载能力,对于读远大于写的网站我们采取的方式就是将数据库从读写这个角度拆分,具体操作就是将数据库读写分离,如下图所示:
我们这时要设计两个数据库,一个数据库主要负责写操作我们称之为主库,一个数据库专门负责读操作我们称之为副库,副库的数据都是从主库导入的,数据库的读写分离可以有效的保证关键数据的安全性,但是有个缺点就是当用户浏览数据时候,读的数据都会有点延时,这种延时比起全站不可用那肯定是可以接受的。不过针对12306的场景,仅仅读写分离还是远远不够的,特别是负责读操作的副库,在高访问下也是很容易达到性能的瓶颈的,那么我们就得使用新的解决方案:使用分布式缓存,不过缓存的缺点就是不能有效的实时更新,因此我们使用缓存前首先要对读操作的数据进行分类,对于那些经常不发生变化的数据可以事先存放到缓存里,缓存的访问效率很高,这样会让读更加高效,同时也减轻了数据库的访问压力。至于用于写操作的主库,因为大部分网站读写的比例是严重失衡,所以让主库达到瓶颈还是比较难的,不过主库也有一个读的压力就是主库和副库的数据同步问题,不过同步时候数据都是批量操作,而不是像请求那样进行少量数据读取操作,读取操作特别多,因此想达到瓶颈还是有一定的难度的。听人说,美国牛逼的facebook对数据的任何操作都是事先合并为批量操作,从而达到减轻数据库压力的目的。
上面的方案我们可以保证在高并发下网站的稳定性,但是针对于读,如果数据量太大了,就算网站不挂掉了,用户能很快的在海量数据里检索到所需要的信息又成为了网站的一个瓶颈,如果用户需要很长时间才能获得自己想要的数据,很多用户会失去耐心从而放弃对网站的使用,那么这个问题又该如何解决了?
解决方案就是我们经常使用的百度,谷歌哪里得来,对于海量数据的读我们可以采用搜索技术,我们可以将数据库的数据导出到文件里,对文件建立索引,使用倒排索引技术来检索信息,我们看到了百度,谷歌有整个互联网的信息我们任然能很快的检索到数据,搜索技术是解决快速读取数据的一个有效方案,不过这个读取还是和数据库的读取有所区别的,如果用户查询的数据是通过数据库的主键字段,或者是通过很明确的建立了索引的字段来检索,那么数据库的查询效率是很高的,但是使用网站的人跟喜欢使用一些模糊查询来查找自己的信息,那么这个操作在数据库里就是个like操作,like操作在数据库里效率是很低的,这个时候使用搜索技术的优势就非常明显了,搜索技术非常适合于模糊查询操作。
posted on 2018-08-11 20:30 micwin 阅读(...) 评论(...)  编辑 收藏

转载于:https://www.cnblogs.com/chinanetwind/articles/9460971.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_777278.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React发布网站后,Failed to load resource: the server responded with a status of 404 (Not Found)

IIS服务器如果发布了React开发的网站后,由于react会生成一个manifest.json在网站目录,用户浏览网站时候需要用到这个文件. 而IIS默认不支持json文件的访问,需要添加MIME类型信息 点右上角添加 输入如图,确定 不需要重启IIS,客户端直接刷新请求的页面即可

自建文章网站/博客,用什么HTML/富文本/web在线编辑器发文章比较好?

这是个人思路整理,你应有你自己的选择方式. 一直想做一个自己的网站,发布一些自己的文章.总在CSDN发文章,感觉CSDN的编辑器不错. 网上搜了一下,好多人说csdn很久之前用的是一个fceditor或者kindeditor之类的. 但我发现并不是.至少现在不是. 于是在git上简单搜了搜 waht you…

用好 CSS 的 filter滤镜,让你的网站超炫

让网站又漂亮又快是大家共同追求的目标。CSS 一个比较炫的属性 Filter 是非常帅的,可以不用flash就做出很漂亮的效果。filter 中有14个滤波器,我先使用 alpha 滤波器做个渐变的例子把。 例子:首先,把下面的代码粘贴到 test.html…

前端开发必备的几个网站

1,codelf。如果你不知道怎么命名一个东西,就去上面查查看。https://unbug.github.io/codelf/ 2.json在线格式化。不需解释的神器。https://www.json.cn/ 3.Can I use。查询浏览器兼容性的官方地址。https://www.caniuse.com/ 4.MDN。比w3c更靠谱更权威的…

Lnmp架构部署动态网站环境.2019-7-3-1.4

安装wiki开源产品 一、创建数据库 [rootLnmp bbs]# mysql -uroot -p123456 mysql> create database wiki;  #创建wiki数据库 mysql> grant all on wiki.* to wikilocalhost identified by wiki;  #创建wiki数据库用户 mysql> flush privileges;  #刷新权限 二、…

absolute 必须 relative_在美国生活如何更省钱?这些购物比价网站必须收藏

转载自:美国邦利无论我们由于什么来到美国,生活总是要围绕着衣食住行,留学也好,工作也罢,既然离不开买买买,在美国生活的小伙伴就少不得要精打细算。作为省钱小达人的我,自悟出了一套省钱三部曲…

利用cookie实现网站的自动登录_wordpress网站实现QQ登录方法

前面好一佳已经说了利用插件WP Open Social实现了QQ微信分享功能以后,好一佳发现这里还可以实现QQ登录功能,于是好一佳就开始研究利用QQ登录网站的方法了,几天下来,好一佳终于搞定这个功能,今天好一佳就在这里给大家说…

网站刷关键词_如何提升网站关键词及长尾词的排名 - 百度排名提升软件

原出处:超级排名系统原文链接:如何提升网站关键词及长尾词的排名? - 超级排名系统现在百度的更新几乎每天都在更新,目的是防止别人用软件刷排名和流量,但很多软件仍在不断的模拟用户点击站点。如果你知道百度的点击算法…

K近邻算法-约会网站配对实例

背景 海伦女士一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的任选 但她并不是喜欢每一个人。经过一番总结,她发现自己交往过的人可以进行如下分类:(1)不喜欢的人 (2)魅力一般的人…

大型网站和java中间件_大型网站系统与Java中间件实践

第一章:分布式系统介绍1.1初始分布式系统1.1.1分布式系统的定义两个重点:一是组件分布在网络计算机上,二是组件之间仅仅用过消息传递来通信并协调行动。分布式系统的定义:分布式系统一定是有多个节点组成的系统,一般来…

网站搜索功能怎么实现_「搜索引擎优化」理解百度搜索引擎原理可以让站长网站实现快速引流...

第一、百度搜索引擎优化原理第二、百度SEO工作原理百度搜索引擎首先是先抓取我们的网站的页面,接着是收录我们的网站页面,最后是从储存在数据库上的网站页面按页面的友好度进行排名。[搜索引擎优化]理解百度搜索引擎原理可以让站长网站实现快速引流第三、…

服务器缓存修改,网站修改之后不生效主要因为缓存,缓存有几种

网站修改之后经常会遇到一个现象,就是刚才该的东西没有显示,是什么原因呢?主要原因是缓存。缓存都有哪些呢?第一、DNS缓存。这个是域名的缓存,比如说,我们的域名对应的IP是1.1.1.1换成2.2.2.2的时候&#x…

服务器修改网站首页文字,结合网站实际情况修改seo标题能提高关键词排名

网站搜索引擎优化提高排名是修改网站首页标题提高网站排名。也许这种方法不是准确的,需要结合自身因素加以改进。建议:在前期,先做一些低竞争力的词和有业务需求的关键词。二、重新定位网站的主要关键字在网站做了太多的关键字之后&#xff0…

代码粘贴到word文档的美化网站

网站网址:http://word.wd1x.com/ 网站地址:http://www.planetb.ca/syntax-highlight-word 选择的是PHP格式,美化后直接复制粘贴到文档中即可 代码美化后的样式: 粘贴到文档中的样式

笨兔兔的故事linux入门很简单,对决 - 笨兔兔的故事——带你了解Ubuntu,了解Linux_Linux新闻_Linux公社-Linux系统门户网站...

(60) 对决毕大师和毕翻译安顿好之后,主人立刻把他们叫起来干活。俩人先后爬起来跑进内存,麻利的整理起主人的图片来——第一次启动嘛,得先对主人指定存放图片的那个目录扫描一下,做好整理和记录工作,这样才能心里有底&…

国外较好的IT网站

2019独角兽企业重金招聘Python工程师标准>>> 最近有些读者给我来信说很喜欢这个网站上的文章,并且也想通过翻译学习英文,他们询问我这些文章的英文原文是从哪里找到的? 外刊IT评论上的翻译的英文来源很杂,我总结了一下&#xff0…

大型网站的架构

一、大型网站的软件系统的特点 高并发,大流量高可用海量数据用户分布广泛,网络情况复杂安全环境恶劣需求快速变更,发布频繁渐进式发展 二、大型网站的架构演化发展历程 1、初始阶段的网站架构 最开始网站的应用程序、数据库、文件等所有的…

发现一个国外的学习网站

一个国外的学习网站 udacity.com 优达学成。 免费课程 https://cn.udacity.com/courses/all 全部的课程 里面有不少有意思的课程。 课程是英文的带中文翻译。 还有一个机器学习的课程,感觉好高大上啊。 总结 使用上有点不太方便。 本地化做的还不是很好。 但是…

网站导航代码最精简的设置

2019独角兽企业重金招聘Python工程师标准>>> <div class"nav"> <div class"wrapper"> <ul class"nav-list fix"> <li class"item"> <…

dedecms织梦网站搬家教程

2019独角兽企业重金招聘Python工程师标准>>> 方法一&#xff1a;利用网站管理后台备份数据库 1. 登陆你的织梦网站后台&#xff0c;在“系统”区找到“数据库备份/还原”&#xff0c;将数据库进行“备份”&#xff1b; 2. 数据库备份完成后&#xff0c;去主机管理平…