大型网站图片服务器架构的演进

news/2024/5/9 3:23:01/文章来源:https://blog.csdn.net/weixin_30393907/article/details/98617237

在主流的Web站点中,图片往往是不可或缺的页面元素,尤其在大型网站中,几乎都将面临“海量图片资源”的存储、访问等相关技术问题。在针对图片服务器的架构扩展中,也会历经很多曲折甚至是血泪教训(尤其是早期规划不足,造成后期架构上很难兼容和扩展)。

本文将以一个真实垂直门户网站的发展历程,向大家娓娓道来。

构建在Windows平台之上的网站,往往会被业内众多技术认为很“保守”,甚至会有点。很大部分原因,是由于微软技术体系的封闭和部分技术人员的短视造成的(当然,主要还是人的问题)。由于长期缺乏开源支持,所以很多人只能“闭门造车”,这样很容易形成思维局限性和短板。以图片服务器为例子,如果前期没有容量规划和可扩展的设计,那么随着图片文件的不断增多和访问量的上升,由于在性能、容错/容灾、扩展性等方面的设计不足,后续将会给开发、运维工作带来很多问题,严重时甚至会影响到网站业务正常运作和互联网公司的发展(这绝不是在危言耸听)。

很多公司之所以选择Windows(.NET)平台来构建网站和图片服务器,很大部分由创始团队的技术背景决定的,早期的技术人员可能更熟悉.NET,或者团队的负责人认为Windows/.NET的易用性、“短平快”的开发模式、人才成本等方面都比较符合创业初期的团队,自然就选择了Windows。后期业务发展到一定规模,也很难轻易将整体架构迁移到其它开源平台上了。当然,对于构建大规模互联网,更建议首选开源架构,因为有很多成熟的案例和开源生态的支持(也会有很多坑,就看是你自己最先去踩坑,还是在别人踩了修复之后你再用),避免重复造轮子和支出高额授权费用。对于迁移难度较大的应用,个人比较推荐Linux、Mono、Jexus、Mysql、Memcahed、Redis……混搭的架构,同样能支撑具有高并发访问和大数据量等特点的互联网应用。

单机时代的图片服务器架构(集中式)

初创时期由于时间紧迫,开发人员水平也很有限等原因。所以通常就直接在website文件所在的目录下,建立1个upload子目录,用于保存用户上传的图片文件。如果按业务再细分,可以在upload目录下再建立不同的子目录来区分。例如:upload\QA,upload\Face等。

在数据库表中保存的也是”upload/qa/test.jpg”这类相对路径。

用户的访问方式如下:

http://www.yourdomain.com/upload/qa/test.jpg

程序上传和写入方式:

程序员A通过在web.config中配置物理目录D:\Web\yourdomain\upload  然后通过stream的方式写入文件;

程序员B通过Server.MapPath等方式,根据相对路径获取物理目录  然后也通过stream的方式写入文件。

优点:实现起来最简单,无需任何复杂技术,就能成功将用户上传的文件写入指定目录。保存数据库记录和访问起来倒是也很方便。

缺点:上传方式混乱,严重不利于网站的扩展。

针对上述最原始的架构,主要面临着如下问题:

  1. 随着upload目录中文件越来越多,所在分区(例如D盘)如果出现容量不足,则很难扩容。只能停机后更换更大容量的存储设备,再将旧数据导入。
  2. 在部署新版本(部署新版本前通过需要备份)和日常备份website文件的时候,需要同时操作upload目录中的文件,如果考虑到访问量上升,后边部署由多台Web服务器组成的负载均衡集群,集群节点之间如果做好文件实时同步将是个难题。

 

集群时代的图片服务器架构(实时同步)

在website站点下面,新建一个名为upload的虚拟目录,由于虚拟目录的灵活性,能在一定程度上取代物理目录,并兼容原有的图片上传和访问方式。用户的访问方式依然是:

http://www.yourdomain.com/upload/qa/test.jpg

优点:配置更加灵活,也能兼容老版本的上传和访问方式。

因为虚拟目录,可以指向本地任意盘符下的任意目录。这样一来,还可以通过接入外置存储,来进行单机的容量扩展。

缺点:部署成由多台Web服务器组成的集群,各个Web服务器(集群节点)之间(虚拟目录下的)需要实时的去同步文件,由于同步效率和实时性的限制,很难保证某一时刻各节点上文件是完全一致的。

基本架构如下图所示:

 

从上图可看出,整个Web服务器架构已经具备“可扩展、高可用”了,主要问题和瓶颈都集中在多台服务器之间的文件同步上。

 

上述架构中只能在这几台Web服务器上互相“增量同步”,这样一来,就不支持文件的“删除、更新”操作的同步了。

早期的想法是,在应用程序层面做控制,当用户请求在web1服务器进行上传写入的同时,也同步去调用其它web服务器上的上传接口,这显然是得不偿失的。所以我们选择使用Rsync类的软件来做定时文件同步的,从而省去了“重复造轮子”的成本,也降低了风险性。

同步操作里面,一般有比较经典的两种模型,即推拉模型:所谓“拉”,就是指轮询地去获取更新,所谓推,就是发生更改后主动的“推”给其它机器。当然,也可以采用加高级的事件通知机制来完成此类动作。

在高并发写入的场景中,同步都会出现效率和实时性问题,而且大量文件同步也是很消耗系统和带宽资源的(跨网段则更明显)。  

集群时代的图片服务器架构改进(共享存储)

 沿用虚拟目录的方式,通过UNC(网络路径)的方式实现共享存储(将upload虚拟目录指向UNC)

用户的访问方式1:

http://www.yourdomain.com/upload/qa/test.jpg

用户的访问方式2(可以配置独立域名):

http://img.yourdomain.com/upload/qa/test.jpg

支持UNC所在server上配置独立域名指向,并配置轻量级的web服务器,来实现独立图片服务器。

   优点: 通过UNC(网络路径)的方式来进行读写操作,可以避免多服务器之间同步相关的问题。相对来讲很灵活,也支持扩容/扩展。支持配置成独立图片服务器和域名访问,也完整兼容旧版本的访问规则。   

   缺点 :但是UNC配置有些繁琐,而且会造成一定的(读写和安全)性能损失。可能会出现“单点故障”。如果存储级别没有raid或者更高级的灾备措施,还会造成数据丢失。

基本架构如下图所示:

 

在早期的很多基于Linux开源架构的网站中,如果不想同步图片,可能会利用NFS来实现。事实证明,NFS在高并发读写和海量存储方面,效率上存在一定问题,并非最佳的选择,所以大部分互联网公司都不会使用NFS来实现此类应用。当然,也可以通过Windows自带的DFS来实现,缺点是“配置复杂,效率未知,而且缺乏资料大量的实际案例”。另外,也有一些公司采用FTP或Samba来实现。

 

上面提到的几种架构,在上传/下载操作时,都经过了Web服务器(虽然共享存储的这种架构,也可以配置独立域名和站点来提供图片访问,但上传写入仍然得经过Web服务器上的应用程序来处理),这对Web服务器来讲无疑是造成巨大的压力。所以,更建议使用独立的图片服务器和独立的域名,来提供用户图片的上传和访问。

独立图片服务器/独立域名的好处

  1. 图片访问是很消耗服务器资源的(因为会涉及到操作系统的上下文切换和磁盘I/O操作)。分离出来后,Web/App服务器可以更专注发挥动态处理的能力。
  2. 独立存储,更方便做扩容、容灾和数据迁移。
  3. 浏览器(相同域名下的)并发策略限制,性能损失。
  4. 访问图片时,请求信息中总带cookie信息,也会造成性能损失。
  5. 方便做图片访问请求的负载均衡,方便应用各种缓存策略(HTTP Header、Proxy Cache等),也更加方便迁移到CDN。

......

 

我们可以使用Lighttpd或者Nginx等轻量级的web服务器来架构独立图片服务器。

当前的图片服务器架构(分布式文件系统+CDN)

在构建当前的图片服务器架构之前,可以先彻底撇开web服务器,直接配置单独的图片服务器/域名。但面临如下的问题:

  1. 旧图片数据怎么办?能否继续兼容旧图片路径访问规则?
  2. 独立的图片服务器上需要提供单独的上传写入的接口(服务API对外发布),安全问题如何保证?
  3. 同理,假如有多台独立图片服务器,是使用可扩展的共享存储方案,还是采用实时同步机制?

 

直到应用级别的(非系统级) DFS(例如FastDFS HDFS MogileFs MooseFS、TFS)的流行,简化了这个问题:执行冗余备份、支持自动同步、支持线性扩展、支持主流语言的客户端api上传/下载/删除等操作,部分支持文件索引,部分支持提供Web的方式来访问。

考虑到各DFS的特点,客户端API语言支持情况(需要支持C#),文档和案例,以及社区的支持度,我们最终选择了FastDFS来部署。

唯一的问题是:可能会不兼容旧版本的访问规则。如果将旧图片一次性导入FastDFS,但由于旧图片访问路径分布存储在不同业务数据库的各个表中,整体更新起来也十分困难,所以必须得兼容旧版本的访问规则。架构升级往往比做全新架构更有难度,就是因为还要兼容之前版本的问题。(给飞机在空中换引擎可比造架飞机难得多)

解决方案如下:

首先,关闭旧版本上传入口(避免继续使用导致数据不一致)。将旧图片数据通过rsync工具一次性迁移到独立的图片服务器上(即下图中描述的Old Image Server)。在最前端(七层代理,如Haproxy、Nginx)用ACL(访问规则控制),将旧图片对应URL规则的请求(正则)匹配到,然后将请求直接转发指定的web 服务器列表,在该列表中的服务器上配置好提供图片(以Web方式)访问的站点,并加入缓存策略。这样实现旧图片服务器的分离和缓存,兼容了旧图片的访问规则并提升旧图片访问效率,也避免了实时同步所带来的问题。

 

整体架构如图:

 

基于FastDFS的独立图片服务器集群架构,虽然已经非常的成熟,但是由于国内“南北互联”和IDC带宽成本等问题(图片是非常消耗流量的),我们最终还是选择了商用的CDN技术,实现起来也非常容易,原理其实也很简单,我这里只做个简单的介绍:

将img域名cname到CDN厂商指定的域名上,用户请求访问图片时,则由CDN厂商提供智能DNS解析,将最近的(当然也可能有其它更复杂的策略,例如负载情况、健康状态等)服务节点地址返回给用户,用户请求到达指定的服务器节点上,该节点上提供了类似Squid/Vanish的代理缓存服务,如果是第一次请求该路径,则会从源站获取图片资源返回客户端浏览器,如果缓存中存在,则直接从缓存中获取并返回给客户端浏览器,完成请求/响应过程。

由于采用了商用CDN服务,所以我们并没有考虑用Squid/Vanish来自行构建前置代理缓存。

上面的整个集群架构,可以很方便的做横向扩展,能满足一般垂直领域中大型网站的图片服务需求(当然,像taobao这样超大规模的可能另当别论)。经测试,提供图片访问的单台Nginx服务器(至强E5四核CPU、16G内存、SSD),对小静态页面(压缩后大概只有10kb左右的)可以扛住几千个并发且毫无压力。当然,由于图片本身体积比纯文本的静态页面大很多,提供图片访问的服务器的抗并发能力,往往会受限于磁盘的I/O处理能力和IDC提供的带宽。Nginx的抗并发能力还是非常强的,而且对资源占用很低,尤其是处理静态资源,似乎都不需要有过多担心了。可以根据实际访问量的需求,通过调整Nginx的参数,对Linux内核做调优,加入分级缓存策略等手段能够做更大程度的优化,也可以通过增加服务器或者升级服务器配置来做扩展,最直接的是通过购买更高级的存储设备和更大的带宽,以满足更大访问量的需求。

值得一提的是,在“云计算”流行的当下,也推荐高速发展期间的网站,使用“云存储”这样的方案,既能帮你解决各类存储、扩展、备灾的问题,又能做好CDN加速。最重要的是,价格也不贵。

总结,有关图片服务器架构扩展,大致围绕这些问题展开:

  1. 容量规划和扩展问题。
  2. 数据的同步、冗余和容灾。
  3. 硬件设备的成本和可靠性(是普通机械硬盘,还是SSD,或者更高端的存储设备和方案)。
  4. 文件系统的选择。根据文件特性(例如文件大小、读写比例等)选择是用ext3/4或者NFS/GFS/TFS这些开源的(分布式)文件系统。
  5. 图片的加速访问。采用商用CDN或者自建的代理缓存、web静态缓存架构。
  6. 旧图片路径和访问规则的兼容性,应用程序层面的可扩展,上传和访问的性能和安全性等。

 

转载于:https://www.cnblogs.com/dinglang/p/4608915.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_710724.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

拳王虚拟项目公社:如何通过SEO优化分析建网站赚钱?

这几年其实几乎已经很少有人再提起seo这个行业了,也有很多人认为现在已经没有人在用搜索引擎的了,也有一个seo从业者片面的认为pc端的网站优化叫做seo,移动端就不属于seo范畴了,其实聊这些东西本身没有任何的意义。 其实百度的DA…

拳王虚拟项目公社:看懂虚拟资源整合收集,资源网站的盈利玩法

之前有拳友咨询:现在还能通过信息差赚钱吗? 能,这种生意太多了。 举个栗子: 有很多人都充了爱奇艺的VIP会员,因为不付费很多内容都看不了。 在爱奇艺官方平台上,年付的黄金会员价格是178,但…

拳王虚拟项目公社:解除网站禁止复制的插件,Simple Allow Copy V 0.8.2

拳王上一篇文章写了:小红书种草博主如何赚钱?从养号到运营全攻略 我们来回顾一下核心重点。 如何做一个种草博主呢? 1、定位与机制 2、养号 3、内容 4、时间 今天拳王给大家分享一个实用技能,许多伙伴应该也会碰到这种情况&am…

拳王虚拟项目公社:一款解除网站禁止复制的插件,Simple Allow Copy V 0.8.2

第一步: 第二步: 第三步: 第四步: 第五步: 第六步: 1.百度等文库解除复制不能保证都成功。如果是可编辑文档,可以解除;如果是图片或图片生成的PDF 文档,不能解除。 …

seo优化:把百度放进数据库

seo优化:把百度放进数据库有时候我想,能把百度的数据放进数据库,用广大程序员熟悉的sql语句查询百度的搜索结果应该是一个不错的主意。在这方面Google早已经跨出了一大步,利用Google Search API 把Google的搜索结果放进数据库是很容易办到得。…

搜索引擎SEO外挂:一边搜索,一边看PageRank

搜索引擎SEO外挂:一边搜索,一边看PageRank下载地址:多么乐站长工具 我原来曾写过一篇统计分析搜索引擎排名和Page Rank 关联分析 的文章。很多人引用,回复和我讨论了我的结论。有赞成的,有反对的,有鼓励的&…

使用XAMPP轻松建站(上)

LAMP (Linux Apache MySQL PHP) 作为与Windows、IIS和.NET等专有和商业软件进行竞争的一种开源软件解决方案,以其特有的安全、快速、易用、易于开发以及大量的开源代码,受到了人们越来越多的关注。特别是近几年来发展迅速,已经成为Web 服务…

使用XAMPP轻松建站(下)

【导读】LAMP (Linux Apache MySQL PHP) 作为与Windows、IIS和.NET等专有和商业软件进行竞争的一种开源软件解决方案。规避了LAMP的复杂、繁琐,XAMPP提供了一种轻松建设网站的途径。本文将介绍基于XAMPP的内容管理系统和论坛系统的建设。 论坛系统——Discuz! …

zero ecilpse下载_推荐10个免费图片下载网站,助你摆脱找图烦恼!建议收藏

无论是做设计、自媒体还是SEO推广,我们都需要各种图片。而且还是要清晰的,因为图片的质量会直接影响到用户的阅读体验。那么我们去哪找那么多高质量图片呢?相信很多人会从百度上快速低成本的去获取,以前可能没什么问题。但现在这种找图片的方…

为啥程序员下班后只关显示器从不关电脑?看看各大网站的答案~

本文综合自:csdn原文:https://blog.csdn.net/csdnsevenn/article/details/87887552慕课网原文:https://www.imooc.com/article/30549首百问答的答案:jingmentudou因为你永远不知道什么时间会被叫醒。开个远程就能避免半夜去公司了…

大型网站架构系列:电商网站架构案例(1)

大型网站架构系列:电商网站架构案例(1) 大型网站架构是一个系列文档,欢迎大家关注。本次分享主题:电商网站架构案例。从电商网站的需求,到单机架构,逐步演变为常用的,可供参考的分布式架构的原型。除具备功…

查看一个网站后台是用的什么服务器

本文出自 “腾飞工作室” 博客,请务必保留此出处 http://www.cnblogs.com/tfgzs/p/5763623.html 转载于:https://www.cnblogs.com/tfgzs/p/5763623.html

学习,工作,编程必看:130 个相见恨晚的神器网站

来源:https://blog.csdn.net/qq_43901693/article/details/100606828作者:爪白白搞学习知乎:www.zhihu.comTED(最优质的演讲):https://www.ted.com/谷粉学术: https://gfsoso.99lb.net/scholar.…

新建网站了!Github标星过万的吴恩达机器学习、深度学习课程笔记,《统计学习方法》代码实现,可以在线阅读了!...

吴恩达机器学习、深度学习,李航老师《统计学习方法》,可以说是机器学习入门的宝典。本文推荐一个网站“机器学习初学者”,把以上资源的笔记、代码实现做成了网页版,可以在线阅读了。网址:http://www.ai-start.com黄博的…

php实现一个简单的购物网站

实现一个简单的购物网站 一、考试时间:8小时 二、开发工具:DW 三、数据库:见附件 四、需要实现的页面: Index:浏览商品页面,显示商品列表,用户可以点击“购买“。 ViewCart:查看购物…

嵌入式 IOT 汽车 航空 AI 领域从IP到片上系统SOC信息检索网站 DR

http://www.design-reuse.cn/ 从IP到片上系统以及物联网 450家供应商的16,000个IP核 200供应商的1000多个SoC解决方案 http://www.design-reuse.cn/ About Design and Reuse Design & Reuse (D&R) was founded in October, 1997 by Gabriele Saucier and Philippe…

大型网站高并发——服务器负载均衡设计

大型网站高并发——服务器负载均衡设计 方案一:直接路由方式(LVS-DR) 硬件配置:一台负载均衡器,两台或则三台TOMCAT服务器 WEB服务器配置:Linux tomcat WEB应用程序(JAVA) 工具 LVS技术介绍:它是通过修改数据包的目…

37个自学网站,一年让你省下十几万

37个自学网站,一年让你省下十几万 一.综合类 1、学堂在线 学堂在线运行了包括包括清华大学、北京大学、复旦大学、斯坦福大学、麻省理工学院、加州大学伯克利分校等国内外几十所顶尖高校的优质课程。 2、MOOC网 中国大学MOOC(慕课)是爱课程网携手云课堂打造的在线…

网站引入特殊字体

先获取这些字体文件 然后添加css /*引入字体(pt-din-condensed-cyrillic)*/ font-face {font-family: pt;src: url(../font/pt/pt-din-condensed-cyrillic.eot);src: url(../font/pt/pt-din-condensed-cyrillic.eot?#iefix) format(embedded-opentype),…

企业简约网站模板

这个模板使用许多场景,比如团队公益网站、公司网站等等,网站风格简洁大方,高端上档次,许多地方改一改就好了,不会改的私信我。 这是整个模板的文件,可以去我的资源下载—>>>企业网站通用模板 首…