大型网站后台架构的Web Server与缓存 (转)

news/2024/5/11 14:30:59/文章来源:https://blog.csdn.net/guo_yang/article/details/82191736
1.1 Web server

  Web server 用来解析HTTP协议。当web服务器接收到一个HTTP请求时,会返回一个HTTP响应,例如送回一个HTML页面。为了处理一个请求,web服务器可以响应一个静态页面或者图片。进行页面跳转,或者把动态响应的产生委托给一些其它的程序完成,比如CGI, JSP, Servlets, ASP.NET,PHP脚本。

  当用户访问一个网站时,首先用户通过查询DNS服务器,得到该域名对应的IP地址,然后使用这个IP地址来进行访问。用户的请求是一个url地址,在web服务器端,url地址对应web服务器上的文件系统中的某个网站文件的路径。Web server的作用就是解析HTTP协议,通过用户发来请求的url地址从web服务器的文件系统中找到用户需要的HTML页面、静态文件,然后返回给用户。如果用户访问的是动态页面,则将请求转发到应用服务器来执行。

  1.1.1 FastCGI

  1.1.1.1 CGI

  CGI(Common Gateway Interface) ,指运行在服务器上,提供同客户端HTML页面的接口。多数CGI程序被用来解释处理来自表单的输入信息,并在服务器产生相应的处理,或将相应的信息反馈给浏览器。

  1.1.1.2 FastCGI

  FastCGI是语言无关的、可伸缩架构的CGI开放扩展,其主要行为是将CGI解释器进程保持在内存中并因此获得较高的性能。而CGI解释器的反复加载是CGI性能低下的主要原因。如果CGI解释器保持在内存中并接受FastCGI进程管理器的调度,则可以提供良好的性能、伸缩性能和 Fail-over特性等。

  FastCGI的工作原理如下:

  (1) FastCGI进程管理器自身初始化,启动多个CGI解释器进程(多php-cgi进程)并等待来自web server的连接。启动php-cgi FastCGI进程时,可以配置以TCP和UNIX套接字两种方式启动。

  (2) 当客户端请求到达web服务器时,web服务器将请求采用TCP协议或者UNIX套接字方式转发到FastCGI主进程,FastCGI主进程选择并连接到一个CGI解释器(子进程)。Web服务器将CGI环境变量和标准输入法发送到FastCGI子进程php-cgi。

  (3) FastCGI子进程完成处理后,将标准输出和错误信息从同一连接返回web服务器。当FastCGI子进程关闭连接时,请求便告知处理完成。FastCGI子进程接着等待并处理来自FastCGI进程管理器的下一个连接。

  FastCGI的优点如下:

  (1) 稳定性。FastCGI是以独立的进程池运行CGI,单独一个进程死掉,系统可以轻松的丢弃,然后重新分配新的进程。

  (2) 安全性。FastCGI和宿主Server完全独立,FastCGI如果down了,不会影响到Server的性能。

  (3) 高性能。FastCGI和宿主Server分开,大负荷的IO处理留给web server进行,比如大量图片、CSS等静态文件的IO操作,完全由web server处理完成。[2]

  1.1.1.3 Lighttpd服务器

  Lighttpd是一个具有非常低的内存开销,CPU占用率低,性能好的轻量级Web Server。支持FastCGI, CGI, 输出压缩,URL重写,Alias等重要功能。

  Lighttpd使用FastCGI方式运行php。

  1.1.1.4 Apache服务器

  Apache是世界上使用最多的web服务器,市场占有率50%以上。Apache支持SSL技术,支持多个虚拟主机。Apache是以进程为基础结构,进程相对线程消耗更多系统资源。相对Lighttpd和Nginx,Apache是一款重量级的web服务器。总体来讲,Apache web 服务器具有以下特性:

  (1) 支持HTTP1.1通信协议。

  (2) 支持通用网关接口。

  (3) 支持基于ip、域名、端口的虚拟主机。

  (4) 支持服务器端包含指令(ssl)。

  (5) 支持FastCGI。

  (6) 支持url重写。

  1.1.1.5 Nginx服务器

  Nginx是俄罗斯人Igor Sysoev编写的一款高性能HTTP和反向代理服务器。Nginx能够选择高效的epoll(Linux 2.6内核)、kqueue(FreeBSD)、eventport(Solaris 10)作为网络I/O模型,在高连接并发的情况下,Nginx是Apache服务器很好的替代者,因为在同样并发连接的情况下,Nginx相对 Apache占用更少的系统资源。[3]

  1.1.1.6 Lighttpd、Apache、Nginx比较

  Lighttpd是一个单进程模型的web server,内存使用量很小。Nginx在内存分配方面,表现良好。它使用多线程来处理请求,这使得多个线程之间可以共享内存资源,从而使它的内存使用量大大减少。此外,Nginx使用分阶段的内存分配策略,按需分配,及时释放,所以总体占用内存很小。可以支持较大的并发连接数。Apache在运行时使用较大的内存,Apache是多进程模型。Apache使用基于内存池策略的内存管理方法,这种方法使得Apache在运行开始时便一次性申请大片内存作为内存池,这样在随后需要的时候只在内存池中直接获取,不需要再分配。显然,Apache很占用内存。根据国内金山技术经理、系统架构师张宴给出的统计信息,2009年的web server使用情况如表4-1-1-5所示。

  表4-1-1-5 各种web server市场占有率排名

Web server

2008.12使用数

占有率

2009.01使用数

占有率

占有率变化

Apache

95678052

51.24%

96947298

52.26%

+1.02%

IIS

63126940

33.81%

61038371

32.91%

-0.90%

Google

10455103

5.60%

9868819

5.32%

-0.28

Nginx

3354329

1.80%

3462551

1.87%

+0.07%

Lighttpd

3046333

1.63%

2989416

1.61%

-0.02%

  1.2 缓存

  在计算机系统中,缓存有很多种。比如CPU内部的一级缓存、二级缓存。文件系统的缓存,磁盘的缓存。在大型网站的后台部署过程中,也灵活运用了各级缓存。主要有客户端的浏览器缓存,服务器端的web server自身缓存,代理缓存,分布式缓存,数据库自身的缓存等。本节主要分析一下代理缓存和分布式缓存。

  1.2.1 代理缓存

  在网站后台架构中,代理缓存主要部署在web server之上,当用户对网站后台发起连接请求时,用户请求先到代理缓存中去查找,如果命中,则将请求返回给用户,如果没有命中,则代理缓存将请求发到 web server,然后web sever将请求复制一份到代理缓存中,同时把请求返回给客户。

  常用的代理缓存有varnish和squid。如图4-2-1所示。

大型网站后台架构的Web Server与缓存

图4-2-1 代理缓存(黄色部分)

  1.2.1.1 Squid

  Squid是一个高性能的代理缓存服务器,可以用来加快浏览网页的速度,提高客户机的访问命中率。Squid不仅支持HTTP协议,还支持FTP、SSL、WAIS等协议。Squid用一个单独的、非模块化的、I/O驱动的进程来处理所有的客户端请求。

  Squid的原理如下:

  (1) 每一台Squid代理服务器上存有若干个颗磁盘。每颗磁盘又分割成多个分区,每一个分区又可建立很多目录,目录下存放着具体的文件(object)。

  (2) Squid通过查询表的方式来定位某个资源的位置。所查询的表有两种,一种是Hash table,一种是Digest table。Hash table记录着所有Digest table表信息,所以Hash table可以称之为目录或者提纲。而Digest table记录了磁盘上每个分区、每个目录里存放的缓存摘要,所以Digest table可以称之为摘要或者索引。所以,Squid接到请求后先查询Hashtable,根据Hash table所指向的Digest table,再查询所需要的文件。

  (3) Squid服务器存在两种工作关系,一种为Child-Parent,当Child Squid Server没有用户需要的数据时,就向Parent squid Server发送请求,并持续等待,直到Parent Squid Server回应为止;另一种为Sibling,当本地Squid Server没有用户请求的数据时,会向Sibling Server发送请求,如果Sibling Server没有资料则会向上级Sibling或者Internet发送数据请求。

  所以,综上所述,Squid运行模式如下:

  当Squid Server没有资料时,先向Sibling的Squid Server查询数据,如果Sibling没有,则跳过它直接向Parent查询,直到Parent提供资料为止(如果Parent没有资料,则到后端的 web server上获取,当获取到数据后返回给用户的同时,保留一份在自身的缓存中)。如果不存在Parent,则Squid Server自身到后端的web server上获取数据,当获取到数据后返回给用户的同时,保留一份在自身的缓存中。如果还是不能得到数据,则向用户端回复不能得到数据。

  1.2.1.2 Varnish

  Varnish是一款高性能的开源HTTP加速器,挪威最大的在线报纸Verdens Gang使用3台Varnish代替了原来的12台Squid,性能比以前更好。

  Varnish的作者Poul-Henning Kamp是FreeBSD内核开发者之一,他认为现在的计算机比起1975年已经复杂很多。在1975年时,存储媒介只有两种:内存与硬盘。但现在计算机系统的内存除了主存外,还包括了CPU内的L1\L2\L3等cache。因此Squid Cache自行处理物件替换的架构不可能得知这些情况而做到最佳化,但操作系统可以。所以这部分的工作应该交给操作系统处理,这就是Varnish cache设计架构[4]。Varnish将所有的HTTP object存于一个单独的大文件中,该文件在工作进程初始化的时候,将其整个映射到内存中。这样Varnish在该块内存中实现一个简单的文件系统,具有分配、释放、修剪、合并内存等功能。

  Varnish文件缓存的工作流程:

  Varnish与一般服务器软件类似,分为master进程和child进程。其中master进程负责管理,child进程负责cache工作。Master进程读入命令,进行一些初始化,然后fork并监控child进程。Child进程分配若干线程进行工作,主要包括管理线程和 worker线程。如图4-2-1-2所示。

大型网站后台架构的Web Server与缓存
图4-2-1-2

  主进程fork子进程,主进程等待子进程的信号,子进程退出后,主进程重新启动子进程,子进程生成若干线程:

  (1) Accept线程:接受请求,将请求挂在overflow队列上。

  (2) Work线程:有多个,负责从overflow队列上摘除请求,对请求进行处理,直到完成,然后处理下一个请求。

  (3) Epoll线程:一个请求处理称为一个session,在session周期内,处理完请求后,会交给Epoll处理,监听是否还在事件发生。

  (4) Expire线程:对于缓存的object,根据过期时间,组织成二叉堆,该线程周期检查该堆得根,处理过期的文件。对过期的数据进行删除或重取操作。

  Varnish分配缓存机制:

  根据所读到的object大小,创建相应大小的缓存文件。为了读写方便,程序将每个object的大小,转变为最接近其大小的内存页面倍数。然后从现有的空闲存储结构体中查找,找到最合适的大小的空闲存储块,分配给它。如果空闲块没有用完,则把多余的内存再组成一个空闲存储块,挂接到管理结构体上。如果缓存已满,则根据LRU算法,把旧的object释放掉。

  Varnish释放缓存机制:

  Expire线程负责检测缓存中所有object的生存期(TTL)。如果超过了设定的TTL,该object没有被访问,则删除该object,并释放内存。释放的过程会考虑内存的合并等操作。

  1.2.2 分布式缓存

  1.2.2.1 Memcached

  Memcached是以LiveJournal旗下Danga Interactive公司的Brad Fitzpatric为首开发的一款软件。现在Memcached已成为mixi、hatena、Facebook等公司提高web应用扩展性的重要缓存软件。许多web应用都将数据保存到RDBMS中,应用服务器从中读取数据并返回给用户。但随着数据量的增大,访问的集中性,读写比例的增大,会使 RDBMS增加其系统开销,相应速度下降,网络延迟增大。Memcached通过缓存数据库查询结果,减少数据库读的访问次数,提高动态网站的响应速度。此外,电子商务网站的客户端cookie和服务器端session机制也可以利用Memcached解决,比如典型的购物车跟踪记录访问行为、购买问题等。也可以将其信息记录在后端的Memcached中。典型的应用如图4-2-2-1-1所示。

大型网站后台架构的Web Server与缓存
图 4-2-2-1-1

  如图所示,当用户第一次访问数据库时,应用服务器从数据库中查询数据返回给用户,并且在memcached中存储一份数据。当第二次,应用服务器需要从数据库中查询数据时,首先从memcached查询数据,如果有则得到数据,返回给用户,如果没有,则再从数据库中查找数据。返回给用户,并拷贝一份数据到memcached中。

  Memcached默认情况下采用名为Slab Allocator的机制分配、管理内存。Slab Allocator的基本原理是按照预先规定的大小,将分配的内存分割成特定长度的块,以完全解决内存碎片问题。

  Slab Allocator原理,将分配的内存分割成各种尺寸的块(chunk),并将尺寸相同的块分成组(chunk的集合)。如图4-2-2-1-2所示。

大型网站后台架构的Web Server与缓存
图 4-2-2-1-2

  如图所示,memcached根据收到的数据的大小,选择最适合数据大小的slab。Memcached中保存着slab内空闲chunk的列表,根据该列表选择chunk,然后将数据缓存在其中。如图4-2-2-1-3所示。

大型网站后台架构的Web Server与缓存
图4-2-2-1-3

  同squid、varnish一样,memcached同样使用LRU机制来分配内存,删除最近最少未使用的数据。

  1.3 本文小结

  本章主要分析了FastCGI的运行机制,简单介绍了三种常用的web server —— Lighttpd、Apache、Nginx,对三款常用web server进行了对比。然后又分别介绍了代理缓存Squid和Varnish。最后简单分析了分布式缓存Memcached。总体而言,这些缓存的应用可以极大加快网站的访问速度。提升用户体验。缓存的应用,在高可用的大型网站中,处处可见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_880085.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java批量检测网站链接是否正常,并生成检测日志文档

Java批量检测网站链接是否正常,并生成检测日志文档 1.Java代码块 (生成检测日志文档文档为md格式,最好下载typora或markdown进行查看,也可根据自己所需改成txt文档) 文件名:ceshi.java import java.io.B…

加上快捷键,让你的网站酷起来

伟大的程序员都懒。 这话是我从《PHP 与 MySQL 程序设计》中看来的,来自于 Larry Wall 的一句话: Most of you are familiar with the virtues of a programmer. There are three, of course: laziness, impatience, and hubris. 懒的程序员的特征是&…

使用GitLab Pages托管静态网站

文章目录 前言一、GitLab Pages是什么?二、使用步骤1.开通账号,创建Git仓库同步项目2.添加.gitlab-ci.yml文件,开启GitLab Pages3.部署成功之后访问项目 总结 前言 在我们日常的程序员养成过程中,会产生一些产物,自己…

在12306网站上如何可以选择上中下铺

众所周知,在12306官方购票时无法自己选择上中下铺的,那么如何在12306上买到上中下铺呢,相信大家都会感兴趣,这是一个利用12306的一个web代码来实现的,然后结浏览器的web调式功能,如果你是一个web美工&#…

pc网站qq互联登录授权php版

首先看下工具类 <?php /*** QQ互联pc网页授权类*/ namespace App\Lib\QQconnect;use App\Lib\Util\Curl;class QQconnect{const err [0 >成功,100000 > 缺少参数response_type或response_type非法,100001 > 缺少参数client_id,100002 > 缺少参数client…

虚拟机内的homestead环境下的网站项目让局域网内的同事访问

# 登录进虚拟机 $ vagrant ssh # 共享本地域名 $ share apitest.cn如图红框圈住的地址就可以访问了&#xff0c;6666

怎样在织梦dedecms网站上添加漂浮广告

在织梦 dedecms的网站上添加漂浮广告其实很简单&#xff0c;这篇文章主要讲的是在织梦网站首页添加漂浮广告。 我们用本地搭建的织梦默认模板演示。 1、准备一个广告图片 准备一个广告图片&#xff0c;命名为漂浮.gif &#xff0c;设置好图片大小150*150 &#xff0c;之后把图片…

dedecms教程:多款精美分页网站模板pagelist样式

使用dedecms&#xff0c;有时需要自定义分页样式。怎么办呢&#xff1f; 不急&#xff0c;20几款精美分页样式&#xff0c;总有一款你最喜欢。使用很简单&#xff1a; 步骤&#xff1a;三步即可解决 多款精美dede分页样式.zip 1、直接覆盖include/arc.listview.class页 2、把演…

dedecms教程:网站模板自定义表单制作在线订单详细解说

一步首先你要知道自定义表单的后台界面在哪里截图 第二步添加自定义表单 我选择完全公开就是说访客提交的时候他们也是可以看到我们的自定义信息的 数据表 模板根据你的模板自定义即可 我们先look下 下面就是自定义的内容了 我随便举例给大家演示下 首先返回界面 点击红圈来添加…

dedecms教程:织梦做中英文(多语言)网站详解

对于多语言网站&#xff0c;可能许多人都想进行制作&#xff0c;可又不明白其中的道理&#xff1b;因为多语言网站不仅仅只是一个网站站点&#xff0c;具有多个而且是不同语言&#xff1b;它也不是站群&#xff0c;就是一个网站的一部分&#xff01; 首先实现多语言站点提供两种…

[原创]DEDE 织梦建站,仿站(包含5套正版建站软件)

教程包括&#xff1a; 3、dedecms仿站进门教程 本教程适用于&#xff1a; 网易博客安全提醒&#xff1a;系统检测到您当前密码的安全性较低&#xff0c;为了您的账号安全&#xff0c;建议您适时修改密码 立即修改 | 封闭 5、dedecms综合学习资料汇编&#xff1b; 重要提醒&…

简单解释网站是如何进行访问的

今天学习的时候看到一个值得记录的面试题&#xff1a; 一个网站是如何进行访问的 首先输入网址域名&#xff0c;回车&#xff1a; 1.检查本机的C:\Windows\System32\drivers\etc\hosts配置文件里有没有这个网址的域名映射 如果有&#xff0c;则直接返回对应的ip地址&#xf…

Javaweb Listener监听器的简单应用:统计网站在线人数

Listener监听器实现统计网站在线人数 开发环境&#xff1a; IntelliJ IDEA 一、什么是监听器 是指专门用于对其他对象身上发生的事件或状态改变进行监听和相应处理的对象&#xff0c;当被监视的对象发生变化时&#xff0c;立即采取相应的行动。 具体参考下文&#xff1a; J…

SEOER都在为网站的“流量增长优化”而迷茫

SEO优化不得不说现在做SEO的工作是非常困难的&#xff0c;而在这个行业里从业多年的SEO经理们&#xff0c;不仅仅要扛着很大的压力、还要面对下属对自己传经授教的一些期盼&#xff0c;对外更不知道搜索引擎&#xff0c;特别是百度又要干什么来剥削你的流量了&#xff01; 但其…

构建自己的网站(一)——uWSGI+Django实现显示图片点击更新

文章目录 目的说明前提遇到的问题及解决通过ip地址端口也访问不到服务器&#xff1f;域名不可用&#xff1f;域名解析后还是不可用&#xff1f;80端口没开放&#xff1f;本地实现点击切换图片djangohtml图片显示不出来&#xff1f;django服务器实现显示图片创建django项目&…

小程序打开网站小程序

呵呵&#xff0c;昨天晚上&#xff0c;快停电了&#xff0c;打开csdn &#xff0c;打开了好多的网页&#xff0c;可是 快停电&#xff0c;关网了&#xff0c;唉 &#xff01;有好多想看的网页&#xff0c;舍不得 不看&#xff0c;于是把网址 保存到一个txt文件里面&#xff0c;…

怎么使用PHP和MySQL创建个性的网站分页

分页起着重要的作用&#xff0c;在任何Web应用程序&#xff0c;具有足够大的数据被分成页。它不仅外观整洁&#xff0c;但也提高了一个网页的加载时间。所以&#xff0c;分页是很重要的一个改进的用户界面&#xff0c;并节省服务器资源。在本教程中&#xff0c;我会告诉你一个简…

谷歌的Javascript bot可以K掉你的网站

近年来由于开发商误导的企图&#xff0c;使网络更有趣的东西&#xff0c;如JavaScript和Ajax的搜索引擎不得不拿出新的工具来访问这些技术背后隐藏的内容。虽然我敢肯定&#xff0c;在Googleplex的人都没有&#xff0c;但发展背后这些先进的爬行技术最好的意图&#xff0c;他们…

转载:50个好网站,从此上网不再虚度!

《意林》&#xff0c;短小精悍的小故事&#xff0c;每次都能打动读者的心扉&#xff01;http://www.yilin.net.cn丁香园&#xff0c;一个生物学和医学专业的挚爱。http://www.dxy.cn生物谷&#xff0c;看了名字就知道是生物类的网站。http://www.bioon.com《环球科学》杂志的官…

如何在XAMPP中设置多个网站

xampp 是一个非常方便的本地 apache php mysql 的调试环境&#xff0c;在本地安装测试 WordPress 等各种博客、论坛程序非常方便。今天我们来给大家介绍一下&#xff0c;如何使用 XAMPP 在本地进行安装多个网站。 一般情况下&#xff0c;我们只需要网站程序放到 xampp/htdoc …