知名网站的技术发展历程

news/2024/5/15 12:11:14/文章来源:https://blog.csdn.net/weixin_30576859/article/details/99088683

互联网已经发展多年,其中不乏脱颖而出者,这些网站多数都已存在了接近10年或10年以上,在如此长时间的发展过程中,除了业务上面临的挑战,在技术上也面临了很多的挑战。我挑选了一些Alexa排名较前的网站(排名截止到2012年4月21日),看看它们在技术上是如何应对业务发展过程中的挑战的。

Google目前Alexa排名第1。它诞生于1997年,当时是一个研究性项目,每个月build一次索引,build出来的索引通过sharding(shard by doc)的方式分散到多台服务器(Index Server)上,具体的网页数据同样通过sharding的方式分散到多台服务器(Doc Server)上,当用户提交请求时,通过前端的一台服务器将请求提交给Index Server获得打了分的倒排索引,然后从Doc Server提取具体的网页信息(例如网页标题、搜索关键词匹配的片段信息等),最终展现给用户。

随着索引的网页增加,这个结构可通过增加Index Server以及Doc Server来存储索引以及网页的数据,但仍然会面临其他很多方面的问题,于是在这之后的十多年的时间里,Google做了很多事情来改进上面的结构。

1999年,Google增加了一个Cache Cluster,用来Cache查询的索引结果和文档片段信息,同时将Index Server和Doc Server通过Replicate的方式变成了Cluster。这两个改造带来的好处是网站的响应速度、可支撑的访问量以及可用性(Availability)得到了提升。这个变化造成了成本的增加,Google在硬件方面的风格始终是不用昂贵的高端硬件,而是在软件层面来保证系统的可靠性及高性能,于是同年,Google开始采用自行设计的服务器来降低成本。2000年,Google开始自行设计DataCenter,采用了各种方法(例如采用其他的制冷方法来替代空调)来优化PUE(能源利用率),同时对自行设计的服务器也做了很多化。2001年,Google对Index的格式进行了修改,将所有的Index放入内存, 这次改造带来的好处是网站的响应速度以及可支撑的访问量得到了极大的提升。2003年,Google发表了文章Google Cluster Architecture,其Cluster结构组成为硬件LB+Index Cluster+Doc Cluster+大量廉价服务器(例如IDE硬盘、性价比高的CPU等),通过并行处理+sharding来保证在降低对硬件要求的同时,响应速度仍然很快。同年Google发表了关于Google文件系统的论文(GFS在2000年就已经上线),这篇论文很大程度也体现了Google不用昂贵硬件的风格,通过GFS+大量廉价的服务器即可存储大量的数据。2004年,Google再次对Index的格式进行了修改,使得网站的响应速度继续提升。同年Google发表关于MapReduce的论文,通过MapReduce+大量廉价的服务器即可快速完成以前要使用昂贵小型机、中型机甚至是大型机才能完成的计算任务,而这显然对于Google快速地构建索引提供了很大的帮助。2006年,Google发表了关于BigTable的论文(2003年开始上线),使得海量数据的分析能够达到在线系统的要求了,这对于Google提升网站的响应速度起到了很大的帮助。

以上3篇论文彻底改变了业界对于海量数据的存储、分析和检索的方法(小道消息:Google内部已完成了GFS、MapReduce、BigTable的替换),也奠定了Google在业界的技术领导地位。

在一些场景中,Google也采用MySQL来存储数据。同样,Google对MySQL也做了很多修改,它使用的MySQL信息可以从https://code.google.com/p/google-mysql/了解。

2007年,Google将build索引的时间缩短到分钟级,当新网页出现后,几分钟后即可在Google搜索到,同时将Index Cluster通过Protocol Buffers对外提供Service,以供Google各种搜索(例如网页、图片、新闻、书籍等)使用,除了Index Cluster提供的Service外,还有很多其他的Service,例如广告、词法检查等。Google的一次搜索大概需要调用内部50个以上的Service,Service主要用C++或Java来编写。2009年,Google的一篇《How Google uses Linux》文章,揭示了Google在提升机器利用率方面也做了很多的努力,例如将不同资源消耗类型的应用部署在同一台机器上。

在之后,Google又研发了Colossus(下一代类GFS文件系统)、Spanner(下一代类BigTable海量存储和计算架构)、实时搜索(基于Colossus实现),主要都是为了提升搜索的实时性以及存储更多数据。除了在海量数据相关技术上的革新外,Google也不断对业界的传统技术进行创新,例如提高TCP的初始拥塞窗口值、改进HTTP的SPDY协议、新的图片格式WebP等。

在Google的发展过程中,其技术的改造主要围绕在可伸缩性、性能、成本和可用性4个方面,Google不采用昂贵硬件的风格以及领先其他网站的数据量决定了其技术改造基本都是对传统的软硬件技术的革新。

Facebook目前Alexa排名第2。它采用LAMP构建,随着业务的发展,它也在技术上做了很多改造。

作为改造的第一步,Facebook首先在LAMP结构中增加了Memcached,用来缓存各种数据,从而大幅度提升系统的响应时间以及可支撑的访问量,之后又增加了Services层,将News Feed、Search等较通用的功能作为Service提供给前端的PHP系统使用,前端的系统通过Thrift访问这些Service。Facebook采用了多种语言来编写各种不同的Service,主要是针对不同的场景选择合适的语言,例如C++、Java、Erlang。

大量使用Memcached以及访问量的不断上涨,导致访问Memcached的网络流量太大,交换机无法支撑,Facebook通过改造采用UDP的方式来访问Memcached,以降低单连接上的网络流量。除此之外,还有其他一些改造,具体信息可以查看http://on.fb.me/8R0C。

PHP作为脚本语言,优势是开发简单、易上手,劣势是需要消耗较多的CPU和内存。当Facebook的访问量增长到了一定规模后,这个劣势就比较突出了,于是从2007年起,Facebook就尝试多种方法来解决这个问题,最后诞生于Facebook Hackathon的HipHop产品成功地脱颖而出。HipHop可以自动将PHP转化为C++代码,Facebook在使用HipHop后,同等配置的机器,可支撑的请求量是之前的6倍,CPU的使用率平均下降了50%,从而为Facebook节省了大量主机。将来Facebook还会对HipHop进行再次改进,通过HipHop将PHP编译为bytecode,放入HipHop VM中执行,再由HipHop VM来编译为机器代码,方式与JIT类似。

2009年,Facebook研发了BigPipe,借助此系统,Facebook成功让网站的速度提升了两倍。随着Facebook访问量的上涨,收集众多服务器上的执行日志也开始面临挑战,于是Facebook研发了Scribe来解决此问题。对于存储在MySQL中的数据,Facebook采用垂直拆分库和水平拆分表的方式来支撑不断增长的数据量。作为Facebook技术体系中重要的一环,Facebook也对MySQL进行了很多优化和改进,例如Online Schema Change等,更多信息可见http://www.facebook.com/MySQLAtFacebook。

发展之初的Facebook采用了高端的存储设备(例如NetApp、Akamai)来存图片,随着图片不断增加,成本也大幅提高,于是2009年Facebook开发了Haystack来存储图片。Haystack可采用廉价的PC Server进行存储,大幅度降低了成本。

Facebook除了使用MySQL存储数据外,近几年也开始摸索采用新的方式。在2008年Facebook开发了Cassandra,在Message Inbox Search中作为新的存储方式。不过在2010年,Facebook又放弃了Cassandra,转为采用HBase作为其Messages的存储,并在2011年将HBase应用在了Facebook更多的项目上(例如Puma、ODS)。据说,现在Facebook更是在尝试将其用户以及关系数据从MySQL迁移到HBase。

从2009年开始,Facebook尝试自行设计DataCenter以及服务器,以降低其运行成本,并对外开放了其构建的PUE仅1.07的DataCenter的相关技术。Facebook在技术方面的基本原则是:“在能用开源产品的情况下就用开源,根据情况对其进行优化并反馈给社区”。从Facebook的技术发展历程上可以看到这个原则贯彻始终,Facebook的技术改造也主要是围绕在可伸缩、性能、成本和可用性4个方面。

Twitter目前Alexa排名第8。在2006年诞生之时是采用Ruby On Rails+ MySQL构建的,2007年增加了Memcached作为Cache层,以提升响应速度。基于Ruby on Rails让Twitter享受到了快速的开发能力,但随着访问量的增长,其对CPU和内存的消耗也让Twitter痛苦不堪,于是Twitter做了不少改造和努力,例如编写了一个优化版的Ruby GC。

2008年Twitter决定逐步往Java迁移,选择了Scala作为主力的开发语言(理由是“难以向一屋子的Ruby程序员推销Java”),采用Thrift作为其主要的通信框架,开发了Finagle作为其Service Framework,可将后端各种功能暴露为Service提供给前端系统使用,使得前端系统无需关心各种不同的通信协议(例如对于使用者可以用同样的调用服务的方式去访问Memcache、Redis、Thrift服务端),开发了Kestrel作为其消息中间件(替代之前用Ruby写的Starling)。

Twitter的数据存储一直采用MySQL,发展过程中出现的小插曲是,当Facebook开源了Cassandra时,Twitter本计划使用,但最终还是放弃,仍然保持了使用MySQL,Twitter的MySQL版本已开源(https://github.com/twitter/mysql)。Twitter也是采用分库分表的方式来支撑大数据量,使用Memcached来Cache tweet,timeline的信息则迁移为用Redis来Cache。

2010年,Twitter在盐湖城拥有了第一个自建的DataCenter,主要是为了增加可控性。从Twitter的发展过程看,6年来它的技术改造主要围绕可伸缩以及可用性。

作为一家电子商务网站的员工,请允许我在此介绍这个Alexa排名21的著名电子商务网站的技术演变。

1995年,eBay诞生,当时采用CGI编写,数据库采用的是GDBM,最多只能支撑5万件在线商品。1997年,eBay将操作系统从FreeBSD迁移到Windows NT,另外将数据库从GDBM迁移为Oracle。1999年,eBay将前端系统改造为Cluster(之前只有一台主机),采用Resonate作为负载均衡,后端的Oracle机器升级为Sun E1000小型机,同年给数据库增加了一台机器作为备库,提升可用性。前端机器随着访问量不断增加还可以应付,但数据库机器在1999年11月时已经达到了瓶颈(已经不能再加CPU和内存了),于是在11月开始将数据库按业务拆分为多个库。2001-2002年,eBay将数据表进行了水平拆分,例如按类目存储商品,同时部署Oracle的小型机换为Sun A3500。2002年,将整个网站迁移为用Java构建,在这个阶段,做了DAL框架来屏蔽数据库分库分表带来的影响,同时还设计了一个开发框架以供开发人员更好地上手进行功能开发。从eBay的整个发展过程来看,技术改造主要围绕在可伸缩性和可用性两点。

腾讯目前Alexa排名第9。最初QQ IM采用的是单台接入服务器来处理用户的登录和状态保持,但在发展到一百万用户同时在线时,这台服务器已经无法支撑。于是QQ IM将所有单台服务器改造为了集群,并增加了状态同步服务器,由其完成集群内状态的同步,用户的信息存储在MySQL中,做了分库分表,好友关系存储在自行实现的文件存储中。为了提升进程间通信的效率,腾讯自行实现了用户态IPC。之后腾讯将状态同步服务器也改造为同步集群,以支撑越来越多的在线用户。在经历了前面几次改造后,已基本能支撑千万级别的用户同时在线,但可用性比较差,于是腾讯对QQ IM再次进行改造,实现了同城跨IDC的容灾,加强了监控和运维系统的建设。此后腾讯决定对QQ IM架构完全重写(大概是2009年持续到现在),主要是为了增强灵活性、支持跨城市的IDC、支撑千万级的好友。在这次大的技术改造过程中,腾讯的数据都不再存储于MySQL中,而是全部存储在了自己设计的系统里。

从QQ  IM的技术演变来看,其技术改造主要是围绕在可伸缩性和可用性上。

2003年,淘宝诞生,直接购买了一个商业的phpAuction的软件,在此基础上改造产生了淘宝。2004年,将系统由PHP迁移到Java,MySQL迁移为Oracle(小型机、高端存储设备),应用服务器采用了WebLogic。2005-2007年的发展过程中,用JBoss替代了WebLogic,对数据库进行了分库,基于BDB做了分布式缓存,自行开发了分布式文件系统TFS以支持小文件的存储,并建设了自己的CDN。2007-2009年对应用系统进行垂直拆分,拆分后的系统都以Service的方式对外提供功能,对数据采用了垂直和水平拆分。

在进行了数据的垂直和水平拆分后,Oracle产生的成本越来越高,于是在之后的几年,淘宝又开始将数据逐渐从Oracle迁移到MySQL,同时开始尝试新型的数据存储方案,例如采用HBase来支撑历史交易订单的存储和检索等。近几年淘宝开始进行Linux内核、JVM、Nginx等软件的修改定制工作,同时也自行设计了低能耗服务器,同时在软硬件上进行优化,以更好地降低成本。

从淘宝的整个发展过程来看,技术改造主要围绕在可伸缩性和可用性两点,现在也开始逐渐将精力投入在了性能和成本上。目前淘宝的Alexa排名为第14。

总结

从上面这些Alexa排名靠前网站的技术发展过程来看,每家网站由于其所承担的业务不同、团队人员组成不同、做事风格相异,在技术的不同发展阶段中会采用不同的方法来支撑业务的发展,但基本都会围绕在可伸缩性、可用性、性能以及成本这4点上,在发展到比较大规模后,各网站在技术结构上有了很多的相似点,并且这些结构还将继续进行演变。

转载于:https://www.cnblogs.com/rasion/archive/2012/05/27/2519999.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_724177.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

eyoucms 分享一下网站内容建设技巧有哪些

网站制作中有句话“内容为王”。由此可以得出网站的内容对网站的制作是多么重要,网站内容是网站的核心,也是网站进行SEO优化的重点。所以,不管是网站的制作还是网站的SEO优化,网站内容都要做好,并且要更新一些有特色的…

从搞网站蹭灰产,终于又回到了自媒体

写下这篇文章,也借此回忆了这些年经历网络创业艰辛的岁月、时光,建过网站,接触过灰产,后来还是走上了自媒体厮杀一片红海中,自由网络创业的路艰难而又漫长,其中也有几点心得与君共享。曾经记得高中语文老师…

如何做好大数据时代的SEO?

榜首步:淘取SEO中心关键词SEO中心关键词是指能给网站带来80%流量的关键词。一个企业的中心关键词要达到50-100个之间。怎样去选择呢?办法许多,比方经过联想办法,或者是下拉办法,还有经过百度指数的办法等。还有一个最直…

jsp网站ico图标设置

版权声明&#xff1a;转载请注明作者及出处&#xff0c;否则将追究法律责任。 https://blog.csdn.net/q2158798/article/details/83350974 学习记录&#xff1a;小技巧 web项目中设置ico图标 ico图标放在webapp下 在jsp页面中引入(ps:每个jsp都要引入) <!-- 网站图标 -->…

美国物理学会Physics网站公布“年度亮点”工作,AlphaFold和潘建伟团队成果等入选

凭借詹姆斯韦伯太空望远镜拍摄的令人惊叹的图像、激光聚变的突破、升级后的大型强子对撞机的启动以及小行星防御系统的首次测试&#xff0c;2022 年提供了大量的宏伟成果。 在生物、量子和凝聚态物理学方面也有重要的小规模努力&#xff0c;以及在多样性、公平性和包容性方面的…

基于LAMP平台的网站架构(或Web系统架构)

1.网站架构的前提&#xff08;或者说需求&#xff09; 我们公司是一电子商务的网站&#xff0c;因为线下家具建材项目的推广需求&#xff0c;从而有了我们公司的这个线上网站&#xff0c;在这里我贴一张公司的网站架构图。 总体来说网站规模不是太大&#xff0c;注册人数在150万…

ASP.NET网站部署

1、安装WebDeploymentSetup_2008插件。 2、安装完成后&#xff0c;右键需要发布的网站&#xff0c;点击”Add Web Deploymenet project ”选项&#xff0c;如图1.1.1 图1.1.1 3、 点击该选项并输入发布生成文件目录地址&#xff0c;确定后&#xff0c;项目中会出现如图1.1.2项…

电商实例、业务并发、网站并发及解决办法

电商实例、业务并发、网站并发及解决方法 一、怎么防止多用户同一时间抢购同一商品&#xff0c;防止高并发同时下单同一商品 最近在做抢购系统&#xff0c;但头疼的是&#xff0c;在多用户高并发的情况下经常会库存出现问题。排查到&#xff0c;在同一时间内多用户同时下单导致…

整理了一周的Python资料,包含各阶段所需网站、项目,收藏了慢慢来

这周应该有不少学校已经开学了&#xff0c;那么同学们都该动起来了&#xff0c;把家里面的那些懒习惯给扔掉了可以。 不知怎么的&#xff0c;最近不少关注我的读者都开始私信我怎么学好python&#xff1f;零基础转行是不是合适&#xff0c;还有希望吗&#xff1f;今年30了&…

推荐一个下载源码的网站

我想下载javax.validation:validation-api的源码&#xff0c;但是从搜索引擎里搜了半天也没有找到下载地址。 后来我找到了一个网站&#xff0c;可以搜索、可以下载jar包、也可以下载源码包&#xff0c;就非常棒。就这个&#xff1a;Maven中央搜索库 搜索javax-validation&am…

url模糊匹配优化_网站优化需要掌握的方法和技巧

一个网站建设好之后如果不进行优化那么这个网站想要发展起来是非常困难的&#xff0c;但是网站优化又不是一件简单的事情&#xff0c;其中需要掌握的方法以及技巧还是挺多的&#xff0c;那么今天就来为大家介绍一下网站优化需要掌握的方法和技巧吧!一、网站的结构1.一个网站在优…

Struts2结合sitemesh3制作网站母版页面

上一篇文章介绍了sitemesh3的使用&#xff0c;这篇文章来介绍如何结合struts2来配置和使用sitemesh&#xff0c;具体的如何使用sitemesh3我就不讲解了&#xff0c;这个你们可以看看我的上一篇博客。 首先你要添加struts和sitemesh相关的jar包&#xff1a; 添加完毕后&#xff0…

windows server2008 iis 7部署及网站部署完整步骤

windows server2008 iis 7部署及网站部署完整步骤windows2008下的iis7安装部署&#xff0c;web 网站的配置&#xff0c;不是很熟练&#xff0c;每次都得google。下面整理一个完整步骤&#xff0c;以备使用1&#xff09; iis7安装&#xff1a;默认系统装完之后&#xff0c;是不会…

NodeJs Express MySQL 搭建电影网站:第一期(搭建Express项目、路由构建、jade 页面构建和模拟数据)

效果展示&#xff1a; 首页&#xff1a; 详情页面: 后台&#xff1a;电影添加页面 后台&#xff1a;电影列表 第一步&#xff1a;创建movie 应用 express movie 第二步&#xff1a;movie应用依赖第三方模块&#xff08;MySQL body-parser&#xff09; cnpm install mysql …

NodeJs Express MySQL 搭建电影网站:第二期(MySQL 数据增删改查操作)

第一步&#xff1a;编辑相关页面路由信息&#xff0c;使用MySQL填充数据 编辑movie/routes/index.js 文件 var express require(express); var router express.Router();var dbrequire(./../db.js); // 引入自定义DB 模块 var bodyParserrequire("body-parser");…

查看论坛隐藏链接_【外链建设】测试了1500个hao123推荐的网站,只为挖掘发能外链的DZ论坛...

点击上面“蓝字”关注&#xff01;虽然已经过了外链为皇的时代&#xff0c;但外链在新站建设、重点关键词排名等工作场景中依然占据着很重要的位置。因为我工作后&#xff0c;大部分的时间在做品牌SEO&#xff0c;没有积攒什么外链资源&#xff1b;这次要梳理SEO技术&#xff0…

iis服务器网站启动不了,IIS上打不开asp网站怎么办

导读&#xff1a;最近很多朋友都遇到iis上打不开asp的站点这种问题&#xff0c;然后来问我们为什么IIS不支持asp&#xff0c;其实这种问法是错误的&#xff0c;windows系统和asp同属于微软软件系列&#xff0c;都是微软开发&#xff0c;所以互相之间的支持和兼容就无需置疑了&a…

(比较 tika 和正则 ,我更喜欢jsoup ) jsoup 抓取 iteye 网站

jsoup 效果 qq新闻 内容抓取 正则表达 &#xff08;正则&#xff09; http://knight-black-bob.iteye.com/blog/2312411 比较 tika 和正则 &#xff0c;我更喜欢jsoup 正则 比较难写 &#xff0c;&#xff0c; &#xff0c;&#xff0c;&#xff0c;&#xff0c; 下面有jar …

(转贴)图解使用VS.NET部署含水晶报表的网站

Crystal Report &#xff0c;中文名称“水晶报表”&#xff0c;因为做报表的功能强大&#xff0c;所以被 Visual Studio.Net 整合进来了。其中 Visual Studio.Net 2002 中的Crystal Decisions 版本为 1.0 &#xff1b;Visual Studio.Net 2002 中的Crystal Decisions 版本为 1.1…

使用Ajax技术编写了一个网站

因为工作的原因&#xff0c;有一段时间没有更新博客了&#xff0c;感到非常惭愧&#xff0c;因为提供的博客空间是免费的&#xff0c;而且还有免费的二级域名&#xff0c;应该好好加以利用。 现在网络已进入了web2.0的时代&#xff0c;AJAX技术也十分流行&#xff0c;在这样一种…