【译】我从世界最繁忙的赌博网站学到的网站可靠性经验 - 1

news/2024/4/28 10:08:26/文章来源:https://blog.csdn.net/weixin_33875564/article/details/89053779

原文:
Things I Learned Managing Site Reliability for Some of the World’s Busiest Gambling Sites

https://zwischenzugs.wordpres...

多年来我为许多世界最繁忙的赌博网站管理三线站点的可靠性运维,为一个小有名气的公司构建和运行许多业务的核心后端在线软件,每个业务的峰值都有千万英镑每小时。几年前我就离职了,所以现在是一个回顾我在其中学到了什么的好时机。

在许多方面,我们做的跟现在叫SRE的很详细)(我会叫我们SRE人,但在那时没有这个叫法)。我们接电话,需要处理故障,对重构提出意见,为开发者和客户团队提供高可用建议,处理扩容和紧急情况,运行监控系统等等。

我加入时的团队有5个工程师(都是前开发者和技术lead),后来我离开时发展到约50人,在许多地点都有人。

我会重点关注流程与文档,尽管我不认为他们说的足够有用但我当时确实读了他们。

如果你想更详细的了解Google SRE (https://landing.google.com/sr...) 书籍有很不错的内容。

流程

流程是操作和扩展SRE操作的核心。它是我们归档的核心内容。当我加入团队时,习惯不咋样 - 有一个工单系统,但日志处理方式很不常见(‘站点挂了。修复,关闭’)。

一个SRE操作基本跟工厂流水线一样,并需要依照标准执行。你不会有一个计划外的工厂流程来处理货物的移动,同理在一个知识敏感的SRE操作上你不可能没有一个流程来处理知识的流动。

我听过对流程一个最常见的反对意见是‘它扼杀了创造力’。实际上,有效的流程(烂流程和差的实现能把这一切搞糟!)能清理你的脑子并让创造性思维出现。

这个领域有本很不错的书‘The Checklist Manifesto’ (http://atulgawande.com/book/t... ),鼓励我们做的很多变动,并在我们组里被广泛阅读。 它列举了航空工业的流程处理方式, 通过日常操作的心理自动化,激发了在高压情况下不可思议的创造性。甚至有一部电影(萨利机长)讲述了事故中飞行员(http://www.airspacemag.com/as... )在如此高压的情况下进行创造性的快速思考和控制。事实上,我们自己使用了一套类似的流程:在紧急状况下,一个有经验的工程师努力找解决方案,一个相对初级的工程师则跟进checklist清单。

另一个对流程的非议是它会影响有效的工作和协作。如果把它当作一个自身存在的实体而不是一个生物实体,那倒有可能。我唯一可以捍卫它的就是文化。稍后再说。

流程 - 工具

第一个把事情作对的方式就是工单系统。与监控方案一样,人们痴迷于哪个工单系统是最好的。那就错了。对于工单系统人们会最终会因为简单而选择熟悉的。工单系统只有在驱动或鼓励使用坏流程是才是不好的。什么是坏流程取决于你的业务上的限制。

还有一个重要的点是你需要一个可靠的工单系统来支持你的流程而不是被其他方式绕过。

举个例子。在我任职期间我们从RT迁移到JIRA。 JIRA提供了很多RT没有的有点,我通常会推荐JIRA作为协作工具。我们在迁移时遇到的最大问题在于一些RT功能的缺失,这个功能对我们很重要。RT可以让我们获得工单的实时更新,这意味着在事故的协作上我们近乎在聊天和工单之间。这个记录在事后回顾过程中很重要。在RT中我们可以隐藏来自客户的条目,这个功能一样不能失去。我们已经解决了这个问题,但这些事情很重要,因为它们已经烙印在我们的流程和文化上。

在选择和切换工单系统是,仔细想想哪些操作是真正重要的,而不是看到在特性列表上的内容。真正对你重要的不是它看起来多好(认真的说,你的客户会更加重视你的品牌,而你的品牌可能是一个好的设计),而是有多么强大的报表工具。

文档

在流程之后,文档是最重要的东西,这两者密切相关。

有一本关于文档的书,但是又一次,人们关注了错的东西。要理解文档是跟其他任何资产一样的东西。像任何商业资产一样,文档:

  • 如果被好好维护,会在后面的许多时间得到投资回报

  • 需要投入精力维护(像工厂的基础结构)

  • 如果过期了,也需要花钱(跟过时库存一样)

  • 如果质量很差,或者不好用,就变成了债务,而不是资产

但这没什么争议 - 基本没有人不同意文档是有用的主意。问题是:你应该怎么做?

文档 - 目前的情况

我们现在处于一个文档对我们无用的情况中(例如开发者说:‘这里不太可能,所以一个网络分区情况没有被处理’。然后,想想发生了什么!这就是他们将要在文档上写的东西 ),或者我们简单的依赖一个以前的文档(这次我们写了一些东西)去研究下一次遇到同样的事情我们该怎么做。

这让我们很诅丧,在我们负责文档前我们花了大量时间抱怨为什么文档没来找我们。

文档 - 我做了什么

这是我做的。

  • 我花了两年时间梳理了优先级高的事故(如已经被触发过的 - 或将要被处罚的 - 超时的电话),并把它们列出来。有大约1700例。

  • 然后我把它们按类型整理。

  • 然后我过一遍每种类型的问题,整理解决需要步骤,或需要升级需要的步骤

这花费了我七个月的全职时间。我是一个高级雇员,我花着公司的钱坐在那写字。我有个好老板,我从来没有被质疑这个时间用的值不值。我被充分信任(又一次,文化!)我得说再前四个月看不到任何这个工作的成效。我记得这四个月让人困惑,我没有在做日常运维工作,这到底是不是在浪费我的时间和工资并导致一个尴尬的失败。

为什么没有放弃呢?有几个原因。这很重要,我们以前从来没这样做过,所以我需要知道这样做是对的。我明确知道需要什么,所以我知道我可以把它写出来,并在最后会对我很有用。我是一个有相关经验的作者(艺术毕业,前记者),所以我想那对我写出好东西也有帮助。

根据ITIL我们叫这些为‘故障模型’但我们也叫它‘run books’‘crib sheets’,不管怎么样,这都没关系。重要的东西是:

  • 他们很容易查找/搜索

  • 很容易确定你得到了匹配的东西

  • 他们没有副本

  • 他们值得信赖

我们用文本编写这些文档并将其放在工单系统中,一个独立的JIRA项目。

文档团队发现了这件事并尝试让我们使用一个内部wiki来做这件事。我们拒绝了,这很重要,文档系统与工单系统的整合意味着搜索和更新文档不会阻抗不匹配。并且由于是简单文本,它很快,方便更新,并很整齐。我们拒绝了损害我们正在做的事情的流程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_817664.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大型网站服务器架构

一、服务器集群改善并发问题 使用集群是网站解决高并发、海量数据问题的常用手段。当一台服务器的处理能力、存储空间不足时,不要企图去更换更强大的服务器,对大型网站而言,不管多么强大的服务器,都满足不了网站持续增长的业务需求…

修改 设置 vs.net 网站 调试 设为 起始页

很简单,右键网站项目,打开【属性(R)】,找到【web】选项卡,然后会看到右边有一个【启动操作】,设置为当前页即可。 见百度问题: http://zhidao.baidu.com/question/195134372.html?an0&si1 …

HTML的购买按钮添加,将shopify购买按钮添加到流星js网站

不知道最好的方法来连接流星js网站使用购买按钮购物。 要initializie的Shopify API - http://shopify.github.io/js-buy-sdk/ - 直接,我导入使用将shopify购买按钮添加到流星js网站meteor npm install --save shopify-buymeteor npm install --save shopify-promise…

Web网站服务(Apache)

1Apache的主要特点 1)开放源代码:这是Apache服务器的重要特性之一,也是其他特性的基础。Apache服务程序由全世界的众多开放者共同维护,并且任何人都可以自由使用,这充分体现了开源软件的精神。2) 跨平台应用…

-HTMLCSS-——模拟小企业网站主页导航栏

2019独角兽企业重金招聘Python工程师标准>>> 做出来的作业效果图(右键图片选择“在新的窗口打开图片”来查看): 素材图片: ,,,, 完成的代码: static.html为&a…

网站的静态页面生成方案 .

提升网站性能的方式有很多,例如有效的使用缓存,生成静态页面等等。今天要说的就是生成静态页面的方式。这个也是我近期一直在搞的一个问题,近期在做使用html servlet做个人网站,为什么是这2个东西呢?1、直接用servlet是为了保证网站能以最快…

给你的网站加上站内搜索---Compass入门教程

给你的网站加上站内搜索---Compass入门教程 syxChina(syxchina.cnblogs.com) Compass(基于Lucene)入门教程 1 序言 2 Compass介绍 3 单独使用Compass 4 springhibernate继承compass 4-1 jar包 4-2 配置文件 4-3 源代码 4-4 说明 4-5 测试 5 总结下吧 1 序言 这些天一直在学点新…

SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎

前两天看到了一个中国新闻网,这个网站的搜索form的action是http://search.chinanews.com/search.do 便知道是struts1的产物,现在都用struts2了,所以给自己的任务是实现Struts2 SSH分页浏览新闻、Lucene分页高亮排序搜索新闻这个两个功能。 ID…

WordPress速度 - 如何使您的WordPress网站加载速度快

WordPress速度 - 如何使您的WordPress网站加载速度快 快速加载网站对于获取和保持稳定的流量非常重要。因此,对于想要发展WP网站,增加流量和增加收入的每个人来说,WordPress的速度都是一个问题。 但是,有几个因素可能会降低WP网站…

h5打开app跳不到指定页面 uni_初学uni-app,把网站变APP

快速入门uni-app,把想看的网站变APP。下载hbuildx,这里官方提供了几种安装包,有完全版,还有beta版,还有标准版,随便下一个吧,或者直接下载标准版的,因为它最小。1.创建uni-app&#…

利用URLOS搭建自己的CDN网站加速节点真是其乐无穷

CDN可以帮助我们提交网站静态内容的访问速度,而且可以针对不同线路进行分配优化,用最适合的网络线路访问我们的网站内容。比如源站地址在东莞,机房线路是电信,远在山西太原的用户网络环境是联通的,访问源站时速度非常慢…

如何找到一个网站(链接域名)的ip地址

用ping查看域名ip地址1. winR打开cmd2. 输入ping空格域名

大数据hadoop之大型互联网电商公司网站日志分析

2019独角兽企业重金招聘Python工程师标准>>> 博主今天分享大型项目的分析demo,下面是假设某个公司的网站项目想要得到活动日、节假日的网站流量分析。此类需求使用hadoop离线平台来分析性价比百分百完美。下面博主直接上教程。。。 操作步骤:…

Java实现广告屏播放切换_使用javascript实现某网站的头部广告向上切换效果

学了javascript后,看到某网站的一个头部广告效果很不错,感觉自己也能做出来,于是经过我一下午的奋斗,哈哈,我成功了,虽然实现可能很麻烦,但没法,如果你理解我的程序,如果…

在线人数实时显示php_PHP+jquery实时显示网站在线人数的方法_PHP教程

本文实例讲述了PHPjquery实时显示网站在线人数的方法。分享给大家供大家参考。具体分析如下:在线人数最简单的就是直接利用js调用php,这样可以显示出有多少人访问了本站,如果要在用户未刷新页面的状态实时显示用户在线人数,我们可…

linux的帮助,帮助信息_Linux公社 - Linux系统门户网站

除Linux公社(LinuxIDC.com)注明之服务条款外,其它因使用Linux公社(LinuxIDC.com)及旗下网站服务而引致之任何意外、疏忽、合约毁坏、诽谤、版权或知识产权侵犯及其所造成的各种损失(包括因下载而感染电脑病毒),Linux公社(LinuxIDC.com)概不负责&#xff…

gitbook生成html静态页面,gitbook输出为静态网站

你有两种方式输出一个静态网站:本地预览时自动生成当你在自己的电脑上编辑好图书之后,你可以使用Gitbook的命令行进行本地预览:E:\gitbook\gitbook-studying>gitbook serve ./图书目录这里会启动一个端口为4000用于预览的服务器&#xff1…

网站数据过多卡顿怎么优化_怎么做网站SEO?如何做网站SEO优化?正确的网站SEO优化怎么做?...

怎么做网站SEO?不同的seo从业者有自己的seo方法和程序,也有自己的观点。在靖歌阁看来,他们认为效率是结果的终维度,其他一切都是空谈。在给定的时间内,有多少关键词被排名,有多少在第一页,有多少大的索引词…

网站php上传服务器地址,thinkphp上传服务器地址

thinkphp上传服务器地址 内容精选换一换下载地址: https://github.com/bcgsc/abyss/archive/2.2.4.tar.gz。下载地址: http://downloads.sourceforge.net/project/boost/boost/1.56.0/boost_1_56_0.tar.bz2。下载地址:https://www.bcgsc.ca为了实现通过NAT Server可…

h5页面怎么处理文件流_网站聚合页面是什么、好处及怎么做?重复页怎么处理?...

竞价QQ交流群:482183592信息流QQ交流群:340191802整合营销交流群:543613831聚合页面,很多新人不太懂,所以这篇就来带大家了解一下。1、聚合页面是什么?有哪些形式?2、聚合页面对SEO优化有什么利…