当⻉借⼒阿⾥云落地云原⽣架构转型,运维降本、效率稳定性双升

news/2024/4/27 19:44:49/文章来源:https://blog.csdn.net/alisystemsoftware/article/details/130327312

作者:当贝技术团队

随着业务飞速发展,当贝的传统 IT 资产也渐显臃肿,为了避免制约发展的瓶颈,痛定思痛,技术团队果断变革:核心业务云原生化之后,运维效率、整体稳定性和研发效率均得到了全面提升。 本文主要简述当贝技术团队云原生之路的背景诉求、落地方法和收获成果。

前言

当贝成立于 2013 年 8 月,中国知名的智能大屏增值服务提供商之一,中国大屏应用软件分会会长单位,是一家横跨软件、硬件和操作系统全生态的大屏端互联网平台型公司,致力于成为亿万家庭 AIoT 的核心入口和生活娱乐中心,连续多年入选未来独角兽榜单,国家级专精特新“小巨人”企业。

在这里插入图片描述

当贝云原生架构实践历程

传统运维体系的三大痛点

随着当贝的业务规模飞速发展,背后的 IT 技术也在不断更新迭代,IT 资产规模也在高速上升,不可避免地迎来一些挑战。其中,以运维体系的挑战最为鲜明,经团队总结,有以下三个较为突出的痛点。

人工运维效率低,风险大,成本高,资产管理困难

传统运维体系下,有大量人工参与。从各环境代码发布,到高峰低谷的扩容缩容,再到各类证书、云服务器等云资产管理,这些环节,人工参与度越高,风险越大,即便运维人员有着超高水平,也很难保证长久情况下不出现任何失误或疏忽。

同时,人工参与度越高,效率也就越低,协作成本越高。为保证稳定性,每一次线上系统变更,都需要协调大量跨部门配合,经常需要研发、运维、测试等多个岗位的同学深夜参与。

随着当贝 OS、当贝音乐、当贝市场等业务发展多点开花,IT 规模也急剧扩张,云资产管理也成为了较为突出的痛点。

稳定性挑战大,异常排查及恢复成本过高

当贝对系统稳定性、业务连续性有着极高要求。随着流量快速增加,特别是在一些如春节联欢晚会这种情况下,流量往往以十倍乃至数十倍激增,对稳定性和容量规划形成极大压力。

同时,当生产环境发生异常,在传统的运维体系下,有着依赖链路复杂、排查难度大、定位时间久、牵扯人员广等核心痛点。

对此,整个服务端部门定下了 1-5-10 快恢及 99.95%可用性两大要求,精准洞察问题核心,同时指导了解决思路。

在当贝各项业务高速发展的情况下,落实这两大要求,是整个服务端团队迫在眉睫且必须打赢的攻坚战。

自建可观测体系落地复杂,易用性和稳定性差,运维成本高

任何成规模的 IT 系统,可观测体系都是极其重要的底层基石,它使 IT 架构的整体设计如依赖拓扑、调用链路追踪、技术标准、运行状况、稳定性等诸多信息清晰呈现,除了定位排查以外,更有助于提前发现历史的架构设计缺陷、系统瓶颈并及时解决,在保证业务连续的同时,高效支撑业务发展与迭代。

在早期阶段,为保证各项系统快速上线、业务高速迭代,存在一些技术架构考虑不周、设计不足的情况,具体表现为选型不一、业务高度耦合、调用链路过长、云资源选择不合理、管理不清晰等。这些因素组合在一起,形成庞大的历史包袱,在过去传统的运维体系下,曾自建一些可观测组件或框架,但却面临着稳定性差、运维成本高难度大、易用性差、体系不统一等各方面问题,以至于未能完全发挥其应有的价值。

如今,在当贝业务规模持续加速成长的背景下,亟需落地一套全面易用、安全稳定、性价比高的可观测体系,以支持公司行稳致远。

云原生架构的建设

面对传统运维体系十分突出的三大核心痛点,为避免其在未来对当贝可持续发展的战略形成制约,当贝技术团队进行了广泛研究、深入分析、积极调研,最终将目光瞄准在了云原生架构上。

正如阿里云在《云原生架构白皮书》中所言:云计算的下一站,是云原生;IT 架构的下一站,是云原生架构。

当贝技术团队极为认同这个观点,云原生是一个确定的技术发展趋势,越来越多的公司拥抱云原生,利用云原生实现更高效率的发展及创新。

经全局视角下的充分评估,当贝技术团队在研发总监张子枭的领导下,提出云原生化、中台化、微服务化、数字化四大技术战略目标,决定全面转型云原生架构。

只有利用云原生架构,完全解决传统运维体系风险高、效率低下的痛点,才能具备对部分积弊已久、陈疾顽疴的老系统进行中台化和微服务化改造。

而在云厂商的选择上,考虑到阿里云是国内云计算的布道师与发扬者,实力全球领先,对云原生技术发展的贡献有目共睹,同时其汇聚了业内最顶尖的人才、最丰富的经验案例、最可靠的成熟度,以及其“客户第一”的价值观,当贝技术团队最终选择借力阿里云落地云原生架构转型。

在这里插入图片描述

在这里插入图片描述

容器化上云

在云原生架构基础设施领域,Kubernetes 是当之无愧的领头羊。

相比于依赖虚机自建集群而言,由阿里云提供的 ACK 服务,有着更优弹性、更优韧性、免运维、更高效的资源管理等优点,同时无缝集成了大量阿里云产品。

在这里插入图片描述

依赖 ACK 及其集成的大量产品,当贝技术团队极快地完成了核心服务的容器化改造,并顺利完成灰度发布、全面切流等工作。值得一提的是,在新架构落地过程中,当贝技术团队不可避免地会遇到疑难杂症困扰,但正因为有阿里云大量的经验案例支撑、最佳实践指导,包括容量规划、可观测、安全防护、稳定性等诸多方面,使整个上云进程始终处于可靠状态。

完成上云后,这些核心服务从开发态测试态,变更与运行态,贯穿服务整个生命周期,效率都得到了极大提升。

利用云原生 Devops,项目发布与协同效率提升 300%,完全避免人工运维干预的高风险性;利用 ACK 服务与服务器资源天然解耦的特性,完全摆脱了基础设施运维的低效困扰;利用 HPA+CronHPA,从容应对流量高峰低谷……

不仅如此,这些核心服务整体资源利用率提升了 20%,运维效率更是提升了 500% 以上,使更大规模的 IT 资源管理成为可能。

在深度参与上云改造的过程中,当贝技术团队沉淀了大量的知识与经验,为公司技术储备添砖加瓦,同时仍在积极探索云原生技术。

云原生网关

在引入 ACK 作为云原生的基础设施的同时,当贝技术团队也引入了 MSE 云原生网关作为流量管理组件。

在这里插入图片描述

在云原生网关将流量网关、微服务网关、安全网关三合一之后,不仅链路减少、性能提升,服务治理的复杂度也大幅下降,稳定性大幅提升。

借助于云原生网关的高集成性,上云后的核心服务毫无侵入地就获得服务治理、安全防护、监控告警等能力,相比于当贝在过去传统运维体系下自建网关而言,云原生网关更具备着高可用、高性能、弹性伸缩、更易用等优势,做到了网关层面完全免运维,减少人工干预的同时,大大提升了 IT 系统的整体稳定性。

正是借助 ACK+MSE 云原生网关的组合,当贝技术团队在几乎无需运维成本的情况下,实现了 1-5-10 和 99.95%的两大目标。

随着当贝 OS、当贝音乐等核心服务上云后的稳定性、业务连续性、研发效能大幅提升,用户体验也得到了极大提升,为当贝业务长期发展,奠定了良好的技术基础。

至今,当贝技术团队仍在积极推进剩余各项业务系统上云,不遗余力地完成全面转型云原生架构的目标,充分挖掘云的价值。

可观测体系

建立全面易用、安全稳定的可观测体系同样是实现 1-5-10 和 99.95% 目标的重要手段,更是达成中台化、微服务化的关键支撑。

在确定全面转型云原生架构之前的评估环节,当贝技术团队就已经深入调研了阿里云的可观测体系解决方案。

在这里插入图片描述

在对比了过去运维团队自建的可观测组件,如日志服务、链路追踪等后,发现其存在易用性差、稳定性差,且运维成本高昂、版本老旧等诸多问题,且对 ACK、MSE 云原生网关等云原生组件的支持存在适配成本。

可观测组件的初衷是为了提升稳定性、保障业务持续性、呈现链路拓扑等信息,以最终实现提升研发效能,让每个人都可以做到心中有数。

如果在该组件本身投入大量运维成本、研发成本,最终只会本末倒置,南辕北辙。

因此,当贝团队最终决定采用阿里云的可观测解决方案,主要以 ARMS、SLS、Grafana、Prometheus 、云监控等产品,依赖它们与 ACK、MSE 等云原生组件高度集成的能力,构建了当贝在云原生下的可观测体系。

在这里插入图片描述

建设成果

在面对传统运维体系的效率低下、风险大、成本高、稳定性差等突出问题上,为避免其成为当贝业务发展的长期制约,当贝技术团队果断采取了全面上云的架构转型,在核心服务上云后,极大地解决了传统运维体系所带来的痛点,整体运维成本下降 80%,提效 500%,研发效率和稳定性都有极大提升。

最关键的成果,运维效率和风险两大制约的解除,基于此,当贝极快地推动了中台化、微服务化的落地,至今已基本完成。

未来展望

当贝在云原生技术上的转型与探索,不仅释放了内部生产力,更大大提升了用户体验,为公司长期可持续发展的战略打下了牢固的技术基础。

但这只是当贝技术团队在云原生道路上的起点,随着业务发展及微服务化的深入,未来还会面临更多的挑战。当贝希望逢山开路,遇水搭桥,丰富更多家庭的客厅生活,为更多家庭带来乐趣。

点击此处进入云原生社区,了解相关资讯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_102191.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【SVN】window SVN安装使用教程(服务器4.3.4版本/客户端1.11.0版本)

介绍 这里是小编成长之路的历程,也是小编的学习之路。希望和各位大佬们一起成长! 以下为小编最喜欢的两句话: 要有最朴素的生活和最遥远的梦想,即使明天天寒地冻,山高水远,路远马亡。 一个人为什么要努力&a…

中台产品经理02:产品经理如何用一套方法搞定复杂业务拆解?

如果你问我作为企业级应用的产品经理日常工作最大的感受是什么?那就是经常会需要面对众多复杂类业务需求。 原因其实很好理解,B端产品通常需要支持更复杂的业务流程,需求也更加个性化和细分。例如,银行业务系统、医院管理系统、物…

CDR2023新版本安装下载教程

CDR2023是最新发布的一款强大且专业的图像设计软件,适用于平面设计、装饰设计、产品包装设计等领域。coco玛奇朵其主要功能如下: 1. 矢量图形设计:提供强大的绘图与编辑工具,支持创建和编辑各种矢量图形,如线条、曲线、矩形、椭圆、星形等。 2. 文字编辑:提供文字输入、编辑与…

C++类与对象—上

本期我们来学习类与对象 目录 面向过程和面向对象初步认识 类的引入 访问限定符 类的定义 封装 类的作用域 类的实例化 this指针 C语言和C实现Stack的对比 面向过程和面向对象初步认识 C 语言是 面向过程 的, 关注 的是 过程 ,分析出求解问题的…

buuctf -2

目录 你竟然赶我走 大白 N种方法解决 [ACTF2020 新生赛]Include 1 php://filter的一些学习 [ACTF2020 新生赛]Exec [强网杯 2019]随便注 你竟然赶我走 1.下载文件,得到一张图片 2.放进010分析,在文件尾得到flag 大白 1.根据题目提示&#xff0…

Pyqt应用相关之与Excel的联接

利用所学相关Pyqt实现对于Excel文件内部数据的处理,首先需要获取Excel的数据,在获取后进行保存处理即可完成相应的操作。 def save_data_btn_click(self):dir self.save_dir_text.text().strip()self.data_frame_group.to_excel(dir output.xlsx,sheet…

HCIP之链路聚合、VRRP

链路聚合 链路聚合 --- 可以将多个物理接口绑定成一个逻辑接口,即将N条物理链路聚合为一条逻辑链路。可以在不升级硬件的条件下,达到增加带宽的效果 我们将逻辑链路,称为聚合链路,在华为设备中称为ETH-TRUNK链路(这个技…

物联网产品的开发的难点,致命点是什么?

物联网产品的开发的难点,致命点是什么? 当下是万物互联的时代, 物联网产品本身的难度因行业而异。但是物联网设备上云通信交互就成了各个行业需要首先解决的问题。 物联网通信问题从产品设计一开始,如果不能很好的解决&#xff0c…

马云上三路和下三路

马云的上三路、下三路,马云最牛搭档总结 马云刚最牛搭档:蔡崇信,关明生 《关乎天下》是关明生写的一本书 趣讲大白话:没有方法走不远 【趣讲信息科技143期】 **************************** 马云上三路:使命&#xff0c…

你掌握了stream流的全部新特性吗?

我们知道很早之前java8对于之前的版本更新了许多 新的支持,比如lamda函数式接口的支持,支持更多函数式接口的使用,对链表,数组,队列,集合等实现了Collectio接口的数据结构提供了StreamSupport.stream()支持…

基于ubuntu18.04.6 LTS服务器安装nvidia驱动

1对于一个刚刚配置的服务器,首先nvidia-smi,自然无法显示Driver Version、最高cuda版本等信息。 nvidia-smi: command not found 需要我们自己安装nvidia驱动 2禁用老驱动 禁用自带nouveau驱动 sudo vim /etc/modprobe.d/blacklist.conf 打开后在CONF文…

2023年软件测试的前景?测试工程师技能提升,进阶自动化测试...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 2023年软件测试行…

【开发日志】2023.04 ZENO----Composite----CompNormalMap

CompNormalMap 将灰度图像转换为法线贴图 将灰度图像转换为法线贴图是一种常见的技术,用于在实时图形渲染中增加表面细节。下面是一个简单的方法来将灰度图像转换为法线贴图: 加载灰度图像,并将其转换为浮点数值范围[0, 1]。 对于每个像素…

IT_开发提测标准规范

背景 公司 IT 规模小,开发提测质量差,流程不规范,导致测试任务重,于是推行 :IT_开发提测标准规范,正文如下;拟定开发提测标准规范后,测试与项目经理内部评审后,发至IT群…

盘点几款还不错的企业网盘产品

企业网盘的出现,为企业提供文件安全管理,团队协作服务,解决了便捷性与安全性等问题,受到了企业的青睐。市面上的企业网盘工具也是五花八门,我们该如何选择适合自己团队的网盘工具呢? 本文盘点了几款还不错的…

反射-Class类分析

反射相关的主要类 java.lang.Class:代表一个类,Class对象表示某个类加载后在堆中的对象java.lang.reflect.Method:代表类的方法,Method对象表示某个类的方法java.lang.reflect.Field:代表类的成员变量,Fie…

20230422 | 24. 两两交换链表中的节点、19.删除链表的倒数第N个节点、面试题 02.07. 链表相交、142. 环形链表 II

1、24. 两两交换链表中的节点 初始时,cur指向虚拟头结点,然后进行如下三步: 操作之后,链表如下: 看这个可能就更直观一些了: /*** Definition for singly-linked list.* public class ListNode {* i…

Android 日志框架使用

在实际开发中,经常会遇到需要打印日志并保存到文件中,便于后面取日志分析代码运行情况,当然如果只是打印日志不需要记录文件,使用android自带的log工具就完全够了, Log打印日志会记录到系统日志中,可以取出…

Rust之泛型、特性和生命期(一):基本概念

开发环境 Windows 10Rust 1.69.0 VS Code 1.77.3 项目工程 这里继续沿用上次工程rust-demo 泛型、特性和生命期 每种编程语言都有有效处理概念重复的工具。在Rust中,一个这样的工具就是泛型:具体类型或其他属性的抽象替身。我们可以表达泛型的行为或…

CorelDRAW 2023版本更新内容及安装详细教程

这里是CorelDRAW 2023版本更新内容及安装详细教程: CorelDRAW 2023是最新更新版本,在界面和功能上做了较大提升与优化: 1. 简洁界面:采用全新设计界面,简约而不简单。菜单和工具栏进行了整合与重组,更加直观。拥有自动标记和提示,易于上手使用。 2. 全新工作空间:提供“轻量…