【性能优化下】组织结构同步优化二,全量同步/增量同步,断点续传实现方式

news/2024/4/29 14:50:19/文章来源:https://blog.csdn.net/m0_37322399/article/details/133104311

看到这一篇文章的 xdm ,应该对组织结构同步有一些想法了吧,如果没有,可以看前面两篇文章,可以通过如下地址查看一下:

  • 【性能优化上】第三方组织结构同步优化一,你 get 到了吗?
  • 坑爹,线上同步近 3w 个用户导致链路阻塞引入发的线上问题,你经历过吗?

这类文章,主要是期望能给 xdm 带来不一样的思考,如有表述不当的地方,还请不吝赐教,期望对你有帮助😀

这篇文章主要是阐述将临时表中的用户组数据/用户数组,按照既定的步骤同步到我们的正式表,过程中遇到异常中断,可以对我们的正式平台无影响,能够保证下一次同步任务过来仍然可以进行断点续传

首先全量同步和增量同步分别指什么?🧐🧐

🔥全量同步

简单理解,全量同步,咱们就是将对方所有的数据,全部同步到我们内部系统中,对于组织结构同步的时候,我们没有必要每一次都是全量的,一般是第一次,无到有的时候会用到全量同步,可以理解为全量覆盖

🔥增量同步

那么增量同步就比较好理解了,此处的增量同步指的是,第三方数据对于目前内部系统数据来说,哪一些是增加或者变动的数据,那么就同步这一部分数据到内部系统中

那么对于我们本次同步组织结构来说,就看内部系统是否已经存在了 /IDaaS 组,如果存在了,那么就走增量同步,如果不存在,则走全量同步

😃😃😃

🔥全量同步基本流程

全量同步的基本流程比较简单,再来回顾一下之前文章的一张总体图

可以看到全量同步和增量同步在我们整个同步流程的第四个阶段,到这个阶段的时候,第三方组织结构的数据已经全部正确的写入到了我们的临时表中

这个时候,我们就需要将临时表中的数据按照我们的逻辑和步骤写入到正式表中

此处阶段,显示判断是否有 /IDaaS 组,如果没有,则在同步记录表中写入 同步类型为 full 全量同步,如果有 /IDaaS 组,则记录同步类型为 incr 增量同步

全量同步比较简单,总共分成两个阶段,一个阶段是全量同步组 full_sync_group,一个是全量同步用户 full_sync_user

序号步骤含义
1full_sync_group全量同步临时表中的组到正式表
2full_sync_user全量同步临时表中的用户到正式表

此处比较简单,同步用户之前,自然是先要将组给同步过来,完全分清楚,对于正式表中,数据是从无到有,所以步骤相对就简单一些

🧐开始全量同步

在进行全量同步前,仍然还是检查当前的同步状态是否是 sync_in,且同步步骤是否是sync_temp_user,若不是则不处理

  1. 检查用户数量是否超过平台最大限制

    1. 若过程中出现 error,则关闭当前任务,不进行同步,并且将同步记录中同步状态设置为同步中断 sync_interrupt,同步记录表中重试次数 +1
    2. 检查临时表有效用户 + 已有正式表中未删除用户的数量是否超过平台最大限制(一般平台会有对于一个租户最多容纳多少用户的限制),更新同步状态为同步失败 sync_fail,并且清空临时数据,通知其他服务处理失败,且关闭当前任务
  1. 校验当前同步步骤是 sync_temp_user 或者 full_sync_group ,则开始正式将临时表的组信息同步到正式表中,并将当前的同步步骤修改为 full_sync_group
  • 这次这样进行判断,如果是 sync_temp_user 说明第一次处理到这里,如果是 full_sync_group 步骤,说明这个步骤之前被中断了,此刻需要断点续传
    • 获取临时表中的组深度,且获取按照深度排序的组列表
    • 按照由浅到深的将组数据写入到正式表中
    • 删除临时用户表
    • 如果过程中出现 error,则在该租户的同步记录中,同步状态标记为 sync_interrupt
  1. 当同步步骤是 full_sync_group 或者 full_sync_user 的时候,则开始将用户从临时表加入到正式用户表中,且将同步步骤修改为 full_sync_user
  • 同理,此处这样的处理逻辑,也是为了断点续传,逻辑之外,关于一个步骤中数据库的处理都是开启事务的
    • 一层一层的去添加用户,先从临时表中查询同一个深度下对应的所有用户
    • 从正式表中读取已经存在的用户
    • 从临时表中按照例如 1000 条每次去读取数据(有效合法用户),写到到正式表中,校验如果用户已经存在于正式表中,则记录冲突用户,且不录入该用户,反之亦然
    • 删除临时表中已经插入到正式表中的用户数据,并在临时表中更新指定用户是非法的
    • 如果过程中出现 error,则在该租户的同步记录中,同步状态标记为 sync_interrupt
    • 同步结束,则将同步状态设为 sync_success同步步骤设置为 sync_end,同时将临时表中非法的组,非法的用户全部读书出来,将非法数据传出去
    • 最终清除临时用户组表,和临时用户表 ,在 redis 中记录下一次需要同步的时间

🔥增量同步基本流程

增量同步的话,相对步骤就会多一些,看起来可能会觉得复杂,实际上按照如下步骤走的话,会很清晰并不复杂

序号步骤含义
1incr_sync_markup_group标记组步骤
2incr_sync_markup_user标记用户步骤
3incr_sync_delete_user从正式表中删除用户步骤
4incr_sync_add_group将临时表中的组写入到正式表中
5incr_sync_move_user处理正式表中移动用户
6incr_sync_add_user将临时表中的用户添加到正式表中
7incr_sync_edit_user编辑正式表中的用户
8incr_sync_delete_group删除正式表中的组
9sync_end增量同步结束

那么对于增量同步为什么需要那么多步骤才能保证咱们顺利同步?才能保证咱们可以断点续传??

实际上稍加思考的话,我们就需要考虑这些问题:

  • 同步数据,自然是需要先同步组
  • 那么对于组的增删改查,用户的增删改,我们需要按照这样的顺序处理呢?
  • 思考之后,自然是

    • 删除正式表中的用户(避免后续冲突,此步骤说明最新的同步数据中没有这一部分用户)
    • 添加组
    • 移动用户 (如果移动的目的组不存在的话,那还玩什么??所以添加组要放在这个步骤的前面
    • 添加用户
    • 编辑用户
    • 删除组

🧐开始处理增量同步数据

下面关于校验步骤的位置,理由都是为了确定当前执行的步骤是正确的,并且为了做到断点续传

  1. 开始标记组

    1. 校验当前同步步骤是 sync_temp_user 或者 incr_sync_markup_group,则当前的同步步骤修改为 incr_sync_markup_group
    2. 读取原有正式表中的组,读取临时表中的组数据
    3. 通过标记,找到新增的组,找到删除的组,并在临时用户组表中标记新增的组,在正式表中标记删除的组
  1. 开始标记用户

    1. 校验当前同步步骤是 incr_sync_markup_group 或者 incr_sync_markup_user,则将当前步骤修改为 incr_sync_markup_user
    2. 获取原有正式表中的非IDaaS组下的用户,读取临时表中的用户,通过读取出来的临时表中的用户去读取正式表中的数据,标记哪一些用户是新增的,哪一些是修改的,哪一些是移动的(组变动了),在正式表中标记删除的用户
  1. 开始处理正式表,临时表中的标记数据

    1. 删除用户 ,检查当前步骤是 incr_sync_markup_user 或者是 incr_sync_delete_user 才进行,且更新步骤为 incr_sync_delete_user
    2. 新增用户组,校验同步步骤是 incr_sync_delete_user 或者是 incr_sync_add_group 才进行,且更新步骤为 incr_sync_add_group
    3. 移动用户,校验同步步骤是incr_sync_add_group 或者是 incr_sync_move_user 才进行,且更新步骤为 incr_sync_move_user
    4. 删除用户组,校验同步步骤是 incr_sync_move_user 或者是 incr_sync_delete_group 才进行,且更新步骤为 incr_sync_delete_group
    5. 新增用户,校验同步步骤是 incr_sync_delete_group 或者是incr_sync_add_user 才进行,且更新步骤为 incr_sync_add_user
    6. 修改用户,校验同步步骤是 incr_sync_add_user 或者是 incr_sync_edit_user 才进行,且更新步骤为 incr_sync_edit_user
    7. 如果过程中出现 error,则在该租户的同步记录中,同步状态标记为 sync_interrupt
    8. 同步结束,则将同步状态设为 sync_success ,同步步骤设置为 sync_end,同时将临时表中非法的组,非法的用户全部读书出来,将非法数据传出去
    9. 最终清除临时用户组表,和临时用户表 ,在 redis 中记录下一次需要同步的时间

自然,对于每一个步骤的实现方式根据实际情况来定,这只是一个例子,主要是理解,整个流程的 3 张表4 个同步状态,以及 14 个同步步骤

是怎么保证断点续传的?

可以看到对于每一个步骤都在我们的操控范围内,还记的最开始创建同步任务的时候吗?

这个 同步中断 就是用于断点续传的

可以这样来实现 断点续传

  • 后台会启动一个定时任务,定时去扫同步记录表中 同步状态是 sync_interrupt 状态的记录
  • 根据每一条记录是全量同步还是增量同步,来走不同的同步路径
  • 再根据每一条同步记录中的同步步骤,就可以接着中断之前的步骤来进行同步数据了

自然,细心的同学还发会发,同步记录表中有重试次数这个字段,用法是每中断一次,这个字段值 +1,如果发现已经 3 次了,那么就会删除这条记录,若之后再次触发该租户的同步任务,则从 0 开始同步即可

至此,关于本次组织结构同步的内容更新完毕,如果对你能够带来一些思考的话,欢迎冒个泡吧

感谢阅读,欢迎交流,点个赞,关注一波 再走吧

欢迎点赞,关注,收藏

朋友们,你的支持和鼓励,是我坚持分享,提高质量的动力

好了,本次就到这里

技术是开放的,我们的心态,更应是开放的。拥抱变化,向阳而生,努力向前行。

我是阿兵云原生,欢迎点赞关注收藏,下次见~

文中提到的技术点,感兴趣的可以查看这些文章:

  • 【性能优化上】第三方组织结构同步优化一,你 get 到了吗?
  • 坑爹,线上同步近 3w 个用户导致链路阻塞引入发的线上问题,你经历过吗?
  • OAUTH之钉钉第三方授权
    可以进入地址进行体验和学习:https://xxetb.xet.tech/s/3lucCI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_173561.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UE5读取json文件

一、下载插件 在工程中启用 二、定义读取外部json文件的函数,参考我之前的文章 ue5读取外部文件_艺菲的博客-CSDN博客 三、读取文件并解析为json对象 这里Load Text就是自己定义的函数,ResourceBundle为一个字符串常量,通常是读取的文件夹…

数据预处理方式合集

删除空行 #del all None value data_all.dropna(axis1, howall, inplaceTrue) 删除空列 #del all None value data_all.dropna(axis0, howall, inplaceTrue) 缺失值处理 观测缺失值 观测数据缺失值有一个比较好用的工具包——missingno,直接传入DataFrame&…

【Html】用CSS定义咖啡 - 咖啡配料展示

显示效果 代码 index.html <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>CodePen - For The Love Of Coffee</title><link rel"stylesheet" href"./style.css">&l…

Jenkins结合Gitlab,实现镜像构建及推送

docker-compose jenkins的docker-compose目录为为/home/jenkins&#xff0c;这个后面写脚本的时候需要对应上 version: 3 services:docker_jenkins:restart: alwaysimage: jenkins/jenkins:ltscontainer_name: docker_jenkinsprivileged: true ports:- 8080:8080- 50000:5000…

MyBatis基础之执行SQL

文章目录 执行 SQL 语句1. 增删改操作insert 元素insert 过程中的主键回填delete 元素 和 update 元素 2. getMapper 方法3. 查操作select 元素select 与 聚合函数 4. 传递多个参数使用 Map 传递多参数使用 JavaBean 传递多参使用注解方式传递多参数 执行 SQL 语句 Mapper 是 …

(2) Java 8 实战第二版——补充 收集数据、并行数据处理能力与性能

第6章 用Collectors类创建和使用收集器将数据流归约为一个值汇总&#xff1a;归约的特殊情况数据分组和分区开发你的自定义收集器 对一个交易列表按货币分组&#xff0c;获得该货币的所有交易额总和&#xff08;返回一个Map<Currency, Integer>&#xff09;。将交易列表…

面向组织分析的内容

声明 本文是学习GB-T 42859-2023 航天产品质量问题三个面向分析方法实施要求. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本文件规定了航天产品质量问题三个面向分析方法实施的一般要求、程序和分析内容。 本文件适用于承担航天产品研制…

性能测试 —— Tomcat监控与调优:Jconsole监控

JConsole的图形用户界面是一个符合Java管理扩展(JMX)规范的监测工具&#xff0c;JConsole使用Java虚拟机(Java VM)&#xff0c;提供在Java平台上运行的应用程序的性能和资源消耗的信息。在Java平台&#xff0c;标准版(Java SE平台)6&#xff0c;JConsole的已经更新到目前的外观…

阿里云服务器价格表,轻量和服务器最新活动价格表汇总

租用阿里云服务器怎么收费&#xff1f;阿里云服务器配置不同一年价格也不同&#xff0c;阿里云2核2G3M带宽108元一年、2核4G4M带宽297.98元12个月&#xff0c;云服务器u1公网带宽可选1M到5M&#xff0c;系统盘为ESSD云盘40GB起&#xff0c;CPU内存配置可选2核2G、2核4G、4核8G、…

抖音seo矩阵系统源码分享-技术梳理

抖音seo源码&#xff0c;抖音seo矩阵系统源码技术搭建&#xff0c;抖音seo源码技术开发思路梳理搭建 抖音账号矩阵系统部分源代码分享 if (empty($video_item)) {$this->displayJsonError(参数错误);}$curr_platform json_decode($video_item[dv_platform], 1);$curr_plat…

牛客网Verilog刷题 | 快速入门-基础语法

1、VL1 四选一多路器 描述 制作一个四选一的多路选择器&#xff0c;要求输出定义上为线网类型 状态转换&#xff1a; d0 11 d1 10 d2 01 d3 00 信号示意图&#xff1a; 输入描述&#xff1a; 输入信号 d1,d2,d3,d4 sel 类型 wire 输出描述&#xff1a; 输出信号 mux_ou…

vim缓存-交换文件

Catf1agCTF靶场 web swp 题目链接&#xff1a;http://catf1ag.cn/ 个人博客&#xff1a;https://sword-blogs.com/ 题目考点&#xff1a; vim在编辑文档的过程中如果异常退出&#xff0c;会产生缓存文件 vim 交换文件名 参考文章&#xff1a;vim手册 https://yianwillis.…

ROS2 的行为树 — 第 1 部分:解锁高级机器人决策和控制

一、说明 在复杂而迷人的机器人世界中&#xff0c;行为树&#xff08;BT&#xff09;已成为决策过程中不可或缺的一部分。它们提供了一种结构化、模块化和高效的方法来对机器人的行为进行编程。BT起源于视频游戏行业&#xff0c;用于控制非玩家角色&#xff0c;他们在机器人领域…

云原生的简单理解

一、何谓云原生&#xff1f; 一种构建和运行应用软件的方法 应用程序从设计之初即考虑到云的环境&#xff0c;原生为云而设计&#xff0c;在云上以最佳姿势运行&#xff0c;充分利用和发挥云平台的弹性分布式优势。 二、包括以下四个要素 采用容器化部署&#xff1a;实现云平…

机器学习(17)---支持向量机(SVM)

支持向量机 一、概述1.1 介绍1.2 工作原理1.3 三层理解 二、sklearn.svm.SVC2.1 查看数据集2.2 contour函数2.3 画决策边界&#xff1a;制作网格2.4 建模画图 三、非线性情况推广3.1 查看数据集3.2 线性画图3.3 为非线性数据增加维度并绘制3D图像 四、核函数 一、概述 1.1 介绍…

hadoop测试环境sqoop使用

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 Sqoop看这篇文章就够了_must contain $conditions in where clause._SoWhat1412的博客-CSDN博客 大数据环境 C:\Windows\System32\drivers\etc 修改ip和hostname的对应关系 1…

记一次hyperf框架封装swoole自定义进程

背景 公司准备引入swoole和rabbitmq来处理公司业务。因此&#xff0c;我引入hyperf框架&#xff0c;想用swoole的多进程来实现。 自定义启动服务封装 <?php /*** 进程启动服务【manager】*/ declare(strict_types1);namespace App\Command;use Swoole; use Swoole\Proce…

StarRocks 社区:从初生到两周年的进化之路

2021 年 9 月 8 日&#xff0c;StarRocks 开源社区诞生。从第一天开始&#xff0c;我们怀揣着“打造世界一流的数据分析产品”的梦想&#xff0c;踏上了星辰大海的征途。 两年间&#xff0c;StarRocks 在 GitHub 上收获了 5.4K Stars&#xff0c;产品共迭代发布了 90 余个版本&…

Java下打印九九乘法表

这个算法是基于打直角三角型演变而来&#xff0c;代码如下&#xff1a; public class MyWork {public static void main(String[] args) {for (int i 1; i < 10; i) {for (int j 1; j < i; j) {System.out.print(j "x" i "" i*j "\t&qu…

以太网媒体接口MII/RMII/SMII/GMII/RGMII/SGMII

以太网媒体接口MII/RMII/SMII/GMII/RGMII/SGMII GMAC系统框架&#xff08;EMAC是百兆mac&#xff0c; GMAC是千兆mac&#xff09;网卡网卡系统框架结构 PHY&#xff08;Physical Layer&#xff0c;物理层&#xff09;MAC(Media Access Control、媒体访问控制器)以太网结构大框架…