Tapdata Connector 实用指南:实时数仓场景之数据实时同步至 ClickHouse

news/2024/3/29 4:38:39/文章来源:https://blog.csdn.net/weixin_58202160/article/details/129206846

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata 是一个以低延迟数据移动为核心优势构建的现代数据平台,内置 60+ 数据连接器,拥有稳定的实时采集和传输能力、秒级响应的数据实时计算能力、稳定易用的数据实时服务能力,以及低代码可视化操作等。典型用例包括数据库到数据库的复制、将数据引入数据仓库或数据湖,以及通用 ETL 处理等。

随着 Tapdata Connector 的不断增长,我们最新推出《Tapdata Connector 实用指南》系列内容,以文字解析辅以视频演示,还原技术实现细节,模拟实际技术及应用场景需求,提供可以“收藏跟练”的实用专栏。本期实用指南以 MySQL → ClickHouse 为例,演示数据入仓场景下,如何将数据实时同步到 ClickHouse。

数智时代当前,数据正以极大量级、极细颗粒度、极高时效性、极智能方式影响着企业运作。业务发展更加依赖数据驱动,如何从类型丰富的海量数据中实时获取有价值的洞察力正在成为新的挑战。正因如此,兼具计算速度、高并发低延迟等性能优势的 ClickHouse 走入大家的视野,基于 ClickHouse 的实时数仓,也成为诸多企业在寻找强时效性、高数据准确性、低开发运维成本的数据分析与运营决策解决方案的优选之一。

同样密切关注实时数据价值与能量的 Tapdata,作为自带 ETL 的实时数据平台,也透过社区看到了大量相关的数据迁移需求,在最新一批数仓目标新增中,ClickHouse 赫然在列。

一、ClickHouse 的实时数仓优势

ClickHouse(全称 Click Stream, Data WareHouse),是一个开源的、面向列的 OLAP(联机分析)数据库管理系统),允许使用 SQL 查询实时生成分析报告。其前身为 Yandex.Metrica,主要用于 WEB 流量分析。除此之外, ClickHouse 官方推出的 ClickHouse Cloud,作为安全可扩展的云服务,支持轻松获取高效的实时分析处理能力,可以简化和加速现代数字企业的洞察力和分析能力。由于不需要管理基础设施,ClickHouse 云架构将存储和计算解耦,并自动扩展以适应现代工作负载,无需调整集群的大小即可满足极高的查询速度需求。

作为数据仓库使用时,ClickHouse 具有以下优势:

  • 高性能的数据处理能力。ClickHouse 设计的天然优势,支持高性能处理大量数据,每秒的数据处理量可达上亿行。
  • 实时分析。支持对大型数据集的实时分析,可满足实时数据处理和分析等场景需求。
  • 列式存储。允许对大型数据集进行快速查询和汇总。
  • 高可扩展性。Clickhouse 在构建时就考虑了水平可扩展性和高可用性,可以通过在集群中添加服务器轻松实现横向扩展,在处理大量数据的同时保障性能不受影响。
  • 数据压缩特性。内置压缩算法,可以大大减少数据所需的存储空间,便于存储和处理大量数据。
  • 生态便利。支持 SQL 查询,方便熟悉 SQL 的数据分析师和开发人员上手试用,更易于集成数据生态系统中的其他工具和应用。
  • 具有成本效益。作为一个开源项目,支持免费下载和使用。此外,活跃的开源社区也对使用者更加友好。

总的来说,ClickHouse 为存储和处理大量数据提供了一种快速、高效和具有成本效益的解决方案。为了实现上述优势,我们需要首先实现数据向 ClickHouse 的同步。

二、MySQL → ClickHouse 的数据入仓任务

点击查看演示视频
(*本演示视频版本为 Tapdata Cloud V3)

版本指路

点击登录 Tapdata Cloud
申请试用 Tapdata 本地部署版

操作流程详解

① 登录 Tapdata Cloud
在这里插入图片描述

  • 默认已完成 Tapdata Cloud 账号注册及 Agent 部署

② 创建数据源 MySQL 的连接
在这里插入图片描述
在这里插入图片描述
在 Tapdata Cloud 连接管理菜单栏,点击【创建连接】按钮, 在弹出的窗口中选择 MySQL 数据库,并点击确定。
参考右侧【连接配置帮助】,完成连接创建:
在这里插入图片描述
③ 创建数据目标 ClickHouse 的连接

  1. 点击左侧菜单栏的【连接管理】,然后点击右侧区域【连接列表】右上角的【创建连接】按钮,打开连接类型选择页面,然后选择 ClickHouse。
  2. 在打开的连接信息配置页面依次输入需要的配置信息。
    在这里插入图片描述
  • 连接名称:设置连接的名称,多个连接的名称不能重复
  • 数据库地址:数据库 IP / Host
  • 端口:数据库端口
  • 数据库名称
  • 账号:可以访问数据库的账号
  • 密码:数据库账号对应的密码
  • 时间类型的时区:默认使用该数据库的时区;若指定时区,则使用指定后的时区设置
  1. 单击连接测试,提示测试通过后单击保存。(*如提示连接测试失败,可根据页面提示进行修复
    在这里插入图片描述
    ④ 新建并运行 MySQL 到 ClickHouse 的同步任务
    在这里插入图片描述

三、Why Tapdata

借助 Tapdata 出色的实时数据能力和广泛的数据源支持,可以在几分钟内完成从源库到 ClickHouse 包括全量、增量等在内的多重数据同步任务。

在 Any Source → ClickHouse 的数据同步任务中,Tapdata 展现出如下优势:

  • 内置 60+ 数据连接器,稳定的实时采集和传输能力
    以实时的方式从各个数据来源,包括数据库、API、队列、物联网等数据提供者采集或同步最新的数据变化。支持多源异构数据双向同步,自动映射关系型到非关系型。一键实现实时捕获,毫秒内更新。已内置 60+连接器且不断拓展中,覆盖大部分主流的数据库和类型,并支持您自定义数据源。

  • 具有强可扩展性的 PDK 架构
    4 小时快速对接 SaaS API 系统;16 小时快速对接数据库系统。

  • 对源库几乎无影响
    基于自研的 CDC 日志解析技术,0入侵实时采集数据,对源库几乎无影响。

  • 全链路实时
    基于 Pipeline 流式数据处理,以应对基于单条数据记录的即时处理需求,如数据库 CDC、消息、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范围被响应,计算,处理并写入到目标表中。同时提供了基于时间窗的统计分析能力,适用于实时分析场景。

  • 数据一致性保障
    通过多种自研技术,保障目标端数据与源数据的高一致性,并支持通过多种方式完成一致性校验,保障生产要求。

  • 可视化任务运行监控和告警
    包含 20+ 可观测性指标,包括全量同步进度、增量同步延迟等,能够实时监控在运行任务的最新运行状态、日志信息等,支持任务告警。

【相关阅读】

  • Tapdata Connector 实用指南:数据入仓场景之数据实时同步到 BigQuery
  • Tapdata Cloud 场景通关系列:将数据导入阿里云 Tablestore,获得毫秒级在线查询和检索能力
  • Tapdata Cloud 场景通关系列:数据入湖仓之 MySQL → Doris,极简架构,更实时、更简便

原文链接:https://tapdata.net/tapdata-connector-mysql-clickhouse.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_73696.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Tina_Linux_系统软件 开发指南

Tina_Linux_系统软件 开发指南 1 概述 编写目的:本文档作为Allwinner Tina Linux系统平台开发指南,旨在帮助软件开发工程师、技术支持工程师快速上手,熟悉Tina Linux系统的开发及调试流程。 适用范围:Tina Linux v3.5及以上版本…

博客管理系统--项目说明

项目体验地址(账号:123,密码:123)http://120.53.20.213:8080/blog_system/login.html项目码云Gitee地址:https://gitee.com/GoodManSS/project/tree/master/blog_system(一)准备工作…

常见前端基础面试题(HTML,CSS,JS)(三)

JS 中如何进行数据类型的转换? 类型转换可以分为两种,隐性转换和显性转换 显性转换 主要分为三大类:数值类型、字符串类型、布尔类型 三大类的原始类型值的转换规则我就不一一列举了 数值类型(引用类型转换) Numbe…

什么是SSL端口?HTTPS配置技术指南

安全套接字层(SSL)是负责互联网连接的数据身份验证和加密的技术。它加密在两个系统之间(通常在服务器和客户端之间)之间通过互联网发送的数据,使其保持私密。随着在线隐私的重要性日益增加,您应该熟悉SSL端…

「RISC-V Arch」SBI 规范解读(上)

术语 SBI,Supervisor Binary Interface,管理二进制接口 U-Mode,User mode,用户模式 S-Mode,Supervisor mode,监督模式 VS-Mode,Virtualization Supervisor mode,虚拟机监督模式 …

电商共享购模式,消费增值返利,app开发

在当今以市场需求为主导的数字经济时代,消费者需求呈现出精细化管理和多元化的特性,目标市场日渐完善,另外在大数据技术迅速进步和运用的驱动下,总体行业的发展节奏感也在不断加速。因而,企业需要建立一套灵活多变的经…

HyperGBM用Adversarial Validation解决数据漂移问题

本文作者:杨健,九章云极 DataCanvas 主任架构师 数据漂移问题近年在机器学习领域来越来越得到关注,成为机器学习模型在实际投产中面对的一个主要挑战。当数据的分布随着时间推移逐渐发生变化,需要预测的数据和用于训练的数据分布…

格雷码的实现

格雷码:任意两个相邻的二进制数之间只有一位不同 想必通信专业的学生应该都接触过格雷码,它出现在数电、通信原理等课程里。 如下图所示一个四位格雷码是什么样子的: 格雷码的特点: 其最大的特点是任意上下相邻的两个码值间&am…

线性数据结构:数组 Array

一、前言数组是数据结构还是数据类型?数组只是个名称,它可以描述一组操作,也可以命名这组操作。数组的数据操作,是通过 idx->val 的方式来处理。它不是具体要求内存上要存储着连续的数据才叫数组,而是说&#xff0c…

内网渗透(五十六)之域控安全和跨域攻击-非约束委派攻击

系列文章第一章节之基础知识篇 内网渗透(一)之基础知识-内网渗透介绍和概述 内网渗透(二)之基础知识-工作组介绍 内网渗透(三)之基础知识-域环境的介绍和优点 内网渗透(四)之基础知识-搭建域环境 内网渗透(五)之基础知识-Active Directory活动目录介绍和使用 内网渗透(六)之基…

Linux下java服务占用cpu过高如何处理

Linux下java服务占用cpu过高如何处理 top命令查看进程信息 top按下shiftp,按cpu使用率排行,可见进程1932占用最高,并且是一个java服务 使用jps命令确认java服务 [rootVM-16-16-centos ~]# jps 1011 Jps 9462 yuan_back-0.0.1-SNAPSHOT.jar 1932 spigot-1.18.jar查找异常进程中…

利用关联来发现复杂攻击模式

日志是网络活动的重要依据,包含了关于您网络上所有用户和系统活动的详尽信息。基本日志分析可帮助您轻松地对数百万个日志进行分类,并挑选出可以表明存在可疑活动的日志,识别与正常网络活动不符的异常日志。通常,单独查看某个日志…

GCC:从源文件到可执行文件

GCC&#xff1a;从源文件到可执行文件 假设我们有hello.c 文件 #include <stdio.h> int main(){printf("hello world!\n");return 0; }怎么在linux上利用GCC命令生产可执行文件&#xff08;单文件编译&#xff09;呢&#xff1f; 一、流程 C文件从源文件到…

5.35 综合案例2.0 -称重数据上传云端

综合案例2.0 - 称重数据上传云端案例说明连线功能实现1.阿里云平台连接代码应用开发3.1新建‘普通项目’3.2关联产品和设备3.3新建‘移动应用’3.4添加组件3.5配置组件信息3.6保存预览案例说明 使用hx711串口模块称重,结合IOT studio制作手机APP远程控制并采集物体重量。 hx7…

称重传感器差分输入信号隔离转换直流放大变送器0-±10mV/0-±20mV转0-10V/4-20mA

主要特性DIN11 IPO 压力应变桥信号处理系列隔离放大器是一种将差分输入信号隔离放大、转换成按比例输出的直流信号导轨安装变送模块。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等行业。此系列模块内部嵌入了一个高效微功率的电源&#xff0c;向输入端和输出…

Oracle——物化视图

文章目录含义物化视图的语法物化视图的创建1、自动刷新的物化事务 ON COMMIT2、非自动刷新的物化视图 ON demand关于手动刷新物化视图的删除资料参考含义 什么是物化视图&#xff1f; 物化视图&#xff0c;通俗点说就是物理化的视图。 什么叫物理化&#xff1f; 将视图以表结构…

可怕,chatGPT用3小时教会我数据分析

chatGPT这玩意真的是我的救星,用它作为我的Python教练,我用三个小时学会了数据处理(Pandas)和绘图(matplotlib)。 这两个库的学习,在之前已经困扰了我7个月。之前卡壳的原因,是我一直没有耐心从零开始,按照教材设置的教程去学习Python——我擅长在项目中学习,一点一点…

SpringMVC框架知识详解(入门版)

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

「RISC-V Arch」SBI 规范解读(下)

第六章 定时器扩展&#xff08;EID #0x54494D45"TIME"&#xff09; 这个定时器扩展取代了遗留定时器扩展&#xff08;EID #0x00&#xff09;&#xff0c;并遵循 v0.2 中定义的调用规约。 6.1 函数&#xff1a;设置定时器&#xff08;FID #0&#xff09; struct sbi…

TensorFlow-Keras - FM、WideAndDeep、DeepFM、DeepFwFM、DeepFmFM 理论与实战

目录 一.引言 二.浅层模型概述 1.LR 2.FM 3.FMM 4.FwFM 5.FmFM 三.常用推荐算法实现 Pre.数据准备 1.FM 2.WideAndDeep 3.DeepFM 4.DeepFwFM 5.DeepFmFM 四.总结 1.函数测试 2.函数效果与复杂度对比[来自FmFM论文] 3.More 一.引言 推荐系统中常见的 CTR 模型…