Skip to main content

moregeek program

带你认识数仓的增量备份核心设计-多极客编程

摘要:增量备份是重要的常规备份策略,正确快速识别增量变化文件的相关信息对增量备份至关重要。

本文分享自华为云社区《​​其疾如风,GaussDB(DWS)增量备份核心设计​​》,作者: 我的橘子呢 。

1、认识增量备份

GaussDB(DWS)数仓的备份恢复工具Roach支持集群级增量备份。全量备份会将源数据完整备份,而增量备份仅将上次备份后所作的更改进行备份,这里的上次备份可以使全量备份,也可以是全量备份后的增量备份。需要注意的是,增量备份的基础始终是全量备份,如果一次全量备份之后进行了全量恢复,则不能再基于该全量备份进行增量备份,必须重新进行全量备份然后基于新的全量备份进行增量备份。增量备份分为两种:累积增量备份和差分增量备份。

累积增量备份:如果一次全量备份后的多次增量备份,指定的prior-backup-key始终为全量备份的backup-key,即所有的增量备份都是基于全量备份来进行的,那么这些增量备份就是累积增量备份,累积增量备份均是基于最近一次全量备份进行的,如图1所示。

带你认识数仓的增量备份核心设计_增量备份

图1 累积增量备份示意图

差分增量备份:如果一次全量备份后的多次增量备份,指定的prior-backup-key均为上一次备份(可能是全量备份也可能增量备份)的backup-key,即此次备份是基于上一次备份集来进行的,那么这些增量备份就是差分增量备份,差分增量备份均是基于最近一次备份进行的,如图2所示。

带你认识数仓的增量备份核心设计_GaussDB_02

图2 差分增量备份示意图

2、增量备份之CBM设计

增量备份只需要备份上一备份节点到当前时间发生变化的数据文件,为了实现备份数据的完整性与一致性,正确识别并备份增量数据文件是至关重要的,作为增量备份的核心设计,Gauss数据库内核的事务日志功能与cbm设计可以帮助Roach工具快速准确识别增量期间数据文件的变换信息,为快速准确完成增量备份提供了有力保障。

(1)WAL与事务日志

为了保证数据的一致性和完整性,在对数据进行相关操作之前都会将具体的操作记录下来,持久化到可靠存储中,然后再进行具体的数据操作,这就是所谓的WAL(Write Ahead Logging),记录的相关操作称为XLOG日志,每一条日志记录都由LSN进行唯一标识。这样做的好处是事物的记录被提前记录并保存起来,在因一些外部原因(比如断电、操作系统失败等)导致操作失败后,我们可以通过保存的事物日志将这些操作重新执行一遍,保证数据不会丢失。相关操作如图3所示。

带你认识数仓的增量备份核心设计_数据文件_03

图3 WAL操作示意图

(2)Checkpoint操作

当系统运行时间较长的时候,由于操作较多,日志文件的数量也较多。如果每次利用日志进行恢复操作都会耗费大量的时间,为了节约时间同时减少不必要的恢复操作,引入了checkpoint的概念。checkpoint表示在此操作之前,相关数据已经被保存到永久存储中,即使系统故障,这部分数据也不会丢失,因此恢复的时候只要从checkpoint操作之后根据日志执行恢复操作就可以了。checkpoint本身也是一条xlog记录,该记录包含了redo点的位置,因此,每次恢复数据时,先从xloh记录里找到最近的一次checkpoint记录,并根据该记录找到相应的redo点位置,这就是执行本次恢复的起始点位置。如图4所示,checkpoint操作记录了redo点的位置。

带你认识数仓的增量备份核心设计_数仓_04

图4 Checkpoint操作示意图

(3)CBM设计

基于上述功能,由于数据的所有变化都被记录在了xlog中,Gauss数据库内核通过增加常驻的CBM writer线程,持续不断地对新增的xlog进行解析,识别并记录哪些数据数据页面被修改。CBM记录的生成过程如图5所示。

带你认识数仓的增量备份核心设计_数据文件_05

图5 CBM生成示意图

CBM writer线程的工作流程为:

  • 进程启动时即开启CBM writer功能
    在startup线程刚启动时,其根据已经解析出来的CBM文件,来决定CBM writer开始解析的起始LSN位置。每次执行到checkpoint末尾是,会设置CBM writer线程的latch。CBM writer线程等待latch被设置,然后进行一轮日志解析。
  • 通过动态reload GUC参数,开启CBM writer功能
    由于是动态开启的CBM writer功能,因此startup线程没有初始化CBM解析的起始位置。打开enable_cbm_writer开关的同时,会将CBM强制初始化的标志置为true。当CBM writer线程启动之后,其第一次解析中,会强制初始化获得解析的起始lsn。

(4)CBM文件的命名格式

CBM文件保存在data目录的pg_cbm文件夹下,命名方式为:pg_xlog_seqnum_startlsn_endlsn.cbm。如图6所示。

带你认识数仓的增量备份核心设计_增量备份_06

图6 CBM文件格式

  • seqnum文件序号表示这是第几个cbm文件,当一个cbm文件的大小超过100M时,将会切换到下一个cbm文件,并将seqnum加1。
  • startlsn为本cbm文件内容对应xlog记录的起始lsn;
  • endlsn为本cbm文件切换时最后一次解析的截止lsn,若一个cbm文件还没有切换,那么endlsn为0。

(5)CBM对外接口函数

a. pg_cbm_tracked_location

  • 说明:用于查询cbm已经解析到的lsn位置
  • 入参:无
  • 返回值:cbm已经解析到的lsn位置

b. pg_cbm_get_merged_file

  • 说明:用于将指定lsn范围之内的cbm文件合并成一个cbm文件
  • 入参:startlsn,指定的起始lsn;endlsn,指定的结束lsn
  • 返回值:合并完的cbm文件名

c. pg_cbm_get_changed_block

  • 说明:用于将指定lsn范围之内的cbm文件合并一个表,并返回表的各行记录
  • 入参:startlsn,指定的起始lsn;endlsn,指定的结束lsn
  • 返回值:合并完的表的记录,表的结构如下

带你认识数仓的增量备份核心设计_GaussDB_07

d. pg_cbm_recycle_file

  • 说明:删除不再使用的cbm文件
  • 入参:lsn,删除该lsn以前的cbm文件
  • 返回值:删除截止的lsn

3、CBM使用实践

(1)找到当前xlog的LSN位置,并将cbm的解析位置设置为该LSN的位置。

带你认识数仓的增量备份核心设计_数仓_08

图7 设置CBM解析起始位置

(2)插入数据后获取当前cbm解析位置。

带你认识数仓的增量备份核心设计_GaussDB_09

带你认识数仓的增量备份核心设计_GaussDB_10

图8 设置CBM解析终止位置

(3)根据插入后数据前后的CBM解析位置,获取变化的数据文件,获取相关信息。

带你认识数仓的增量备份核心设计_数据_11

带你认识数仓的增量备份核心设计_GaussDB_12

图9 获取变化数据文件

4、总结

增量备份是重要的常规备份策略,正确快速识别增量变化文件的相关信息对增量备份至关重要。作为增量备份的核心设计,事务日志和CBM相关功能为增量备份的快速高效进行提供了有力支撑,本文对CBM的相关设计进行了介绍,并利用CBM的对外接口演示了CBM的相关功能。


点击关注,第一时间了解华为云新鲜技术~

©著作权归作者所有:来自51CTO博客作者华为云开发者联盟的原创作品,如需转载,请与作者联系,否则将追究法律责任

postgresql-多极客编程

 瀚高数据库目录环境文档用途详细信息  环境系统平台:Linux x86-64 Red Hat Enterprise Linux 7版本:12 文档用途postgresql_anonymizer是对数据库中的个人识别信息或商业敏感数据进行屏蔽或替换的扩展。 详细信息1. 介绍postgresql_anonymizer是对数据库中的个人识别信息或商业敏感数据进行屏蔽或替换的扩展。该扩展使用标准sql

使用docker实现mysql主从同步-多极客编程

       本文是以最少步骤的安装,仅实现了在docker下mysql的主从同步 1. 创建Docker镜像        创建两个MySQL版本:5.7的镜像,一个容器名称为master,另一个为slaver。 docker run -d --name master -e MYSQL_ROOT_PASSWORD=root -p 3306:3306 mysql:5.7 docker run -d

第十七章《mysql数据库及sql语言简介》第2节:mysql数据库的下载、安装和配置-多极客编程

​MySQL数据库被广泛应用于各种行业软件,它开发了针对各种不同操作系统都开发了的版本。本节以Windows版本为例介绍MySQL数据库的下载、安装和配置。17.2.1MySQL的下载读者可以从MySQL官网下载MySQL数据库产品,官网地址是:​​https://dev.mysql.com​​。进入官网后可以看到如图17-1所示界面。​图17-1 MySQL官网​在图17-1所示的页面上单击“M

pglogical的安装配置-多极客编程

 瀚高数据库目录环境文档用途详细信息环境系统平台:Linux x86-64 Red Hat Enterprise Linux 7版本:14文档用途本文主要用于介绍pglogical的安装配置详细信息一、简介pglogical 2插件(后边简称pglogical)使用发布/订阅的模式为PostgreSQL提供了逻辑流复制的实现方式。pglogicla是基于BDR项目的一部分技术发展而来。我们一般使用

sql server——高可用技术概述-多极客编程

       自从SQL Server 2005以来,微软已经提供了多种高可用性技术来减少宕机时间和增加对业务数据的保护,而随着SQL Server 2008,SQL Server 2008 R2,SQL Server 2012的不断发布,SQL Server中已经存在了满足不同场景的多种高可用性技术。    在文章开始之前,我首先简单概述一下以什么来决定使用哪一种高可用性技术。依靠什么来决定使用

基于patroni的postgresql高可用实践-多极客编程

因环境有限,本文在一台机器上实现基于Patroni的PostgreSQL高可用服务测试。1、安装软件包[root@lee ~]# yum -y install https://mirrors.tuna.tsinghua.edu.cn/postgresql/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm[root@l

既然有mysql了,为什么还要有mongodb?-多极客编程

大家好,我是哪吒,最近项目在使用MongoDB作为图片和文档的存储数据库,为啥不直接存MySQL里,还要搭个MongoDB集群,麻不麻烦?让我们一起,一探究竟,了解一下MongoDB的特点和基本用法,​​实现快速入门,丰富个人简历,提高面试level,给自己增加一点谈资,秒变面试小达人,BAT不是梦​​。三分钟你将学会:MongoDB主要特征MongoDB优缺点,扬长避短何时选择MongoDB?为

pglogical的安装配置-多极客编程

 瀚高数据库目录环境文档用途详细信息环境系统平台:Linux x86-64 Red Hat Enterprise Linux 7版本:14文档用途本文主要用于介绍pglogical的安装配置详细信息一、简介pglogical 2插件(后边简称pglogical)使用发布/订阅的模式为PostgreSQL提供了逻辑流复制的实现方式。pglogicla是基于BDR项目的一部分技术发展而来。我们一般使用

docker 部署 oracle 19c-多极客编程

标签(空格分隔): Oracle 系列 一:系统环境介绍 操作系统: centos7.9x64 oracle19c 配置说明: 主机名: cat /etc/hosts ---- 172.16.10.11 flyfish11 172.16.10.12 flyfish12 172.16.10.13 flyfish13 172.16.10.14 flyfish14

聊聊mongodb中连接池、索引、事务-多极客编程

大家好,我是哪吒。三分钟你将学会:MongoDB连接池的使用方式与常用参数查询五步走,能活九十九?MongoDB索引与MySQL索引有何异同?MongoDB事务与ACID什么是聚合框架?在最开始接触MongoDB的时候,是通过 ​​MongoDatabase database = new MongoClient("localhost", 27017).getDatabase("test");​​