应用实践-数据高级保护方案
常见数据备份与保护方式
在现在的 IT 环境中,大部分的企业组织都构建了自己的数据保护系统(措施),从低级的通过脚本复制数据到最高级的实现数据双活的两地三中心大型体系建设。然而不同的技术运用对数据保护和激活效果均有所不同,以下列举了不同技术在数据保护及激活中的定位。
双机热备技术: 双机热备特指基于 active/standby 方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器执行写操作,或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过软件诊测(一般是通过心跳诊断)将 standby 机器激活,保证应用在短时间内完全恢复正常使用。双机热备技术并没有提供了多种数据副本的能力,因此在面对逻辑错误及人为错误时是无法有效的恢复业务。
超融合基础架构: 超融合基础架构(Hyper Converged Infrastructure,或简称“HCI”)是指在同一套单元设备中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括备份软件、快照技术、重复数据删除、在线数据压缩等元素,而多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(scale-out),形成统一的资源池。
超融合在本地很容易实现:将计算、网络和存储都集成在一个设备内,并且通过它由供应商预先配置好且差不多到手就可以使用。HCI 是实现“软件定义数据中心”(SDDC)的终极技术途径。HCI 类似 Google、Facebook 后台的大规模基础架构模式,可以为数据中心带来最优的效率、灵活性、规模、成本和数据保护。超融合基础架构在数据保护中更多的是体现了业务的高可用,在硬件出现故障时能保证业务的连续性,而并非提供多种版本的数据进行恢复。
数据复制技术(CDM): 数据复制技术是指从生产环境通过快照技术获取有应用一致性保证的数据,在非生产存储上生成“黄金副本”,这个“黄金副本”数据格式是原始的磁盘格式,可再虚拟化成多个副本直接挂载给服务器,分别用于备份恢复、容灾或开发测试等场景,但是数据副本并没有提供基于数据激活(交付)的能力,在很多数据副本激活场景中仍然需要使用其他的辅助工具实现数据激活。
备份工具及 CDP: 高级的备份工具及 CDP 可以提供持续的数据备份能力,是基于存储设备或者卷管理工具的 I/O 信息和数据包实现的,提供了多个基于不同时间的数据副本。但是,由于基于 I/O 数据变化通常数据是归档性的,运维人员无法快速的挂载、读取,甚至快速的接管业务。其次,验证备份集的能力通常都比较弱,也就是说数据的一致性并无法通过一般的方式进行验证。
存储双活技术: 基于磁盘阵列层的复制,磁盘阵列厂商的复制技术,其原理与逻辑卷层的相似,属于非主机型的复制。但与硬件绑定,成本高昂,实施复杂。基于磁盘阵列层的复制不能完全保障数据库一致性,目标数据库处于脱机状态。当生产数据库发生故障时,需要启动数据库才能恢复业务,正是由于不能保障数据库一致性,很可能数据库不能正常启动。尽管存在这样的缺陷,但这一层的复制对主机的影响极其轻微,所以还是可应用在一些非常大型、繁忙的数据库容灾,作为一种补充保护手段。
数据架构双活: 基于应用层事务的复制,一般采用采用异步复制机制,复制对象为应用事务,其过程为:捕获应用系统的事务,例如 SQLServer 或 Oracle 数据库的事务,经由传输组件传输到目标服务器,然后目标装载进程按照数据库的关系原理排序事务,将事务保存到目标数据库。这层的复制完全能保障数据库的一致性,且目标数据库处于在线运行状态。当生产数据库发生故障时,直接使用目标数据库即可恢复业务,容灾的 RTO 指标趋于零。但是支持的应用有限,一般为 SQLServer、 Oracle、Sybase、DB2、MySQL 等等数据库。另外复制速度较慢,因为数据要通过数据库的装载接口才能写入数据库。
应用架构双活、网络双活、两地三种中心技术: 两地三中心是指生产中心、灾备准生产中心、备份中心,然而两地三中心的建设通常会使用应用双活架构、网络双活架构、多元的数据复制和恢复技术,耗费巨资分阶段建设。其建设的意义并非数据保护层次,而是为了应对更复杂的灾难和更高级别的行业业务要求。
DCM 数据云化管理平台: 基于数据库级别实时备份激活技术(RBA)与增强型副本管理技术(UCDM),提供数据保护/业务连续性/数据库副本服务的一体化解决方案。解决传统备份的低可靠性与非实时性问题、传统容灾的低性价比问题、大型数据库副本管理耗时耗力耗成本问题、多种类/多数量/多数据量的数据库管理混乱问题。
CDM与BDA对比分析
- 备份速度快,不关注数据类型,实时传输;
- 恢复速度快,直接通过光纤传输;
- 主要用于同城容灾;
- 增加SVC设备,改变生产IO流,IO挂起隐患;
- 投资回报率低(投资、维护)
- 数据库无法打开或不一致隐患(例如飞康)
- 无法实现软件定义数据;
- 存储空间1:1
- 不改变生产库IO流;
- 从数据库层,通过image copy保存原文件;
- 可模拟iscsi设备,通过光纤传输,速度较快;
- 数据库不存在一致性风险
- 需要生产库root权限,并频繁mount/umount stage disk, 源端存在crash风险;(某银行)
- 无法实现实时数据传输,数据延迟15分钟以上;
- 无法实现软件定义数据
- 存储空间1:1
- 不改变生产库IO流;
- 从数据库层,通过标准备份接口压缩传输保存原文件;存储空间4:1(压缩存储);
- 数据库不存在一致性风险;
- 不要求源端root权限,不需要任何挂载目录
- 数据延迟1秒以内;挂载数据实时更新
- 完整的软件定义数据平台;
- 备份和恢复速度不如A快,但比B快4倍以上;
DCM数据保护核心功能
A、数据实时备份 RBA 与副本管理 UCDM
DCM 平台采用独有的实时数据抓取及增量合成技术 RBA,以秒级快速的获取数据库数据,同时在副本镜像管理中采用了独有的 UCDM 技术,在数据库出现问题时可以选择任意时间点进行版本的恢复,最细颗粒度的数据副本及高速的备份及恢复。
备份任务管理页面,查看备份的详细信息和管理备份任任务
物理恢复,将备份数据恢复到本地磁盘
B、数据库应急接管
数据挂载:将备份后的数据文件以 NFS 技术,挂载到目标端服务器
灾备演练:定时加载源端日子的数据库
C、可验证的数据副本
DCM 采用数据库级物理备份确保数据一致性,采用即时挂载验证数据库可恢复性,采用当前+归档日志保障数据同步的实时性
DCM数据保护方案价值
A、接近实时的备份和即时的恢复
整个系统可实现秒级的业务服务器整机备份,所有服务器的操作系统、应用和数据集中实时备份到平台的设备中,按照时间点生成可快速恢复的快照,快照的最小时间间隔为1秒,其中业务主机快照间隔为5分钟,数据库合成复制间隔1秒。恢复数据时采用网络挂载的方式,将备份数据直接映射给源服务器使用。不需要实际的数据传输,可直接对备份数据进行读写。当业务不忙时,再将数据恢复到本地磁盘。不论是因此硬件故障还是逻辑错误造成的数据丢失,都可以在几分钟之内快速恢复数据。
B、数据库分钟级接管
对核心的数据库,数据管理平台提供了快速挂载回切的技术,一旦发生数据灾难,数据服务停止时,可利用快速挂载预部署技术,用虚拟备库接管生产主库。虚拟备库与主库保持一致配置,数据也保持一致。接管无须手动干预,待主库修复后,再回切主库。
C、即时灾备演练
传统的数据和业务保护产品如果想验证数据和业务的保护效果,需要创建大量测试环境进行灾备演练。需要消耗大量人力、物力。使灾备演练不能常态化、方便进行。业务应急与运维支撑独有的备份容灾技术和虚拟化技术合二为一的技术架构。可实现备份即恢复的目标。备份数据随时可通过虚拟化技术即时完成离线数据到在线数据的转换。实现即时灾备演练。无需准备任何测试环境,不需要恢复数据,直接启用备份数据就可以进行灾备演练。使用灾备演练可轻松完成。随时可以进行。
D、 简化的两中心云备库架构
方案整个体设计考虑到了跨机柜容灾及云端数据副本的需求,并规划了灾备准生产中心(区域/机柜),并提供了 D2D2C 的备份工作流程。在不同的区域采用不同的同步策略,进而实现了简单而实用的两中心云备库的基础架构,为后续的容灾结构调整提供了基础条件。
E、 应急技术服务
除了整体解决方案的设计实施外,我们还可以提供更多的基于业务应急容灾的技术服务,在本方案中,我们将协助客户制定容灾演习计划,实施容灾桌面演练,并参与、协助和指导真实容灾演习。
数据传输性能
存储使用率
数据副本压缩效率
数据投入成本
数据业务消重性
RTO < 8分钟
RPO < 5分钟
数据投入成本
、