原文:《運維技術管理:容災與備份之區(qū)別》

1.容災備份的區(qū)別

容災 (Disaster Tolerance):就是在上述的災難發(fā)生時,在保證生產系統(tǒng)的數據盡量少丟失的情況下,保持生存系統(tǒng)的業(yè)務不間斷地運行。

容錯 (Fault Tolerance):指在計算機系統(tǒng)的軟件、硬件發(fā)生故障時,保證計算機系統(tǒng)中仍能工作的能力。

區(qū)別 :容錯可以通過硬件冗余、錯誤檢查和熱交換 再加上特殊的軟件來實現,而容災必須通過系統(tǒng)冗余、災難檢測和系統(tǒng)遷移等技術來實現。當設備故障不能通過容錯機制解決而導致系統(tǒng)宕機時,這種故障的解決就屬于容災的范疇。

什么是災難恢復 (Disaster Recovery):指的是在災難發(fā)生后,將系統(tǒng)恢復到正常運作的能力。

區(qū)別 :容災強調的是在災難發(fā)生時,保證系統(tǒng)業(yè)務持續(xù)不 間斷地運行的能力,而災難恢復強調的災難之后,系統(tǒng)的恢復能力?,F在的容災系統(tǒng)都包含著災難恢復的功能,所以本文的討論除了包括容災方面的內容,還包括了 災難恢復的部分內容。

容災系統(tǒng)在企業(yè)中給與數據安全系數相當高的保障,但是容災系統(tǒng)倒是是什么,他們是什么意思?恐怕連正在使用容災備份的網絡管理人員都不能解釋。本文用最淺顯的語言給大家解釋容災備份到底是什么。

2.容災和備份的目的不同

容災系統(tǒng)的目的在于保證系統(tǒng)數據和服務的“在線性”,即當系統(tǒng)發(fā)生故障時,仍然能夠正常地向網絡系統(tǒng)提供數據和服務,以使系統(tǒng)不致停頓。

而容災備份技術的目的與此并不相同,備份是“將在線數據轉移成離線數據的過程”,其目的在于應付系統(tǒng)數據中的邏輯錯誤和歷史數據保存。

所以,在各種容錯技術非常豐富的今天,備份系統(tǒng)仍然是不可替代的。

3.備份是基石

備份是指為防止系統(tǒng)出現操作失誤或系統(tǒng)故障導致數據丟失,而將全系統(tǒng)或部分數據集合從應用主機的硬盤或陣列復制到其它的存儲介質的過程。

備份是數據高可用的最后一道防線,其目的是為了系統(tǒng)數據崩潰時能夠恢復數據。

4.容災不可少

那么建設了備份系統(tǒng),是否就不需要容災備份系統(tǒng)?這還要看業(yè)務部門對RTO(恢復所需的時間指標)/RPO(能夠恢復到的最新狀態(tài))指標的 期望值,如果允許1TB的數據庫RTO=8小時,RPO=1天,那備份系統(tǒng)就能滿足要求。同時,備份的目的在于應付系統(tǒng)數據中的邏輯錯誤和歷史數據保存。只能夠滿足數據丟失、數據破壞時的數據恢復目的,而不能提供實時的業(yè)務接管功能。

因此容災系統(tǒng)對于某些關鍵業(yè)務而言也是必不可少的。人們談及容災備份往往是針對當生產系統(tǒng),不能正常工作時,其業(yè)務可由容災系統(tǒng)接替這些業(yè)務,繼續(xù)進行正常的工作。

能夠提供很好的RTO和RPO指標。同時遠程容災系統(tǒng)具備應付各種災難,特別是區(qū)域性與毀滅性災難的能力,具備較為完善的數據保護與災難恢復功能,保證災難降臨時數據的完整性及業(yè)務的連續(xù)性,并在最短時間內恢復業(yè)務系統(tǒng)的正常運行,將損失降到最小。

5.容災不能替換備份

容災系統(tǒng)會完整地把生產系統(tǒng)的任何變化復制到容災端去,包括不想讓它復制的工作,比如不小心把計費系統(tǒng)內的用戶信息表刪除了,同時容災端的 用戶信息表也會被完整地刪除。如果是同步容災,那容災端同時就刪除了;如果是異步容災,那容災端在數據異步復制的間隔內就會被刪除。這時就需要從備份系統(tǒng) 中取出最新備份,來恢復被錯誤刪除的信息。因此容災系統(tǒng)的建設不能替代備份系統(tǒng)的建設。

6.規(guī)劃企業(yè)安全保障體系考慮的因素

對于企業(yè)而言到底應該如何建設自己的災備系統(tǒng),是只建設備份系統(tǒng)、還是只建設容災系統(tǒng)、還是需要二者同時建設、或者是分步驟的建設,誰先誰后等問題,主要根據業(yè)務的需求而定:

(1)需要防范的災難類型:

企業(yè)信息系統(tǒng)可能遇到的災難類型及其發(fā)生的比例如下:

對于“人為錯誤”、“軟件損壞和程序錯誤”加上“病毒”等這些都稱為邏輯錯誤,占總故障的 56%,這些錯誤只能通過備份系統(tǒng)才能防范;

對于“硬件和系統(tǒng)故障”以及“自然災難”等故障可以通過在容災系統(tǒng)(或者異地備份)來防范,占總故障率的44%。

(2)允許的RTO和RPO指標

從技術上看,衡量容災系統(tǒng)有兩個主要指標:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了當災難發(fā)生時允許丟失的數據量;而RTO則代表了系統(tǒng)恢復的時間。

一般而言:容災系統(tǒng)能夠提供較好的RTO和RPO指標。

圖片

圖片

(3)系統(tǒng)投資

總的說來,建設備份系統(tǒng)的投資遠比建設標準意義的容災系統(tǒng)的投資小得多:

備份系統(tǒng)的投資規(guī)模一般在幾百萬;

而最節(jié)省的一套容災系統(tǒng)投資都將上千萬;

災難恢復與投資關系:

圖片

7.常用的災備組合方式

基于以上原因,業(yè)界在災備系統(tǒng)的建設上一般按照以下幾種方式:

  • 建設機房內的本地備份系統(tǒng)

  • 建設異地的備份系統(tǒng)

該方式可以備份系統(tǒng)的價格滿足備份和異地容災功能,能夠避免主生產中心由于地震、火災或其他災害造成的數據丟失。

  • 備份系統(tǒng)+異地容災系統(tǒng)

這是一個較為理想化的容災系統(tǒng)一體化解決方案,能夠在很大程度上避免各種可能的錯誤。