容錯(cuò) (Fault Tolerance):指在計(jì)算機(jī)系統(tǒng)的軟件、硬件發(fā)生故障時(shí),保證計(jì)算機(jī)系統(tǒng)中仍能工作的能力。
區(qū)別 :容錯(cuò)可以通過(guò)硬件冗余、錯(cuò)誤檢查和熱交換 再加上特殊的軟件來(lái)實(shí)現(xiàn),而容災(zāi)必須通過(guò)系統(tǒng)冗余、災(zāi)難檢測(cè)和系統(tǒng)遷移等技術(shù)來(lái)實(shí)現(xiàn)。當(dāng)設(shè)備故障不能通過(guò)容錯(cuò)機(jī)制解決而導(dǎo)致系統(tǒng)宕機(jī)時(shí),這種故障的解決就屬于容災(zāi)的范疇。
什么是災(zāi)難恢復(fù) (Disaster Recovery):指的是在災(zāi)難發(fā)生后,將系統(tǒng)恢復(fù)到正常運(yùn)作的能力。
區(qū)別 :容災(zāi)強(qiáng)調(diào)的是在災(zāi)難發(fā)生時(shí),保證系統(tǒng)業(yè)務(wù)持續(xù)不 間斷地運(yùn)行的能力,而災(zāi)難恢復(fù)強(qiáng)調(diào)的災(zāi)難之后,系統(tǒng)的恢復(fù)能力。現(xiàn)在的容災(zāi)系統(tǒng)都包含著災(zāi)難恢復(fù)的功能,所以本文的討論除了包括容災(zāi)方面的內(nèi)容,還包括了 災(zāi)難恢復(fù)的部分內(nèi)容。
容災(zāi)系統(tǒng)在企業(yè)中給與數(shù)據(jù)安全系數(shù)相當(dāng)高的保障,但是容災(zāi)系統(tǒng)倒是是什么,他們是什么意思?恐怕連正在使用容災(zāi)備份的網(wǎng)絡(luò)管理人員都不能解釋。本文用最淺顯的語(yǔ)言給大家解釋容災(zāi)備份到底是什么。
2.容災(zāi)和備份的目的不同
容災(zāi)系統(tǒng)的目的在于保證系統(tǒng)數(shù)據(jù)和服務(wù)的“在線性”,即當(dāng)系統(tǒng)發(fā)生故障時(shí),仍然能夠正常地向網(wǎng)絡(luò)系統(tǒng)提供數(shù)據(jù)和服務(wù),以使系統(tǒng)不致停頓。
而容災(zāi)備份技術(shù)的目的與此并不相同,備份是“將在線數(shù)據(jù)轉(zhuǎn)移成離線數(shù)據(jù)的過(guò)程”,其目的在于應(yīng)付系統(tǒng)數(shù)據(jù)中的邏輯錯(cuò)誤和歷史數(shù)據(jù)保存。
所以,在各種容錯(cuò)技術(shù)非常豐富的今天,備份系統(tǒng)仍然是不可替代的。
3.備份是基石
備份是指為防止系統(tǒng)出現(xiàn)操作失誤或系統(tǒng)故障導(dǎo)致數(shù)據(jù)丟失,而將全系統(tǒng)或部分?jǐn)?shù)據(jù)集合從應(yīng)用主機(jī)的硬盤(pán)或陣列復(fù)制到其它的存儲(chǔ)介質(zhì)的過(guò)程。
備份是數(shù)據(jù)高可用的最后一道防線,其目的是為了系統(tǒng)數(shù)據(jù)崩潰時(shí)能夠恢復(fù)數(shù)據(jù)。
4.容災(zāi)不可少
那么建設(shè)了備份系統(tǒng),是否就不需要容災(zāi)備份系統(tǒng)?這還要看業(yè)務(wù)部門(mén)對(duì)RTO(恢復(fù)所需的時(shí)間指標(biāo))/RPO(能夠恢復(fù)到的最新?tīng)顟B(tài))指標(biāo)的 期望值,如果允許1TB的數(shù)據(jù)庫(kù)RTO=8小時(shí),RPO=1天,那備份系統(tǒng)就能滿(mǎn)足要求。同時(shí),備份的目的在于應(yīng)付系統(tǒng)數(shù)據(jù)中的邏輯錯(cuò)誤和歷史數(shù)據(jù)保存。只能夠滿(mǎn)足數(shù)據(jù)丟失、數(shù)據(jù)破壞時(shí)的數(shù)據(jù)恢復(fù)目的,而不能提供實(shí)時(shí)的業(yè)務(wù)接管功能。
因此容災(zāi)系統(tǒng)對(duì)于某些關(guān)鍵業(yè)務(wù)而言也是必不可少的。人們談及容災(zāi)備份往往是針對(duì)當(dāng)生產(chǎn)系統(tǒng),不能正常工作時(shí),其業(yè)務(wù)可由容災(zāi)系統(tǒng)接替這些業(yè)務(wù),繼續(xù)進(jìn)行正常的工作。
能夠提供很好的RTO和RPO指標(biāo)。同時(shí)遠(yuǎn)程容災(zāi)系統(tǒng)具備應(yīng)付各種災(zāi)難,特別是區(qū)域性與毀滅性災(zāi)難的能力,具備較為完善的數(shù)據(jù)保護(hù)與災(zāi)難恢復(fù)功能,保證災(zāi)難降臨時(shí)數(shù)據(jù)的完整性及業(yè)務(wù)的連續(xù)性,并在最短時(shí)間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng)的正常運(yùn)行,將損失降到最小。
5.容災(zāi)不能替換備份
容災(zāi)系統(tǒng)會(huì)完整地把生產(chǎn)系統(tǒng)的任何變化復(fù)制到容災(zāi)端去,包括不想讓它復(fù)制的工作,比如不小心把計(jì)費(fèi)系統(tǒng)內(nèi)的用戶(hù)信息表刪除了,同時(shí)容災(zāi)端的 用戶(hù)信息表也會(huì)被完整地刪除。如果是同步容災(zāi),那容災(zāi)端同時(shí)就刪除了;如果是異步容災(zāi),那容災(zāi)端在數(shù)據(jù)異步復(fù)制的間隔內(nèi)就會(huì)被刪除。這時(shí)就需要從備份系統(tǒng) 中取出最新備份,來(lái)恢復(fù)被錯(cuò)誤刪除的信息。因此容災(zāi)系統(tǒng)的建設(shè)不能替代備份系統(tǒng)的建設(shè)。
6.規(guī)劃企業(yè)安全保障體系考慮的因素
對(duì)于企業(yè)而言到底應(yīng)該如何建設(shè)自己的災(zāi)備系統(tǒng),是只建設(shè)備份系統(tǒng)、還是只建設(shè)容災(zāi)系統(tǒng)、還是需要二者同時(shí)建設(shè)、或者是分步驟的建設(shè),誰(shuí)先誰(shuí)后等問(wèn)題,主要根據(jù)業(yè)務(wù)的需求而定:
(1)需要防范的災(zāi)難類(lèi)型:
企業(yè)信息系統(tǒng)可能遇到的災(zāi)難類(lèi)型及其發(fā)生的比例如下:
對(duì)于“人為錯(cuò)誤”、“軟件損壞和程序錯(cuò)誤”加上“病毒”等這些都稱(chēng)為邏輯錯(cuò)誤,占總故障的 56%,這些錯(cuò)誤只能通過(guò)備份系統(tǒng)才能防范;
對(duì)于“硬件和系統(tǒng)故障”以及“自然災(zāi)難”等故障可以通過(guò)在容災(zāi)系統(tǒng)(或者異地備份)來(lái)防范,占總故障率的44%。
(2)允許的RTO和RPO指標(biāo)
從技術(shù)上看,衡量容災(zāi)系統(tǒng)有兩個(gè)主要指標(biāo):RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了當(dāng)災(zāi)難發(fā)生時(shí)允許丟失的數(shù)據(jù)量;而RTO則代表了系統(tǒng)恢復(fù)的時(shí)間。
一般而言:容災(zāi)系統(tǒng)能夠提供較好的RTO和RPO指標(biāo)。
(3)系統(tǒng)投資
總的說(shuō)來(lái),建設(shè)備份系統(tǒng)的投資遠(yuǎn)比建設(shè)標(biāo)準(zhǔn)意義的容災(zāi)系統(tǒng)的投資小得多:
備份系統(tǒng)的投資規(guī)模一般在幾百萬(wàn);
而最節(jié)省的一套容災(zāi)系統(tǒng)投資都將上千萬(wàn);
災(zāi)難恢復(fù)與投資關(guān)系:
7.常用的災(zāi)備組合方式
基于以上原因,業(yè)界在災(zāi)備系統(tǒng)的建設(shè)上一般按照以下幾種方式:
建設(shè)機(jī)房?jī)?nèi)的本地備份系統(tǒng)
建設(shè)異地的備份系統(tǒng)
該方式可以備份系統(tǒng)的價(jià)格滿(mǎn)足備份和異地容災(zāi)功能,能夠避免主生產(chǎn)中心由于地震、火災(zāi)或其他災(zāi)害造成的數(shù)據(jù)丟失。
備份系統(tǒng)+異地容災(zāi)系統(tǒng)
這是一個(gè)較為理想化的容災(zāi)系統(tǒng)一體化解決方案,能夠在很大程度上避免各種可能的錯(cuò)誤。