原文:《如何提高運維團隊的運維效率》

如何運行一個龐雜的機房,進行無數(shù)的主動和被動的操作,同時避免錯誤導(dǎo)致的數(shù)據(jù)中心故障?


1、以終為始

以終為始是一種以結(jié)果為導(dǎo)向的思維方式,提示人們在做事情前要先明確做事情的最終目的,也就是“不忘初心,方得始終”。數(shù)據(jù)中心的終極目標(biāo)是支持業(yè)務(wù)系統(tǒng)的不間斷運行。在接手一個數(shù)據(jù)中心的運維任務(wù)之前,我們首先需要明確業(yè)務(wù)連續(xù)性目標(biāo),然后才能制定相應(yīng)的運維策略。

2、以人為本

70%的數(shù)據(jù)中心故障是由人為造成的。與此同時,即使有最先進的監(jiān)控系統(tǒng),數(shù)據(jù)中心內(nèi)無論主動保養(yǎng)操作,還是應(yīng)急反應(yīng),都還需要依賴于人員的最終決策和操作。所以,配備足夠的人員、有責(zé)任心、經(jīng)驗豐富的人員、對于數(shù)據(jù)中心的安全運行至關(guān)重要。

3、培訓(xùn)與學(xué)習(xí)

學(xué)習(xí)是一種修煉。有一種說法“最好的運維團隊只不過是犯了足夠的錯誤就修煉出來的”。數(shù)據(jù)中心基礎(chǔ)設(shè)施牽涉到電力、暖通、弱電、消防、建筑等諸多專業(yè),對于數(shù)據(jù)中心運維團隊來說,需要學(xué)習(xí)的專業(yè)知識非常多。同時,每一個數(shù)據(jù)中心的配置和特定的操作流程都不完全相同。因此,培訓(xùn)與學(xué)習(xí)應(yīng)該成為運維團隊管理的一個重要組成部門。

4、建立管理體系

數(shù)據(jù)中心基礎(chǔ)設(shè)施的運維管理工作的管理對象包括整個龐大的基礎(chǔ)設(shè)施、運維團隊、服務(wù)對象(IT部門或者IDC客戶),是一項系統(tǒng)性很強的工作,需要建立起一個管理體系。在整個運維管理系統(tǒng)體系中最重要的三個方面是設(shè)備保養(yǎng)體系、與所有相關(guān)部門的溝通機制、以及支持整個數(shù)據(jù)中心生命周期管理的財務(wù)預(yù)算體系。

5、規(guī)范操作流程

任何規(guī)范化的企業(yè)管理,都不可避免地需要引入流程,數(shù)據(jù)中心運維管理也不例外。完全基于個人經(jīng)驗和判斷的操作,往往隱藏著重大的故障風(fēng)險。數(shù)據(jù)中心就是要強化流程管理。任何重要的操作,必須嚴格按照流程執(zhí)行。建立流程文化是數(shù)據(jù)中心規(guī)范化管理的一個重要環(huán)節(jié)。數(shù)據(jù)中心最重要的三類流程是標(biāo)準(zhǔn)操作流程(SOP),維護保養(yǎng)操作流程(MOP),和應(yīng)急相應(yīng)流程(EOP)。

6、動態(tài)管控

除了之前提到的管理體系和操作流程這些相對靜態(tài)的工作以外,數(shù)據(jù)中心還需要進行動態(tài)的管控。近幾年,IT負載的動態(tài)性表現(xiàn)得越來越明顯。一方面,IT設(shè)備的增加速度比較快。新的業(yè)務(wù)系統(tǒng)上線可能導(dǎo)致IT負載在短期內(nèi)有較大的增加。另一方面,企業(yè)大量采用虛擬化技術(shù)以后,可能會出現(xiàn)機房內(nèi)各機柜的IT負載在一天范圍內(nèi)有較大變化的情況。基礎(chǔ)設(shè)施運維團隊需要針對這種IT負載的動態(tài)性作出相應(yīng)的對策。

7、持續(xù)改善

大型數(shù)據(jù)中心的出現(xiàn)只是近幾年的事情。當(dāng)數(shù)據(jù)中心超過一定規(guī)模的時候,管理變得復(fù)雜,已經(jīng)超越原來簡單的依賴于少數(shù)運維人員的責(zé)任心的時代,需要的是完整的管理思想和方法論。國內(nèi)數(shù)據(jù)中心基礎(chǔ)設(shè)施運維體系的成熟度大致處于三個等級的狀態(tài):基礎(chǔ)級、成長級、文化級。

8、用運維管理工具

實踐已經(jīng)證明,用一個優(yōu)秀的運維管理系統(tǒng)可以大幅度的提升運維管理效率。可以自定義不同的運維流程和頁面字段,每一個流程可進行服務(wù)級別sal的設(shè)置。督促運維工程師解決故障。另外,運維經(jīng)理可以從PC或者移動端隨時關(guān)注運維流程的進程。一套運維管理工具包含有事件管理、問題管理、變更管理、發(fā)布管理、知識庫、配置管理、拓撲圖、巡檢、等功能,可以實現(xiàn)運維整體的安全、可控、高效的管理