原文:《數據中心的運維管理原則》

數據中心的運維管理原則

現在的數據中心少則幾百個機柜,多則成百上千,甚至上萬個機柜。面對如此大規模的數據中心,如何利用現有的設備和技術手段,在向客戶提供滿意的服務質量的同時,將數據中心自身的運維成本降至最低,乃至實現自身運營的利潤最大化。正所謂三分技術,七分管理,評判一個數據中心的優劣,不僅僅在于其采用了先進技術水平,亦或是聘用了多少行業的技術專家,更多的在于其整體的管理水平,合理地配置企業資源和人力資源。

數據中心在投入運營之前,首先需要解決的是基礎設施的運維工作,而人又是機房運維管理的核心力量,所以重點是機房運維人員的管理制度。

 

(一)運維團隊管理

機房運維人員是最接近生產設備的技術人員,在設備運行故障時,要求其沉著冷靜地第一時間趕赴現場查看故障信息,并分析故障原因,做到及時向領導匯報,因此一線運維人員必須經過嚴格的制度培訓和技術培訓,考核合格后方可上崗。另外,涉及設備操作動作,如電氣設備,必須持低壓電工和高壓電工作業證等,做到有證上崗,并且不得單獨承擔值班工作和相關的獨立操作行為。在日常值班過程中,為了保證機房運維管理的工作質量和運維團隊的管理水平,需要針對不同的運維工作開展專項運維培訓,以及相關的應急演練,培養一支技術扎實、具備實際操作能力的運維團隊。

 

(二)值班管理

機房運維過程中,要求值班人員具有認真、負責的工作態度和積極樂觀向上的工作激情,嚴格按照值班手冊執行、堅守崗位職責:加強機房巡視、對設備運行狀態(機房溫、濕度,電力運行)了然于胸,以及監視設備監控系統的運行狀態,并按規定及時上報,并在交接班時主動向接班人員口頭交接值班過程中遺留問題和注意事項。另外,值班人員必須認真、如實、詳細地填寫機房設備巡視記錄、設備監控系統運行狀態和值班過程中的交接表制作,并及時上傳工作原地,方便其他運維人員查閱。

 

(三)日常運維工作安排

值班期間,每個班組根據自身的運維內容制定運維計劃以及組內成員責任劃分,如接班前主動詢問上個班組有無遺留問題、并查看交接班表中的注意事項、機房巡視安排等等。另外,值班人員根據自己負責的運維設備,需制定月度或季度乃至年度計劃安排。如,柴油發電機作為數據中心的后備電源,除了正常每月的健康檢查外,還需要額外增加兩次帶載演練(注:演練時間除了滿足避開業務高峰期外,還需要避開用電高峰期的夏季和冬季,以免因為帶載過重發電機故障而此時市電出現波動等突發事件),以保證在市電不可用時,發電機能夠保證數據中心的正常運營。當然,運維人員日常運維過程中,所有的設備操作必須滿足雙人操作,并形成詳細地操作步驟,以文檔形式記錄下來。設備運行期間難免會出現故障,故障在第一時間得到解決后,也應該及時做好故障設備清單、備件以及故障原因和解決方案的記錄,提高整個運維團隊的后期運維經驗。

最后,運維主管應該定期或不定期的抽查運維人員對中心運維制度執行和技術熟悉程度,并納入運維人員季度和年度的績效考核,提高整個運維團隊的運維水平。除此之外,運維主管應該根據日常運維數據報表,做到橫向和縱向的分析比對,如根據月度設備故障率,對重點設備著重關注,將潛在的故障風險消除在搖籃中,另一方面重點提高運維人員在該方面的故障解決能力,提高運維工作效率,嚴格把控運維工作質量。