原文:《基于ITIL的IT運維服務管理的實施》

一、引言  

隨著信息化應用水平的提高,公安交通管理業務對信息系統的依賴越來越大。如今,大部分城市從機動車、駕駛入管理、交通違法業務辦理、交通事故處理等面向公眾的業務,到公文流轉、工資管理、財務管理、協同工作等內部辦公,各個業務環節都已經采用信息系統協作辦公。隨著信息化程度不斷提高,計算機設備的數量越來越多、信息系統的規模越來越大、各系統之間關聯越來復雜,計算機信息系統發生故障所帶來的負面影響也越來越大。在難以通過不斷增加專業人員來維護和管理日益龐大的計算機系統的情況下,廣州交警支隊2001年開始嘗試計算機系統維護服務外包,但由于運維管理基礎薄弱、沒有維護服務外包管理經驗等原因,其效果不佳。因此,研究如何進行計算機系統運行維護管理和維護服務外包管理,有效提高故障處理速度,減少系統故障帶來的負面影響,使龐大的計算機系統在可監、可控、可管的狀態下運行,已經成為我們科技主管部門當前的重要任務。

二、信息技術基礎架構庫(ITIL)簡介

20世紀80年代,英國政府為了提升信息化設備和系統的運行效率,保障信息系統建康運行,有效進行服務外包管理,指定了當時的英國政府計算機與通信局,研究開發一種方法。用于指導全國政府部門如何高效、經濟地運營信息化設備和系統,結果產生了信息技術基礎架構庫(Information Technology Infrastructure Library-FILL),它收集了IT服務業內的最佳實踐。ITIL不是一套標準,而是供組織內部進行IT服務管理的參考經驗,是指導如何在運維管理中定義人員、流程、服務活動及其之間關系的指導框架。2003年開始,國內一些IT服務企業開始宣傳ITIL服務管理理念。

ITIL的框架包括業務管理、服務管理、IT基礎架構管理、安全管理、應用管理等,最核心的是服務管理中的服務支持和服務提供。IT服務供應商可能更多關注服務提供,而作為客戶的IT主管部門可能更關心服務支持。

服務支持主要包括:服務臺、故障管理、問題管理、配置管理、變更管理和發布管理等六個模塊。

(一)服務臺。服務臺是信息系統最終用戶與科技主管部門的聯絡點和報障臺,也是科技主管部門掌握系統運行情況,指揮技術人員進行故障處理等維護工作的平臺。服務臺的主要任務是登記報障記錄、指揮維護人員執行維護流程、監督維護過程,以及綜合協調解決維護出現的各種突發問題。

(二)故障管理。故障管理的主要任務是解決設備或者系統故障,并盡快恢復使之正常運行。

(三)問題管理。故障管理區別于問題管理,故障管理是要盡快恢復系統使之正常提供服務,而問題管理是要主動預防故障的發生,也就是人們常說的預防性維護。實際上,可以通過兩種途徑啟動問題管理流程,一種是通過故障統計分析,發現常見故障,然后歸結為“問題”,啟動問題管理流程,另一種是通過建立系統巡檢制度,主動發現“問題”,在尚未形成“故障”時解決“問題”。

(四)配置管理。配置管理主要是收集和存儲單位內部的所有軟、硬件設備的各種信息,供其它流程使用。這些配置管理信息包括設備編碼、類別、品牌、型號、配置、單位、放置位置、使用人、管理人、聯系電話、供應商、保修期限、供應商維修電話等等。這些信息存放到配置管理數據庫(Configure Management Data Base·CMDB)

(五)變更管理。如果要對單位內部的設備、系統進行增、刪、改等時,需要進行審批和控制,這就是變更管理。通過變更管理,能夠對變更進行影響評估,確保變更對正在運行的系統產生最小的負面影響,同時通過變更審批流程進行溝通和協調,確保有關人員都知道這個變更以及所帶來的影響,保證變更具有可追溯性。變更管理與配置管理、問題管理密切關聯,應互相協調。

(六)發布管理。發布管理的主要任務是確保首次進入一個單位的軟、硬件設備運用到本單位的系統中獲得成功。最簡單的例子,就是我們從網上下載了Windows XP的SP2補丁程序后,首先要在各個業務系統用的電腦上進行測試,觀察打了補丁后的業務用電腦有無出現異常?;蛘?,新采購的打印機,要用于車管業務系統,首先要測試它能夠打印成功。其實,發布管理與配置管理、變更管理聯系更密切,變更的實施,很多時候是通過發布管理活動進行的。

三、廣州交警IT運維服務管理實踐

通過對以上六個ITIL服務支持模塊的理解,我們認為六個模塊中配置管理是基礎,其次是服務臺、故障管理、變更管理,最后是問題管理和發布管理。結合廣州交警IT運維服務的實際情況,我們提出了廣州交警IT運維服務管理的構思。

(一)建立配置管理數據庫。配置管理數據庫(CMDB)是關于所有信息設備和軟件的信息,它是我們進行運維管理的基礎。建立CMDB,首先要進行設備、系統的普查、建檔、標簽化,然后整理入庫,最后還要調整流程,使各個環節工作能夠及時更新CMDB。

(二)研究制定六個模塊的管理流程,特別是理清這六個模式之間的關聯關系。深刻理解這六個模塊的含義和流程,以及如何將這些流程切實落實到我們的管理工作,是十分關鍵的,否則制定流程將會成為擺設,實施不了或者堅持不下去。

(三)研究制定多張控制表單,用于控制、監督流程的嚴格執行,同時用于規范維護人員行為,這是十分重要的工作??刂票韱螒摼哂泻啙?、可行,布局合理、信息齊全等特點。制定控制表單體系,應充分體現流程之間的關聯性。

(四)首先采用手工方式,執行這些流程和反映流程的表單,發現問題不斷完善,不斷改進這些流程和表單。經過手工階段,驗證了表單的實用性。然后研究開發運維管理系統軟件,作為管理工具之一,進一步規范最終用戶的報障、評價等行為,便于通過管理系統(網站)監督每一宗故障處理的環節、所花時間,便于科技主管部門處理各下屬單位的投訴(有日志可追溯),判斷過錯責任,也可避免一些無理投訴,使科技主管部門有效地抓住了工作主動權。

運維管理最重要是落實。實踐中,我們制定了許多措施,在實際操作中起到十分重要的作用。

(一)對服務外包公司建立服務評價方法。在發布招標文件、簽定合同書階段就明確提出服務評價方法,并且啟用了經濟杠桿,考核評價得分與合同支付(經濟利益)掛鉤,加強了科技主管部門對于服務提供商的監督、管理和控制力度,使服務提供商更加積極、主動采取有效措施提高服務水平和故障處理效率。

(二)建立有效監督機制,保證維護工作不出現漏洞。在分析運維管理的各個環節時,還要對照管理環的各個環節檢查是否存在管理漏洞。在項目管理或者服務管理中,都有計劃(啟動)、執行、監督(控制、反饋)、關閉(總結、提升)四個環節。他們之間的關系如圖2所示。其中,監督、控制、反饋是不可缺少的環節,維護服務的執行需要考核、監督才能更加有效,也需要通過控制才能決定其能夠進入關閉狀態(即服務項目的驗收),通過反饋重新制定計劃或者修訂計劃,再改變計劃來影響執行效果。

(三)建立了系統巡檢體系,主動預防、及早發現系統存在的隱患,并啟用問題管理流程消除之。問題管理流程的啟動條件,除了定期不定期進行故障統計分析外,還有主動出擊,主動通過系統巡檢發現系統隱患,然后通過問題管理跟蹤表,啟動問題管理流程,以及后續的變更管理等,首先由維護人員甚至服務提供商、設備原廠商的二線、三線人員提出建議方案,然后進入變更評估和審批環節,方案批準后執行,并啟動配置管理,更新配置管理數據庫,最后由用戶考核、評價,執行監督環節后同意關閉。

四、結束語

實施運維服務管理,提高了設備和系統維護效率和平均無故障時間,大大解放了技術力量、落實了維護責任和安全責任,提升了科技部門的服務能力和服務水平。同時,科技部門能夠主動、全面地掌握所有設備的分布、運行狀況,有利于科學決策。

持續地提升服務管理水平,不斷提高各業務部門對科技部門工作的滿意度,是實施運維管理的重要目標。我們除了進一步完善運維管理體系外,還要不斷研究服務管理的規律,更加系統性地提高服務管理水平。