原文:《ITSM/ITIL問題管理與做好應用運維的關系》

ITSM/ITIL有一個非常重要而且和日常運維關系非常非常密切,但是在我們實踐中往往用不好就是問題管理。從我這么多年的實踐中確實是這樣,發現用的好的,往往是和應用運維和開發關系結合的非常密切。在桌面服務、應用運維、基礎架構和基礎設施運維幾塊運維工作來看,應用運維在用好問題管理,是有很多工作可以做的,也是最容易發揮價值的一塊,也是實施ITSM的難點之一,做好了應用運維的問題管理也就做好了問題管理,會是項目的亮點之一,因為它有四個非常重要的價值。

問題管理流程是確定某一事件或具有相同癥狀的一組事件的根本原因,制定和實施解決方案,從而防止事件再次發生的管理流程。其目的是找出事件根本原因,盡可能的給出解決方案或者臨時應對措施。目標是降低生產環境中事件發生的數量和嚴重程度,從而為企業建立一個穩定的 IT 環境,提高 IT 服務的可用性。這里涉及到二個核心的概念:問題和已知錯誤。

問題(Problem):多個有相同現象的事件或一個重大的事件,并且存在某個未知原因的錯誤的情況。

已知錯誤(Known Error):已經成功診斷問題的根源,找到解決方案的情況。

一個問題有幾個觸發條件,或者說有哪幾個應用場景呢?有以下幾個:

(1)同一個事件反復發生。這就意味著之前的事件的解決可能只是臨時解決,沒有找到根本原因、解決方案。

(2)同一個現象多次發生。這類就是可能是同一個系統、同一類設備,其現象相同或者相似。

(3)重大事件發生。這類往往對業務產生了重大影響,這類事件可能在事件中已經臨時、應急處理了,需要通過問題管理追查發生的根本原因和解決方案。也有可能從根本上從技術層面根本上解決了,但是要從流程、制度、管理上去找原因,為什么不可以避免。

(4)一切由臨時解決方案解決的事件。比如說“萬能的重啟”解決的事件、直接修改異常數據解決的事件等等。

(5)因為巡檢等發現的未知根本原因的潛在問題和重大風險。這類可以直接觸發問題去解決,已經發生的故障的,應該通過事件首先處理。

運維服務的工作,大致上可以分為桌面服務、應用運維、基礎架構運維和基礎設施運維等。這幾塊容易把問題用好的是桌面服務和應用運維。對于基礎架構和基礎設施,我的建議是一個重大事件、一個是巡檢做好,作為問題的兩個輸入即可,這個其實比較好落地,但是在問題管理中應用不是主流。如果是就太麻煩了,比如數據中心基礎設施和IT基礎設施總是出問題不可想象,一般不太會。

桌面運維的事件其實比較多的,但是往往容易應急,處于救火的模式,往往是服務請求和簡單的支持居多。另外,也主要集中在服務臺和一線運維少數人,所以把事件升級為問題來處理的動力和意愿不不太強烈。所以我建議是,更多的由服務臺主管和事件經理盡可能多的做一些趨勢分析,主動的問題管理。把第一類(同一事件)和第二類(同一類現象的事件)做實,并在周報和運維報告中體現出來。

對于應用運維,其重要性不言而喻,因為都是業務系統。我經常開玩笑說,花幾千萬幾個億做ERP,花幾十萬一兩百萬上一套永服科技的ITSM把SAP/ERP、CRM這些核心系統運維好支持好還是非常值得的。應用系統的問題,除了日常的服務請求之外,真正意義的故障,還是很難快速解決的。所以我的一個建議是,除了把IT部門的開發部門給服務臺做好足夠的賦能做好日常的支持之外,可以把開發部門的支持團隊作為事件管理的三線的基礎上,把開發納入到問題管理。前面是在組織層面上,在技術層面同時把ITSM的問題管理和開發的相關系統對接,比如說和開發的缺陷系統、需求管理系統對接,永服科技這這方面的實踐非常多,比如我們CQ平臺,和JIRA、禪道都對接過,也有一些只記錄缺陷號的。

所有的應用系統的缺陷,都納入問題管理,并實現和開發系統聯動。這樣其實有四個好處:

這樣把開發和運維兩個部門拉通。避免大部分的開發游離在IT服務管理的大的框架之外,做好開發和運維的融合,這樣更多的好處就不用多說了,例如在客觀上會提升應用的可用性。

流程拉通和事件的閉環,變更管理也有了一個好的輸入。缺陷解決了,在問題管理管理,直接發生RFC就很自然了。這樣也就實現了從事件到問題,從問題到變更的有機銜接,做好了應用系統的事件的閉環。

提升了業務部門的滿意度。從永服科技的在眾多大型組織的IT服務管理咨詢和ITSM項目落地的實踐中,也確實看到研發人員的IT服務意識的是不夠的,與服務臺和運維部門的差距挺大的。

有利于ITSM項目在整個組織推廣。傳統的上,研發往往認為IT服務管理系統是運維部門的事情,參與感和參與的意愿不強。

我曾見過一個電商和供應鏈領域的客戶的CEO對問題和SLA非常關注,每周四下午固定的問題分析會,就是組織相關人分析應用系統的問題,每個問題都要找根本原因和解決方案,都有SLA。讓我非常感動,覺得這個客戶應也應該非常有前途,永服科技的ServiceJet-ITSM也能幫到他們。

從我在多年的實踐中,看問題管理用的好,都有上述特點,也就是把研發納入了問題管理,客觀上也做好了應用運維,不管是銀行客戶還是大型的企業客戶,都是如此。

問題管理的KPI見下表:29-2

————————————————