ITIL4 事件管理的最佳的實踐
事件的定義
事件(Incident):服務(wù)的意外中斷或服務(wù)質(zhì)量的下降。與ITIL V3相比,ITIL 4給出的定義更清晰。ITIL 3中把事件定義為“任何可被發(fā)現(xiàn)或辨別的事情,此類事情對于基礎(chǔ)設(shè)施的管理或IT服務(wù)的交付有重要意義,以及有助于評估可能致使服務(wù)出現(xiàn)的誤差?!惫ぞ?/span>
事件管理的目的是“確保將計劃外服務(wù)不可用或降級的時間減至最少,從而減小對用戶的負面影響?!币簿褪钦f,讓服務(wù)快速恢復(fù)。實現(xiàn)這一點的主要因素有兩個:早期事件檢測和快速恢復(fù)服務(wù)正常運行。ITIL 4強調(diào)了早期事件檢測,也就是更主動的進行異常管理,并在故障還未形成業(yè)務(wù)影響時盡快處理。學(xué)習(xí)
事件模型(Incident Model):一種可重復(fù)的方法來管理特定類型的事件。url
ITIL 4在快速恢復(fù)服務(wù)的正常運行方面,提出了“事件模型”的概念,意思是對于某些特定類型的事件,如常常發(fā)生的,能夠定義事件模型,包括解決方案,團隊,人員。那么事件模型的解決方案可使用知識管理實踐。spa
重大事件(Major Incident):具備重大業(yè)務(wù)影響的事件,須要當(dāng)即協(xié)調(diào)解決。.net
重大事件的管理流程每每在大型企業(yè)中,獨立于通常事件管理流程,由于事件影響巨大,須要上報領(lǐng)導(dǎo),也有可能上報監(jiān)管部門。這類事件發(fā)生時,組織須要協(xié)調(diào)資源立刻解決,同時過后須要寫報告,開回顧會等等,比通常的事件作的工做多。建議針對重大事件,制定獨立的流程去管理??墒沁@里的難點在于如何區(qū)分重大事件和普通事件?翻譯
變通方案(Workaround):減小或消除還沒有徹底解決的事件或問題的影響的解決方案。設(shè)計
技術(shù)債:經(jīng)過選擇變通方案而不是須要長時間的系統(tǒng)解決方案而累積的總返工積壓。
每每變通方案的聚焦帶來了技術(shù)債務(wù),能夠經(jīng)過“問題流程”來制定完全的解決方案,消除技術(shù)債務(wù)。
事件管理的范圍
事件管理的范圍包括:
檢測和記錄事件
診斷和調(diào)查事故
將受影響的服務(wù)和CI恢復(fù)到商定的質(zhì)量
管理事件記錄
在整個事件生命周期內(nèi)與相關(guān)利益相關(guān)者溝通
審查事件,并在解決后開始改進服務(wù)和事件管理實踐
當(dāng)咱們說起范圍的時候須要將將事件管理和其余管理實踐的界面。
1. 事件和變動
變動的管理范圍是”對服務(wù)產(chǎn)生直接或間接影響的任何東西的添加、修改或刪除“,也就是說當(dāng)對服務(wù)或產(chǎn)品進行增、刪、改時,咱們應(yīng)該使用變動管理。變動管理解決的是兩個問題:第一, 是否應(yīng)該作,這是變動以前的評估和分析,第二,是否作的正確,這是變動實施時的管控。若是變動完成后,發(fā)生問題,應(yīng)該開事件工單,快速修復(fù),同時關(guān)聯(lián)事件和變動的工單。
有人會說,這樣管理很麻煩,工單開來開去。可是這樣的好處是界面清晰,不須要區(qū)分各類場景。咱們經(jīng)過事件和變動流程界面的清晰分割,也能夠?qū)τ谧儎拥某晒β蔬M行必定的統(tǒng)計。有人會問,若是應(yīng)用的變動失敗了,發(fā)生故障,不須要開事件工單,直接回滾變動就能夠,這樣應(yīng)用的變動成功率同樣能夠統(tǒng)計。確實,可是咱們很差統(tǒng)一事件里面有多少是變動形成的,甚至在事件發(fā)生時,咱們不肯定是不是變動形成的。
從流程制定的角度來考慮,流程盡量不去區(qū)分應(yīng)用的場景,進行場景細分的流程其設(shè)計太復(fù)雜,在實際執(zhí)行過程當(dāng)中容易混淆,形成混亂,最后的統(tǒng)計報表就是不許確的。因此,
2. 事件和服務(wù)請求:
服務(wù)請求是”由用戶或用戶受權(quán)表明提出的發(fā)起服務(wù)行動的請求,該服務(wù)行動已被視為服務(wù)交付的正常部分“。在企業(yè)中,服務(wù)請求大部分被應(yīng)用于桌面支持,如安裝軟件,申請辦公設(shè)備。對于生成系統(tǒng)的服務(wù)請求多用于查詢。若是發(fā)生更改,須要變動流程的支持。
3. 事件與問題:
事件管理的范圍是快速恢復(fù)服務(wù),問題管理的范圍是找根因。每每故障發(fā)生后,服務(wù)恢復(fù)完畢,想知道確切的緣由或者完全的解決方案,用問題管理流程會更合適。
有的企業(yè)把事件管理和問題管理混為一談,服務(wù)恢復(fù)后,業(yè)務(wù)部門不但愿IT部分關(guān)閉事件工單,找到根本緣由才能夠。這樣作的結(jié)果是,有不少故障,服務(wù)已經(jīng)恢復(fù)正常運行,可是事件工單開了好久,事件的統(tǒng)計報表不能真實反映生成環(huán)境服務(wù)的情況。
客戶想知道故障發(fā)生的根本緣由,這是合理的要求。IT能夠用問題流程來找根因,建議有專門的問題經(jīng)理來追蹤。這一點我寫問題管理實踐的時候再詳細描述。
4. 事件和服務(wù)臺:
服務(wù)臺是IT運維部門的窗口,服務(wù)臺的管理更偏向與溝通,話術(shù)等。
5. 事件和“監(jiān)控與事態(tài)”:
事件管理是Incident Management, ITIL 4里把監(jiān)控和事態(tài)(event)寫到了另外一個practice里。監(jiān)控和事態(tài)實踐的范圍是監(jiān)控的范圍,監(jiān)控規(guī)則和閾值的設(shè)定,Event(事態(tài))的分類分級,肯定事件的聯(lián)動規(guī)則。
事件實踐管理的成功因素
事件管理須要關(guān)注如下兩點:
1. 及早發(fā)現(xiàn):
及早發(fā)現(xiàn)的落地實現(xiàn)實現(xiàn)須要強大的監(jiān)控工具支持,流程管理上更多依賴與”監(jiān)控和事態(tài)“管理。
2. 快速恢復(fù)
快速恢復(fù)的實現(xiàn)手段包括
1)集中會診(Swarming):尤為是出現(xiàn)重大故障時,技術(shù)專家要匯集起來,集中解決故障,恢復(fù)服務(wù)。
2)事件模型(Incident Model):對于常常發(fā)生的問題,能夠定義事件模型進行記錄。
3)定義好事件的優(yōu)先級:事件的優(yōu)先級時事件流程在實施過程當(dāng)中的一個難點。通常從”緊急狀況“和”影響范圍“兩個維度來定義事件的優(yōu)先級,但是這兩個維度大部分狀況下也是感性認知,很難用明確的Criteria來定義。因此實施的過程當(dāng)中,客戶也IT部門常常會為優(yōu)先級爭執(zhí)。這一點須要根據(jù)企業(yè)的實際狀況來討論,制定解決辦法。
事件管理的流程
ITIL 4把事件管理的流程分為”事件處理流程“和”事件按期回顧流程“,強調(diào)了事件的過后回顧。
1. 事件處理流程圖見下:
1.主要活動為:
事件檢測:分為用戶匯報或者工具自動檢測
事件登記:服務(wù)臺代理執(zhí)行事件注冊,或者技術(shù)工具自動注冊事件
事件分類:進行類別分類并分派工單,也分為手動和自動
事件診斷:若是分類不能提供對解決方案的理解,技術(shù)專家團隊將執(zhí)行事件診斷。這可能涉及團隊之間事件的升級,或聯(lián)合技術(shù),例如集中診斷。若是分類錯誤是由于CI分配不正確,要將此信息傳達給負責(zé)配置控制的人員。這里注意:事件能夠關(guān)聯(lián)CI項。
事件解決:若是解決方案不正確,須要再次回到事件診斷。
事件關(guān)閉:事件成功解決后,可能須要一些正式的關(guān)閉程序:
●用戶確認服務(wù)恢復(fù)
●處置成本計算和報告
●解決價格計算和開票
●問題調(diào)查啟動
●事件回顧。
2. 事件按期回顧:
事件的指標(biāo)
ITIL 4列了一些指標(biāo)示例,比較經(jīng)常使用的是黑體標(biāo)出的部分:
關(guān)鍵成功因素 重要指標(biāo)
及早發(fā)現(xiàn)事故 事件發(fā)生與檢測之間的時間
經(jīng)過監(jiān)控和事件管理檢測到的事件百分比
快速有效地解決事件
事件檢測和診斷驗收之間的時間
診斷時間
從新分配次數(shù)
等待時間占總事件處理時間的百分比
首次解決率
知足商定的解決時間
用戶對事件處理和解決的滿意度
自動解決的事件百分比(若是實行了“故障自愈”的自動化處理手段)
在用戶報告以前已解決的事件的百分比
持續(xù)改進事件管理方法
使用先前肯定和記錄的解決方案解決事故的百分比
使用事件模型解決的事件百分比隨著時間的推移關(guān)鍵實踐指標(biāo)的改進
事件解決的速度和有效性指標(biāo)之間的平衡
角色和文化
ITIL 4 在事件管理流程中強調(diào)了角色和文化。
事件經(jīng)理(Incident Manager):
Incident Manager最好由專人負責(zé),主要工做包括:
根據(jù)組織設(shè)計,協(xié)調(diào)組織內(nèi)或特定區(qū)域內(nèi)的事件處理,如區(qū)域、產(chǎn)品和技術(shù)
協(xié)調(diào)人工做業(yè)與事故,尤為是涉及多個團隊的事故
監(jiān)督和審查處理和解決事故的團隊的工做
確保在整個組織內(nèi)充分了解事件及其狀態(tài)
按期進行事件審查,并開始改進事件管理實踐、事件模型和事件處理程序
發(fā)展組織在事故管理實踐過程和方法方面的專業(yè)知識
事件經(jīng)理在某些組織下會擔(dān)任重大事件協(xié)調(diào)員的角色,這也是合理的,也能夠和兼任問題經(jīng)理的角色。
若需要ITIL4事件管理完整實踐資料,請點擊右上角注冊賬號后向客服索取!
永服科技有限公司(簡稱“Servicehot”),運用ITIL、ISO20000、ITSS等最佳實踐方法,結(jié)合ServiceHot在國內(nèi)外眾多行業(yè)客戶的IT服務(wù)管理、信息安全管理方面的成功實施經(jīng)驗,協(xié)助客戶梳理并建設(shè)IT管理體系,推動企業(yè)數(shù)字化轉(zhuǎn)型,ServiceHot產(chǎn)品在數(shù)以百計的大型的國企、制造業(yè)、金融、IT互聯(lián)網(wǎng)等行業(yè)完成了實際的應(yīng)用和推廣,主要案例包括:XX省農(nóng)信、建信基金、中原銀行、國信證券、四川長虹、一汽啟明、中國移動、中國石化、華為、深信服、中航西飛、中航成飛、深圳航空、富力集團、華西醫(yī)院、西南民族大學(xué)、瀘州老窖、天原集團等。